rook-ceph pvc할당 이슈
·
Kubernetes/Rook Ceph
rook-ceph pvc할당 이슈[Issue]PVC에 rook-cephfs로 지정한 경우로 PVC 생성을 하였으나 bound가 안되는 상황apiVersion: v1kind: PersistentVolumeClaimmetadata: name: cephfs-pvcspec: accessModes: - ReadWriteMany resources: requests: storage: 1Gi storageClassName: rook-cephfs[solution]Rook-Ceph를 통해 PVC를 할당받지 못하는 이슈는 여러 가지 원인으로 발생할 수 있습니다. 주요 원인과 해결 방안을 단계별로 살펴보겠습니다.Ceph 클러스터 상태 확인PVC를 할당받지 못할 때 먼저 Ceph 클러스터의 상태를 확..
Kubernetes Calico Bird is not ready
·
Kubernetes
Kubernetes Calico Bird is not ready[Issue]calico BIRD is not ready: BGP not establised with xxxxcalico/node is not ready: BIRD is not ready: BGP not establised with XXX[solution]calico bird is not ready 오류는 Calico가 BGP (Border Gateway Protocol) 피어링을 통해 노드 간의 라우팅 정보를 교환할 때 발생하는 문제입니다. bird는 Calico의 BGP 라우팅 데몬으로, 클러스터 내 네트워크 트래픽이 올바르게 전달되도록 설정된 라우팅 정보를 관리하는 역할을 합니다. 이 오류가 발생하면 네트워크 라우팅이 정상적으로 작동하지..
Kubernetes Calico node 시작 시 kube-apiserver의 svc로 통신 실패
·
Kubernetes
Kubernetes Calico node 시작 시 kube-apiserver의 svc로 통신 실패[Issue]Calico node 시작 시에 kube api server의 svc와 통신 실패로 인해 시작을 못하는 상황입니다.2023-06-21 04:03:37.230 [FATAL][29] tunnel-ip-allocator/allocateip.go 201: failed to fetch node resource 'xxxx' error=Get "": dial tcp 10.233.0.1:443: connect: connection refusedCalico node failed to startKubernetes Cluster가 Multi master로 구성되어 있는 상황이고, kube-apiserver의 Se..
TensorFlow Serving
·
카테고리 없음
TensorFlow ServingTensorFlow Serving은 머신러닝 모델을 프로덕션 환경에서 서빙하기 위해 Google에서 개발한 고성능 모델 서빙 시스템입니다.주로 TensorFlow 모델을 서빙하는 데 사용되지만, 다양한 머신러닝 모델을 지원하는 확장성을 갖추고 있어 비즈니스 요구에 맞는 다양한 모델을 배포하고 관리하는 데 적합합니다.TensorFlow Serving의 주요 기능고성능: TensorFlow Serving은 고성능 모델 서빙을 위해 설계되어 요청당 지연 시간을 최소화하고 대규모 요청을 효율적으로 처리합니다.유연성: 여러 버전의 모델을 동시에 서빙할 수 있어, 새로운 모델을 테스트하거나 단계적으로 롤아웃하는 등의 작업을 쉽게 수행할 수 있습니다.자동 재로딩: 모델의 업데이트가 필..
NVIDIA Triton Inference Server with KNative Serving
·
NVIDIA Triton Inference Server
NVIDIA Triton Inference Server with KNative ServingNVIDIA Triton Inference Server와 Knative Serving는 AI 모델의 배포와 운영을 위한 강력한 도구들로, 각각 고유한 특징을 갖고 있습니다.이 둘을 결합하면 확장성 높은 AI 서비스 인프라를 구축할 수 있습니다. 아래에서 각각에 대해 설명드리겠습니다.NVIDIA Triton Inference ServerTriton Inference Server는 NVIDIA가 개발한 고성능의 AI 모델 추론 서버로, 다양한 모델 포맷과 프레임워크를 지원하며, GPU 및 CPU에서의 추론을 최적화하는 데 초점을 맞춥니다. 주요 특징은 다음과 같습니다.다양한 모델 포맷 지원:Triton은 TensorF..
NVIDIA Triton Inference Server with MLflow
·
NVIDIA Triton Inference Server
NVIDIA Triton Inference Server with MLflowNVIDIA Triton Inference Server와 MLflow를 연동하여 모델을 관리하고 모니터링하는 방법은 주로 Triton에서 모델을 서빙하고, MLflow에서 모델의 버전 관리, 실험 추적, 메타데이터 관리 등을 하는 식으로 구현할 수 있습니다.1. 모델 관리 및 배포모델을 MLflow로 관리MLflow에 모델을 등록하여 모델 버전을 관리하고 실험 결과를 추적합니다.모델을 저장할 때는 mlflow.log_model()을 사용해 로컬 또는 원격의 MLflow 서버에 모델을 저장합니다.모델 훈련 후, MLflow에서 제공하는 log_model 함수를 통해 훈련된 모델을 MLflow 서버에 등록합니다. 예를 들어, PyTo..
NVIDIA Triton Inference Server with KubeFlow
·
NVIDIA Triton Inference Server
NVIDIA Triton Inference Server with KubeFlowNVIDIA Triton Inference Server를 Kubeflow와 연동하는 것은 AI 모델 서빙 파이프라인을 자동화하고 확장성을 높이는 데 유용합니다.Kubeflow는 파이프라인을 관리하고, Triton은 고성능의 모델 추론을 담당하게 됩니다. 아래는 Triton과 Kubeflow를 연동하는 일반적인 절차입니다1. Kubeflow 설치Kubeflow는 Kubernetes 클러스터 위에 배포됩니다. 이미 설치되어 있는 경우 이 단계를 건너뛰어도 됩니다.kubectl을 사용하여 클러스터에 Kubeflow를 설치합니다.설치 후 Kubeflow 대시보드에 접근하여 올바르게 설치되었는지 확인합니다.2. Triton Infere..
NVIDIA Triton Inference server with Grafana
·
NVIDIA Triton Inference Server
NVIDIA Triton Inference server with GrafanaNVIDIA Triton Inference Server와 Grafana를 활용하여 AI 모델의 추론 성능과 시스템의 상태를 모니터링하는 방법은 아래와 같습니다.  1. Triton Inference Server에서 Metrics 활성화하기Triton Inference Server는 Prometheus 형식으로 메트릭을 제공하므로, 설정에서 metrics 옵션을 활성화하고 metrics-port를 지정하여 외부로 노출합니다.예를 들어, 다음과 같은 설정을 사용합니다.tritonserver --model-repository=/models --metrics=true --metrics-port=8002활성화하면 추론 성능, 요청 수, ..
김 정출