생성형 AI 모델 배포

이 페이지에서는 온라인 추론을 위해 엔드포인트에 생성형 AI 모델을 배포하는 방법을 안내합니다.

Model Garden 확인

모델이 Model Garden에 있으면 배포(일부 모델에서 사용 가능) 또는 노트북 열기를 클릭하여 배포할 수 있습니다.

Model Garden으로 이동

그렇지 않으면 다음 중 하나를 수행할 수 있습니다.

모델이 Model Garden에 있는 모델과 비슷하면 Model Garden 컨테이너 중 하나를 직접 재사용할 수 있습니다.
Vertex AI Model Registry에 모델을 가져오기 전에 커스텀 컨테이너 추론 요구사항을 준수하는 자체 커스텀 컨테이너를 빌드합니다. 가져온 후에는 엔드포인트에 배포할 수 있는 model 리소스가 됩니다.

Model Garden 컨테이너를 빌드하기 위해 사용되는 Dockerfile 및 스크립트를 참조 또는 출발지로 사용해서 자체 커스텀 컨테이너를 빌드할 수 있습니다.

NVIDIA NIM으로 추론 제공

NVIDIA 추론 마이크로서비스(NIM)는 마이크로서비스로 패키징된 사전 학습 및 최적화된 AI 모델입니다. 프로덕션에 즉시 사용 가능한 고성능 AI를 애플리케이션에 간편하게 배포할 수 있도록 설계되었습니다.

NVIDIA NIM을 Artifact Registry 및 Vertex AI와 함께 사용하면 온라인 추론용 생성형 AI 모델을 배포할 수 있습니다.

커스텀 컨테이너 설정

이 섹션에서는 생성형 AI 모델을 가져올 때 지정해야 할 수 있는 모델의 containerSpec의 필드에 대해 설명합니다.

Vertex AI REST API 또는 gcloud ai models upload 명령어를 사용하여 이러한 필드를 지정할 수 있습니다. 자세한 내용은 컨테이너 관련 API 필드를 참조하세요.

sharedMemorySizeMb

일부 생성형 AI 모델은 더 많은 공유 메모리가 필요합니다. 공유 메모리는 여러 프로세스가 공통 메모리 블록을 액세스 및 조작하도록 허용하는 프로세스 간 커뮤니케이션(IPC) 메커니즘입니다. 기본 공유 메모리 크기는 64MB입니다.

vLLM 또는 Nvidia Triton과 같은 일부 모델 서버는 공유 메모리를 사용해서 모델 추론 중 내부 데이터를 캐시합니다. 공유 메모리가 충분하지 않으면 일부 모델 서버가 생성형 모델을 위한 추론을 제공할 수 없습니다. 필요한 공유 메모리 양은 컨테이너 및 모델에 대한 구현 세부정보입니다. 가이드라인은 해당 모델 서버 문서를 참조하세요.

또한 GPU 커뮤니케이션 전반에서 공유 메모리를 사용할 수 있기 때문에 모델 컨테이너에 GPU 간 커뮤니케이션이 필요한 경우 더 많은 공유 메모리를 사용하면 NVLink 기능(예: L4) 없이도 가속기 성능을 향상시킬 수 있습니다.

공유 메모리의 커스텀 값을 지정하는 방법은 컨테이너 관련 API 필드를 참조하세요.

startupProbe

시작 프로브는 컨테이너가 시작되었을 때 이를 감지하기 위해 사용되는 선택적인 프로브입니다. 이 프로브는 컨테이너가 시작될 때까지 상태 프로브 및 활성 확인을 지연시키기 위해 사용됩니다. 따라서 느리게 시작되는 컨테이너가 조기에 종료되지 않도록 방지하는 데 도움이 됩니다.

자세한 내용은 상태 점검을 참조하세요.

healthProbe

상태 프로브는 컨테이너에서 트래픽을 수락할 준비가 되었는지 확인합니다. 상태 프로브가 제공되지 않았으면 Vertex AI에서 컨테이너 포트에 대해 HTTP 요청을 수행하고 모델 서버에서 200 OK 응답을 확인하는 기본 상태 점검이 사용됩니다.

대규 모델에서 발생 가능한 경우와 같이 모델이 완전히 로드되기 전에 모델 서버가 200 OK로 응답하면 상태 점검이 작업을 성공한 것으로 잘못 표시되고 준비가 완료되기 전에 Vertex AI가 트래픽을 컨테이너로 라우팅합니다.

이러한 경우 모델이 완전히 로드되고 트래픽을 수락할 준비가 완료된 다음에만 작업이 성공하는 커스텀 상태 프로브를 지정합니다.

자세한 내용은 상태 점검을 참조하세요.

제한사항

생성형 AI 모델을 배포할 때는 다음 제한사항을 고려하세요.

생성형 AI 모델은 단일 머신에만 배포될 수 있습니다. 멀티 호스트 배포는 지원되지 않습니다.
지원되는 최대 vRAM에 맞지 않는 매우 대형 모델(예: Llama 3.1 405B)의 경우 모델이 적합하도록 양자화하는 것이 좋습니다.