생성형 AI 모델 배포

Gemini와 같은 일부 생성형 AI 모델에는 관리형 API가 있으며 배포 없이 프롬프트를 허용할 준비가 되어 있습니다. 관리형 API를 사용하는 모델 목록은 기반 모델 API를 참조하세요.

다른 생성형 AI 모델은 엔드포인트에 배포해야만 프롬프트를 허용할 수 있습니다. 배포해야 하는 생성 모델에는 두 가지 유형이 있습니다.

조정된 모델: 지원되는 파운데이션 모델을 자체 데이터로 조정하여 만듭니다.
관리형 API가 없는 생성 모델 Model Garden에서 API 사용 가능 또는 Vertex AI Studio로 라벨이 지정되지 않은 모델(예: Llama 2)입니다.

엔드포인트에 모델을 배포하면 Vertex AI가 프롬프트 요청을 처리할 수 있도록 컴퓨팅 리소스와 URI를 모델과 연결합니다.

조정된 모델 배포

조정된 모델은 Vertex AI Model Registry에 자동으로 업로드되고 Vertex AI 공유 공개 endpoint에 배포됩니다. 조정된 모델은 자체 데이터로 조정되므로 Model Garden에 표시되지 않습니다. 자세한 내용은 모델 조정 개요를 참조하세요.

엔드포인트가 활성 상태가 되면 URI에서 프롬프트 요청을 허용할 수 있습니다. 조정된 모델의 API 호출 형식은 조정된 파운데이션 모델과 동일합니다. 예를 들어 모델이 Gemini에서 조정된 경우 프롬프트 요청은 Gemini API를 따라야 합니다.

관리형 API 대신 조정된 모델의 엔드포인트에 프롬프트 요청을 전송해야 합니다. 조정된 모델의 엔드포인트 형식은 다음과 같습니다.

https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID

엔드포인트 ID를 가져오려면 엔드포인트 보기 또는 관리하기를 참조하세요.

프롬프트 요청 형식 지정에 관한 자세한 내용은 모델 API 참조를 참조하세요.

관리형 API가 없는 생성 모델 배포

관리형 API가 없는 Model Garden의 모델을 사용하려면 먼저 모델을 Model Registry에 업로드하고 엔드포인트에 배포한 다음 프롬프트 요청을 전송해야 합니다. 이는 Vertex AI에서 온라인 예측을 위해 커스텀 학습 모델을 업로드하고 배포하는 것과 유사합니다.

이러한 모델 중 하나를 배포하려면 Model Garden으로 이동하여 배포할 모델을 선택하세요.

Model Garden으로 이동

각 모델 카드에는 다음 배포 옵션 중 하나 이상이 표시됩니다.

배포 버튼: Model Garden에서 대부분의 생성 모델에는 Vertex AI에 배포하는 방법을 안내하는 배포 버튼이 있습니다. 배포 버튼이 표시되지 않으면 다음 글머리 기호로 이동합니다.

Vertex AI에 배포하는 경우 추천 설정을 사용하거나 수정할 수 있습니다. 예를 들어 고급 배포 설정을 지정하여 Compute Engine 예약을 선택할 수도 있습니다.

참고: 일부 모델은 더 세밀한 제어를 제공하는 비관리형 솔루션인 Google Kubernetes Engine에 대한 배포도 지원합니다. 자세한 내용은 GKE에서 단일 GPU로 모델 제공을 참조하세요.
노트북 열기 버튼: 이 옵션을 선택하면 Jupyter 노트북이 열립니다. 모든 모델 카드에 이 옵션이 표시됩니다. Jupyter 노트북에는 모델을 Model Registry에 업로드하고, 모델을 엔드포인트에 배포하고, 프롬프트 요청을 전송하는 방법에 관한 안내와 샘플 코드가 포함되어 있습니다.

배포가 완료되고 엔드포인트가 활성 상태가 되면 URI에서 프롬프트 요청을 허용할 수 있습니다. API 형식은 predict이며 요청 본문에서 각 instance의 형식은 모델에 따라 다릅니다. 자세한 내용은 다음 리소스를 참조하세요.

모델을 배포할 수 있는 머신 할당량이 충분한지 확인합니다. 현재 할당량을 확인하거나 추가 할당량을 요청하려면 Google Cloud 콘솔에서 할당량 페이지로 이동합니다.

할당량으로 이동

그런 다음 할당량 이름 Custom Model Serving으로 필터링하여 온라인 예측 할당량을 확인합니다. 자세한 내용은 할당량 보기 및 관리를 참조하세요.

Compute Engine 예약으로 배포된 모델의 용량 보장

Compute Engine 예약을 통해 할당된 VM 리소스에 Model Garden 모델을 배포할 수 있습니다. 예약을 통해 모델 예측 요청 시 필요한 용량을 사용할 수 있습니다. 자세한 내용은 예측과 함께 예약 사용을 참조하세요.

모델 보기 또는 관리

조정된 모델의 경우 Google Cloud 콘솔의 조정 및 정제 페이지에서 모델과 조정 작업을 볼 수 있습니다.

조정 및 정제로 이동

Model Registry에서 업로드된 모든 모델을 확인하고 관리할 수도 있습니다.

Model Registry로 이동

Model Registry에서 조정된 모델은 대규모 모델로 분류되며, 파운데이션 모델 및 조정에 사용된 파이프라인 또는 조정 작업을 지정하는 라벨이 있습니다.

배포 버튼으로 배포된 모델은 Source로 Model Garden을 나타냅니다. Model Garden에서 모델이 업데이트되면 Model Registry에 업로드된 모델은 업데이트되지 않습니다.

자세한 내용은 Vertex AI Model Registry 소개를 참조하세요.

엔드포인트 보기 또는 관리

엔드포인트를 보고 관리하려면 Vertex AI 온라인 예측 페이지로 이동하세요. 기본적으로 엔드포인트 이름은 모델 이름과 동일합니다.

온라인 예측으로 이동

자세한 내용은 모델을 엔드포인트에 배포를 참조하세요.

모델 엔드포인트 트래픽 모니터링

모델 엔드포인트 트래픽을 모니터링하는 방법을 알아보려면 모델 모니터링을 참조하세요.

제한사항

조정된 Gemini 모델은 공유된 공개 엔드포인트에만 배포할 수 있습니다. 전용 공개 엔드포인트, Private Service Connect 엔드포인트, 비공개 엔드포인트로의 배포는 지원되지 않습니다.

가격 책정

조정된 모델의 경우 모델이 조정된 파운데이션 모델과 동일한 요율로 토큰당 청구됩니다. 조정이 파운데이션 모델 위에 작은 어댑터로 구현되므로 엔드포인트에는 비용이 들지 않습니다. 자세한 내용은 Vertex AI의 생성형 AI 가격 책정을 참조하세요.

관리형 API가 없는 모델의 경우 엔드포인트에서 사용한 머신 시간에 대해 Vertex AI 온라인 예측과 동일한 요율로 비용이 청구됩니다. 토큰별로 요금이 청구되지 않습니다. 자세한 내용은 Vertex AI의 예측 가격 책정을 참조하세요.