이 튜토리얼에서는 Model Garden을 사용하여 GPU 지원 Vertex AI 엔드포인트에 Gemma 2B 개방형 모델을 배포합니다. 모델을 온라인 예측을 제공하는 데 사용하려면 먼저 엔드포인트에 모델을 배포해야 합니다. 모델을 배포하면 물리적 리소스가 모델과 연결되므로 짧은 지연 시간으로 온라인 예측을 제공할 수 있습니다.
Gemma 2B 모델을 배포한 후 PredictionServiceClient
를 사용하여 온라인 예측을 가져와 학습된 모델을 추론합니다. 온라인 예측은 엔드포인트에 배포된 모델에 수행되는 동기식 요청입니다.
목표
이 튜토리얼에서는 다음 작업을 수행하는 방법을 보여줍니다.
- Model Garden을 사용하여 GPU 지원 엔드포인트에 Gemma 2B 개방형 모델 배포
PredictionServiceClient
를 사용하여 온라인 예측 수행
비용
이 문서에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.
프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요.
이 문서에 설명된 태스크를 완료했으면 만든 리소스를 삭제하여 청구가 계속되는 것을 방지할 수 있습니다. 자세한 내용은 삭제를 참조하세요.
시작하기 전에
이 튜토리얼을 완료하려면 다음이 필요합니다.
- Google Cloud 프로젝트를 설정하고 Vertex AI API를 사용 설정합니다.
- 로컬 머신에서 다음 단계를 따르세요.
- Google Cloud CLI로 설치, 초기화, 인증
- 사용 언어의 SDK 설치
Google Cloud 프로젝트 설정
프로젝트를 설정하고 Google Cloud Vertex AI API를 사용 설정합니다.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
Google Cloud CLI 설정
로컬 머신에서 Google Cloud CLI를 설정합니다.
-
Google Cloud CLI를 설치하고 초기화합니다.
-
이전에 gcloud CLI를 설치한 경우 이 명령어를 실행하여
gcloud
구성요소가 업데이트되었는지 확인합니다.gcloud components update
-
gcloud CLI로 인증하려면 이 명령어를 실행하여 로컬 애플리케이션 기본 사용자 인증 정보 (ADC) 파일을 생성합니다. 명령어로 실행된 웹 흐름은 사용자 인증 정보를 제공하는 데 사용됩니다.
gcloud auth application-default login
자세한 내용은 gcloud CLI 인증 구성 및 ADC 구성을 참고하세요.
프로그래밍 언어의 SDK 설정
이 튜토리얼에서 사용되는 환경을 설정하려면 언어의 Vertex AI SDK와 Protocol Buffers 라이브러리를 설치합니다. 코드 샘플은 프로토콜 버퍼 라이브러리의 함수를 사용하여 입력 사전을 API에서 예상하는 JSON 형식으로 변환합니다.
로컬 머신에서 다음 탭 중 하나를 클릭하여 프로그래밍 언어의 SDK를 설치합니다.
Python
로컬 머신에서 다음 탭 중 하나를 클릭하여 프로그래밍 언어의 SDK를 설치합니다.
이 명령어를 실행하여 Vertex AI SDK for Python을 설치하고 업데이트합니다.
pip3 install --upgrade "google-cloud-aiplatform>=1.64"
이 명령어를 실행하여 Python용 Protocol Buffers 라이브러리를 설치합니다.
pip3 install --upgrade "protobuf>=5.28"
Node.js
다음 명령어를 실행하여 Node.js용 aiplatform
SDK를 설치하거나 업데이트합니다.
npm install @google-cloud/aiplatform
자바
google-cloud-aiplatform
를 종속 항목으로 추가하려면 환경에 적절한 코드를 추가합니다.
BOM이 있는 Maven
pom.xml
에 다음 HTML을 추가합니다.
<dependencyManagement> <dependencies> <dependency> <artifactId>libraries-bom</artifactId> <groupId>com.google.cloud</groupId> <scope>import</scope> <type>pom</type> <version>26.34.0</version> </dependency> </dependencies> </dependencyManagement> <dependencies> <dependency> <groupId>com.google.cloud</groupId> <artifactId>google-cloud-aiplatform</artifactId> </dependency> <dependency> <groupId>com.google.protobuf</groupId> <artifactId>protobuf-java-util</artifactId> </dependency> <dependency> <groupId>com.google.code.gson</groupId> <artifactId>gson</artifactId> </dependency> </dependencies>
BOM이 없는 Maven
pom.xml
에 다음을 추가합니다.
<dependency> <groupId>com.google.cloud</groupId> <artifactId>google-cloud-aiplatform</artifactId> <version>1.1.0</version> </dependency> <dependency> <groupId>com.google.protobuf</groupId> <artifactId>protobuf-java-util</artifactId> <version>5.28</version> </dependency> <dependency> <groupId>com.google.code.gson</groupId> <artifactId>gson</artifactId> <version>2.11.0</version> </dependency>
BOM이 없는 Gradle
build.gradle
에 다음을 추가합니다.
implementation 'com.google.cloud:google-cloud-aiplatform:1.1.0'
Go
다음 명령어를 실행하여 이러한 Go 패키지를 설치합니다.
go get cloud.google.com/go/aiplatform go get google.golang.org/protobuf go get github.com/googleapis/gax-go/v2
Model Garden을 사용하여 Gemma 배포
Gemma 2B 모델을 g2-standard-12
Compute Engine 가속기 최적화 머신 유형에 배포합니다. 이 머신에는 NVIDIA L4 GPU 가속기 1개가 연결되어 있습니다.
이 튜토리얼에서는 Model Garden의 모델 카드를 사용하여 명령어 조정된 Gemma 2B 공개 모델을 배포합니다. 특정 모델 버전은 gemma2-2b-it
입니다. -it
은 명령어 조정을 나타냅니다.
Gemma 2B 모델은 매개변수 크기가 작으므로 리소스 요구사항이 적고 배포 유연성이 높습니다.
Google Cloud 콘솔에서 Model Garden 페이지로 이동합니다.
Gemma 2 모델 카드를 클릭합니다.
배포를 클릭하여 모델 배포 창을 엽니다.
모델 배포 창에서 다음 세부정보를 지정합니다.
배포 환경에서 Vertex AI를 클릭합니다.
모델 배포 섹션에서 다음을 수행합니다.
리소스 ID에
gemma-2b-it
를 선택합니다.모델 이름 및 엔드포인트 이름의 경우 기본값을 사용합니다. 예를 들면 다음과 같습니다.
- 모델 이름:
gemma2-2b-it-1234567891234
- 엔드포인트 이름:
gemma2-2b-it-mg-one-click-deploy
엔드포인트 이름을 기록해 둡니다. 코드 샘플에 사용된 엔드포인트 ID를 찾으려면 이 ID가 필요합니다.
- 모델 이름:
배포 설정 섹션에서 다음을 수행합니다.
기본 설정의 기본 옵션을 수락합니다.
리전의 경우 기본값을 사용하거나 목록에서 리전을 선택합니다. 리전을 기록해 둡니다. 코드 샘플에 필요합니다.
머신 사양에서 GPU 지원 인스턴스(
1 NVIDIA_L4 g2-standard-12
)를 선택합니다.
배포를 클릭합니다. 배포가 완료되면 새 엔드포인트에 관한 세부정보가 포함된 이메일이 전송됩니다. 온라인 예측 > 엔드포인트를 클릭하고 리전을 선택하여 엔드포인트 세부정보를 볼 수도 있습니다.
PredictionServiceClient로 Gemma 2B 추론
Gemma 2B를 배포한 후 PredictionServiceClient
를 사용하여 '하늘은 왜 파랗지?'라는 프롬프트에 대한 온라인 예측을 가져옵니다.
코드 매개변수
PredictionServiceClient
코드 샘플을 사용하려면 다음을 업데이트해야 합니다.
PROJECT_ID
: 프로젝트 ID를 찾으려면 다음 단계를 따르세요.Google Cloud 콘솔에서 시작하기 페이지로 이동합니다.
페이지 상단의 프로젝트 선택기에서 프로젝트를 선택합니다.
프로젝트 이름, 프로젝트 번호, 프로젝트 ID가 시작하기 제목 뒤에 표시됩니다.
ENDPOINT_REGION
: 엔드포인트를 배포한 리전입니다.ENDPOINT_ID
: 엔드포인트 ID를 찾으려면 콘솔에서 확인하거나gcloud ai endpoints list
명령어를 실행합니다. 모델 배포 창의 엔드포인트 이름과 리전이 필요합니다.콘솔
온라인 예측 > 엔드포인트를 클릭하고 리전을 선택하여 엔드포인트 세부정보를 볼 수 있습니다.
ID
열에 표시되는 번호를 확인합니다.gcloud
gcloud ai endpoints list
명령어를 실행하여 엔드포인트 세부정보를 볼 수 있습니다.gcloud ai endpoints list \ --region=ENDPOINT_REGION \ --filter=display_name=ENDPOINT_NAME
출력은 다음과 같습니다.
Using endpoint [https://us-central1-aiplatform.googleapis.com/] ENDPOINT_ID: 1234567891234567891 DISPLAY_NAME: gemma2-2b-it-mg-one-click-deploy
샘플 코드
언어의 샘플 코드에서 PROJECT_ID
, ENDPOINT_REGION
, ENDPOINT_ID
를 업데이트합니다. 그런 다음 코드를 실행합니다.
Python용 Vertex AI SDK
Python용 Vertex AI SDK를 설치하거나 업데이트하는 방법은 Python용 Vertex AI SDK 설치를 참조하세요. 자세한 내용은 Python용 Vertex AI SDK API 참조 문서를 확인하세요.
Node.js
이 샘플을 사용해 보기 전에 Vertex AI 빠른 시작: 클라이언트 라이브러리 사용의 Node.js 설정 안내를 따르세요. 자세한 내용은 Vertex AI Node.js API 참고 문서를 참조하세요.
Vertex AI에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
Java
이 샘플을 사용해 보기 전에 Vertex AI 빠른 시작: 클라이언트 라이브러리 사용의 Java 설정 안내를 따르세요. 자세한 내용은 Vertex AI Java API 참고 문서를 참조하세요.
Vertex AI에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
Go
이 샘플을 사용해 보기 전에 Vertex AI 빠른 시작: 클라이언트 라이브러리 사용의 Go 설정 안내를 따르세요. 자세한 내용은 Vertex AI Go API 참고 문서를 참조하세요.
Vertex AI에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
삭제
이 튜토리얼에서 사용된 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 리소스가 포함된 프로젝트를 삭제하거나 프로젝트를 유지하고 개별 리소스를 삭제하세요.
프로젝트 삭제
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
개별 리소스 삭제
프로젝트를 유지하려면 이 튜토리얼에서 사용된 리소스를 삭제합니다.
- 모델 배포 취소 및 엔드포인트 삭제
- Model Registry에서 모델 삭제
모델 배포 취소 및 엔드포인트 삭제
다음 방법 중 하나를 사용하여 모델을 배포 해제하고 엔드포인트를 삭제합니다.
콘솔
Google Cloud 콘솔에서 온라인 예측을 클릭한 다음 엔드포인트를 클릭합니다.
리전 드롭다운 목록에서 엔드포인트를 배포한 리전을 선택합니다.
엔드포인트 이름을 클릭하여 세부정보 페이지를 엽니다. 예를 들면
gemma2-2b-it-mg-one-click-deploy
입니다.Gemma 2 (Version 1)
모델 행에서 작업을 클릭한 다음 엔드포인트에서 모델 배포 취소를 클릭합니다.엔드포인트에서 모델 배포 취소 대화상자에서 배포 취소를 클릭합니다.
뒤로 버튼을 클릭하여 엔드포인트 페이지로 돌아갑니다.
gemma2-2b-it-mg-one-click-deploy
행 끝에서 작업을 클릭한 다음 엔드포인트 삭제를 선택합니다.확인 메시지에서 확인을 클릭합니다.
gcloud
Google Cloud CLI를 사용하여 모델을 배포 해제하고 엔드포인트를 삭제하려면 다음 단계를 따르세요.
이 명령어에서 다음을 바꿉니다.
- PROJECT_ID를 프로젝트 이름으로 바꿉니다.
- LOCATION_ID을 모델과 엔드포인트를 배포한 리전으로 바꿉니다.
- ENDPOINT_ID을 엔드포인트 ID로 바꿉니다.
- DEPLOYED_MODEL_NAME: 모델의 표시 이름
- DEPLOYED_MODEL_ID를 모델 ID로 바꿉니다.
gcloud ai endpoints list
명령어를 실행하여 엔드포인트 ID를 가져옵니다. 이 명령어는 프로젝트의 모든 엔드포인트의 엔드포인트 ID를 나열합니다. 이 튜토리얼에서 사용된 엔드포인트의 ID를 기록해 둡니다.gcloud ai endpoints list \ --project=PROJECT_ID \ --region=LOCATION_ID
출력은 다음과 같습니다. 출력에서 ID는
ENDPOINT_ID
입니다.Using endpoint [https://us-central1-aiplatform.googleapis.com/] ENDPOINT_ID: 1234567891234567891 DISPLAY_NAME: gemma2-2b-it-mg-one-click-deploy
gcloud ai models describe
명령어를 실행하여 모델 ID를 가져옵니다. 이 튜토리얼에서 배포한 모델의 ID를 기록해 둡니다.gcloud ai models describe DEPLOYED_MODEL_NAME \ --project=PROJECT_ID \ --region=LOCATION_ID
축약된 출력은 다음과 같습니다. 출력에서 ID는
deployedModelId
입니다.Using endpoint [https://us-central1-aiplatform.googleapis.com/] artifactUri: [URI removed] baseModelSource: modelGardenSource: publicModelName: publishers/google/models/gemma2 ... deployedModels: - deployedModelId: '1234567891234567891' endpoint: projects/12345678912/locations/us-central1/endpoints/12345678912345 displayName: gemma2-2b-it-12345678912345 etag: [ETag removed] modelSourceInfo: sourceType: MODEL_GARDEN name: projects/123456789123/locations/us-central1/models/gemma2-2b-it-12345678912345 ...
엔드포인트에서 모델 배포를 취소합니다. 이전 명령어의 엔드포인트 ID와 모델 ID가 필요합니다.
gcloud ai endpoints undeploy-model ENDPOINT_ID \ --project=PROJECT_ID \ --region=LOCATION_ID \ --deployed-model-id=DEPLOYED_MODEL_ID
이 명령어는 출력을 생성하지 않습니다.
gcloud ai endpoints delete
명령어를 실행하여 엔드포인트를 삭제합니다.gcloud ai endpoints delete ENDPOINT_ID \ --project=PROJECT_ID \ --region=LOCATION_ID
메시지가 표시되면
y
를 입력하여 확인합니다. 이 명령어는 출력을 생성하지 않습니다.
모델 삭제
콘솔
Google Cloud 콘솔의 Vertex AI 섹션에서 Model Registry 페이지로 이동합니다.
리전 드롭다운 목록에서 모델을 배포한 리전을 선택합니다.
gemma2-2b-it-1234567891234
행 끝에서 작업을 클릭합니다.모델 삭제를 선택합니다.
모델을 삭제하면 모든 관련 모델 버전과 평가가 Google Cloud 프로젝트에서 삭제됩니다.
확인 메시지에서 삭제를 클릭합니다.
gcloud
Google Cloud CLI를 사용하여 모델을 삭제하려면 gcloud ai models delete
명령어에 모델의 표시 이름과 지역을 제공합니다.
gcloud ai models delete DEPLOYED_MODEL_NAME \
--project=PROJECT_ID \
--region=LOCATION_ID
DEPLOYED_MODEL_NAME을 모델의 표시 이름으로 바꿉니다. PROJECT_ID을 프로젝트 이름으로 바꿉니다. LOCATION_ID을 모델을 배포한 리전으로 바꿉니다.
다음 단계
- Gemma 개방형 모델에 관해 자세히 알아보세요.
- Gemma 이용약관을 읽어보세요.
- 개방형 모델에 대해 자세히 알아보세요.
- 조정된 모델을 배포하는 방법을 알아보세요.
- HuggingFace Textgen 추론 (TGI)을 사용하여 Gemma 2를 Google Kubernetes Engine에 배포하는 방법을 알아보세요.
- 원하는 언어(Python, Node.js, Java, Go)로
PredictionServiceClient
에 관해 자세히 알아보세요.