Vertex AI는 노드를 할당하여 온라인 및 일괄 예측을 처리합니다.
온라인 예측을 제공하기 위해 Endpoint
리소스에 커스텀 학습 모델 또는 AutoML 모델을 배포하거나 일괄 예측을 요청할 때 예측 서비스가 이러한 노드에 사용하는 가상 머신 유형을 맞춤설정할 수 있습니다. 원하는 경우 GPU를 사용하도록 예측 노드를 구성할 수 있습니다.
머신 유형 간에는 다음과 같은 차이점이 있습니다.
- 노드당 가상 CPU 수(vCPU)
- 노드당 메모리 양
- 가격 책정
컴퓨팅 리소스가 더 많은 머신 유형을 선택하면 더 짧은 지연 시간으로 예측을 수행하거나 동시에 더 많은 예측 요청을 처리할 수 있습니다.
비용 및 가용성 관리
비용 관리나 VM 리소스 가용성 보장에 도움이 되도록 Vertex AI는 다음을 제공합니다.
예측 작업에 VM 리소스가 필요할 때 VM 리소스를 사용할 수 있도록 보장하려면 Compute Engine 예약을 사용하면 됩니다. 예약을 사용하면 높은 확신으로 Compute Engine 리소스 용량을 확보할 수 있습니다. 자세한 내용은 예측과 함께 예약 사용을 참조하세요.
예측 작업 실행 비용을 줄이려면 스팟 VM을 사용하면 됩니다. 스팟 VM은 Compute Engine 용량을 초과하는 가상 머신(VM) 인스턴스입니다. 스팟 VM에는 상당한 할인이 적용되지만 Compute Engine은 언제든지 용량을 회수하기 위해 스팟 VM을 사전에 중지하거나 삭제할 수 있습니다. 자세한 내용은 예측과 함께 스팟 VM 사용을 참조하세요.
컴퓨팅 리소스 지정 위치
온라인 예측
커스텀 학습 모델 또는 AutoML 테이블 형식 모델을 사용하여 온라인 예측을 제공하려면 Model
리소스를 DeployedModel
로 Endpoint
에 배포할 때 머신 유형을 지정해야 합니다. 다른 유형의 AutoML 모델의 경우 Vertex AI가 머신 유형을 자동으로 구성합니다.
DeployedModel
의 dedicatedResources.machineSpec
필드에 머신 유형(원하는 경우 GPU 구성)을 지정합니다.
각 모델 유형을 배포하는 방법을 알아봅니다.
- Google Cloud console에서 AutoML 테이블 형식 모델 배포
- Google Cloud console에서 커스텀 학습 모델 배포
- 클라이언트 라이브러리를 사용하여 커스텀 학습 모델 배포
일괄 예측
커스텀 학습 모델 또는 AutoML 테이블 형식 모델에서 일괄 예측을 수행하려면 BatchPredictionJob
리소스를 만들 때 머신 유형을 지정해야 합니다. BatchPredictionJob
의 dedicatedResources.machineSpec
필드에 머신 유형(원하는 경우 GPU 구성)을 지정합니다.
머신 유형
다음 표에서는 커스텀 학습 모델과 AutoML 테이블 형식 모델에서 예측을 제공하는 데 사용 가능한 머신 유형을 비교합니다.
E2 시리즈
이름 | vCPUs | 메모리(GB) |
---|---|---|
e2-standard-2 |
2 | 8 |
e2-standard-4 |
4 | 16 |
e2-standard-8 |
8 | 32 |
e2-standard-16 |
16 | 64 |
e2-standard-32 |
32 | 128 |
e2-highmem-2 |
2 | 16 |
e2-highmem-4 |
4 | 32 |
e2-highmem-8 |
8 | 64 |
e2-highmem-16 |
16 | 128 |
e2-highcpu-2 |
2 | 2 |
e2-highcpu-4 |
4 | 4 |
e2-highcpu-8 |
8 | 8 |
e2-highcpu-16 |
16 | 16 |
e2-highcpu-32 |
32 | 32 |
N1 시리즈
이름 | vCPUs | 메모리(GB) |
---|---|---|
n1-standard-2 |
2 | 7.5 |
n1-standard-4 |
4 | 15 |
n1-standard-8 |
8 | 30 |
n1-standard-16 |
16 | 60 |
n1-standard-32 |
32 | 120 |
n1-highmem-2 |
2 | 13 |
n1-highmem-4 |
4 | 26 |
n1-highmem-8 |
8 | 52 |
n1-highmem-16 |
16 | 104 |
n1-highmem-32 |
32 | 208 |
n1-highcpu-4 |
4 | 3.6 |
n1-highcpu-8 |
8 | 7.2 |
n1-highcpu-16 |
16 | 14.4 |
n1-highcpu-32 |
32 | 28.8 |
N2 시리즈
이름 | vCPUs | 메모리(GB) |
---|---|---|
n2-standard-2 |
2 | 8 |
n2-standard-4 |
4 | 16 |
n2-standard-8 |
8 | 32 |
n2-standard-16 |
16 | 64 |
n2-standard-32 |
32 | 128 |
n2-standard-48 |
48 | 192 |
n2-standard-64 |
64 | 256 |
n2-standard-80 |
80 | 320 |
n2-standard-96 |
96 | 384 |
n2-standard-128 |
128 | 512 |
n2-highmem-2 |
2 | 16 |
n2-highmem-4 |
4 | 32 |
n2-highmem-8 |
8 | 64 |
n2-highmem-16 |
16 | 128 |
n2-highmem-32 |
32 | 256 |
n2-highmem-48 |
48 | 384 |
n2-highmem-64 |
64 | 512 |
n2-highmem-80 |
80 | 640 |
n2-highmem-96 |
96 | 768 |
n2-highmem-128 |
128 | 864 |
n2-highcpu-2 |
2 | 2 |
n2-highcpu-4 |
4 | 4 |
n2-highcpu-8 |
8 | 8 |
n2-highcpu-16 |
16 | 16 |
n2-highcpu-32 |
32 | 32 |
n2-highcpu-48 |
48 | 48 |
n2-highcpu-64 |
64 | 64 |
n2-highcpu-80 |
80 | 80 |
n2-highcpu-96 |
96 | 96 |
N2D 시리즈
이름 | vCPUs | 메모리(GB) |
---|---|---|
n2d-standard-2 |
2 | 8 |
n2d-standard-4 |
4 | 16 |
n2d-standard-8 |
8 | 32 |
n2d-standard-16 |
16 | 64 |
n2d-standard-32 |
32 | 128 |
n2d-standard-48 |
48 | 192 |
n2d-standard-64 |
64 | 256 |
n2d-standard-80 |
80 | 320 |
n2d-standard-96 |
96 | 384 |
n2d-standard-128 |
128 | 512 |
n2d-standard-224 |
224 | 896 |
n2d-highmem-2 |
2 | 16 |
n2d-highmem-4 |
4 | 32 |
n2d-highmem-8 |
8 | 64 |
n2d-highmem-16 |
16 | 128 |
n2d-highmem-32 |
32 | 256 |
n2d-highmem-48 |
48 | 384 |
n2d-highmem-64 |
64 | 512 |
n2d-highmem-80 |
80 | 640 |
n2d-highmem-96 |
96 | 768 |
n2d-highcpu-2 |
2 | 2 |
n2d-highcpu-4 |
4 | 4 |
n2d-highcpu-8 |
8 | 8 |
n2d-highcpu-16 |
16 | 16 |
n2d-highcpu-32 |
32 | 32 |
n2d-highcpu-48 |
48 | 48 |
n2d-highcpu-64 |
64 | 64 |
n2d-highcpu-80 |
80 | 80 |
n2d-highcpu-96 |
96 | 96 |
n2d-highcpu-128 |
128 | 128 |
n2d-highcpu-224 |
224 | 224 |
C2 시리즈
이름 | vCPUs | 메모리(GB) |
---|---|---|
c2-standard-4 |
4 | 16 |
c2-standard-8 |
8 | 32 |
c2-standard-16 |
16 | 64 |
c2-standard-30 |
30 | 120 |
c2-standard-60 |
60 | 240 |
C2D 시리즈
이름 | vCPUs | 메모리(GB) |
---|---|---|
c2d-standard-2 |
2 | 8 |
c2d-standard-4 |
4 | 16 |
c2d-standard-8 |
8 | 32 |
c2d-standard-16 |
16 | 64 |
c2d-standard-32 |
32 | 128 |
c2d-standard-56 |
56 | 224 |
c2d-standard-112 |
112 | 448 |
c2d-highcpu-2 |
2 | 4 |
c2d-highcpu-4 |
4 | 8 |
c2d-highcpu-8 |
8 | 16 |
c2d-highcpu-16 |
16 | 32 |
c2d-highcpu-32 |
32 | 64 |
c2d-highcpu-56 |
56 | 112 |
c2d-highcpu-112 |
112 | 224 |
c2d-highmem-2 |
2 | 16 |
c2d-highmem-4 |
4 | 32 |
c2d-highmem-8 |
8 | 64 |
c2d-highmem-16 |
16 | 128 |
c2d-highmem-32 |
32 | 256 |
c2d-highmem-56 |
56 | 448 |
c2d-highmem-112 |
112 | 896 |
C3 시리즈
이름 | vCPUs | 메모리(GB) |
---|---|---|
c3-highcpu-4 |
4 | 8 |
c3-highcpu-8 |
8 | 16 |
c3-highcpu-22 |
22 | 44 |
c3-highcpu-44 |
44 | 88 |
c3-highcpu-88 |
88 | 176 |
c3-highcpu-176 |
176 | 352 |
A2 시리즈
이름 | vCPUs | 메모리(GB) | GPU(NVIDIA A100) |
---|---|---|---|
a2-highgpu-1g |
12 | 85 | 1(A100 40GB) |
a2-highgpu-2g |
24 | 170 | 2(A100 40GB) |
a2-highgpu-4g |
48 | 340 | 4(A100 40GB) |
a2-highgpu-8g |
96 | 680 | 8(A100 40GB) |
a2-megagpu-16g |
96 | 1360 | 16(A100 40GB) |
a2-ultragpu-1g |
12 | 170 | 1(A100 80GB) |
a2-ultragpu-2g |
24 | 340 | 2(A100 80GB) |
a2-ultragpu-4g |
48 | 680 | 4(A100 80GB) |
a2-ultragpu-8g |
96 | 1360 | 8(A100 80GB) |
A3 시리즈
이름 | vCPUs | 메모리(GB) | GPU(NVIDIA H100) |
---|---|---|---|
a3-highgpu-8g |
208 | 1872 | 8(H100 80GB) |
G2 시리즈
이름 | vCPUs | 메모리(GB) | GPU(NVIDIA L4) |
---|---|---|---|
g2-standard-4 |
4 | 16 | 1 |
g2-standard-8 |
8 | 32 | 1 |
g2-standard-12 |
12 | 48 | 1 |
g2-standard-16 |
16 | 64 | 1 |
g2-standard-24 |
24 | 96 | 2 |
g2-standard-32 |
32 | 128 | 1 |
g2-standard-48 |
48 | 192 | 4 |
g2-standard-96 |
96 | 384 | 8 |
각 머신 유형의 가격 책정에 대해 알아보세요. 이러한 머신 유형의 세부 사양은 머신 유형에 대한 Compute Engine 문서를 참조하세요.
적합한 머신 유형 찾기
온라인 예측
사용 사례에 적합한 머신 유형을 찾으려면 모델을 여러 머신 유형에 로드하고 지연 시간, 비용, 동시 실행, 처리량과 같은 특성을 측정하는 것이 좋습니다.
이를 위한 한 가지 방법은 여러 머신 유형에서 이 노트북을 실행하고 결과를 비교하여 가장 적합한 머신 유형을 찾는 것입니다.
Vertex AI는 시스템 프로세스를 실행하기 위해 각 복제본에서 약 1개의 vCPU를 예약합니다. 즉, 단일 코어 머신 유형에서 노트북 실행은 예측을 제공하기 위한 2코어 머신 유형 사용과 비슷합니다.
예측 비용을 고려할 때 머신이 클수록 비용이 많이 들지만 동일한 워크로드를 처리하는 데 필요한 복제본이 적기 때문에 전반적인 비용이 절감될 수 있습니다. GPU의 경우 특히 두드러지는데 시간당 비용은 높지만 둘 다 낮은 대기 시간을 제공하므로 전체적으로 비용이 적게 듭니다.
일괄 예측
자세한 내용은 머신 유형 및 복제본 수 선택을 참조하세요.
선택적 GPU 가속기
A2 시리즈 및 G2 시리즈 같은 일부 구성에는 고정된 수의 기본 제공 GPU가 있습니다.
N1 시리즈와 같은 다른 구성에서는 선택적으로 GPU를 추가하여 각 예측 노드를 가속화할 수 있습니다.
선택적 GPU 가속기를 추가하려면 다음과 같은 몇 가지 요구사항을 고려해야 합니다.
Model
리소스가 TensorFlow SavedModel에 기반을 둔 경우 또는 GPU를 활용하도록 설계된 커스텀 컨테이너를 사용하는 경우에만 GPU를 사용할 수 있습니다. scikit-learn 또는 XGBoost 모델에는 GPU를 사용할 수 없습니다.- 각 GPU 유형의 가용성은 모델에 사용하는 리전에 따라 다릅니다. 리전에서 사용할 수 있는 GPU 유형을 알아보세요.
DeployedModel
리소스 또는BatchPredictionJob
에 한 가지 유형의 GPU만 사용할 수 있으며 사용 중인 머신 유형에 따라 추가할 수 있는 GPU 수에 제한이 있습니다. 다음 표에서는 이러한 제한사항을 설명합니다.
다음 표에서는 온라인 예측에 사용 가능한 선택적 GPU와 각 Compute Engine 머신 유형에 사용할 수 있는 각 GPU 유형의 수를 보여줍니다.
각 머신 유형에 유효한 GPU 수 | |||||
---|---|---|---|---|---|
머신 유형 | NVIDIA Tesla P100 | NVIDIA Tesla V100 | NVIDIA Tesla P4 | NVIDIA Tesla T4 | |
n1-standard-2 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-standard-4 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-standard-8 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-standard-16 |
1, 2, 4 | 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-standard-32 |
2, 4 | 4, 8 | 2, 4 | 2, 4 | |
n1-highmem-2 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highmem-4 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highmem-8 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highmem-16 |
1, 2, 4 | 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highmem-32 |
2, 4 | 4, 8 | 2, 4 | 2, 4 | |
n1-highcpu-2 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highcpu-4 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highcpu-8 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highcpu-16 |
1, 2, 4 | 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highcpu-32 |
2, 4 | 4, 8 | 2, 4 | 2, 4 |
선택적 GPU을 사용하면 추가 비용이 발생합니다.
다음 단계
- Google Cloud console에서 AutoML 테이블 형식 모델 배포
- Google Cloud console에서 커스텀 학습 모델 배포
- 클라이언트 라이브러리를 사용하여 커스텀 학습 모델 배포
- 일괄 예측 가져오기