Compute Engine에서 GPU를 사용하여 VM에서 머신러닝(ML) 및 데이터 처리와 같은 특정 워크로드를 가속화할 수 있습니다. GPU를 사용하려면 GPU가 연결된 가속기에 최적화된 VM을 배포하거나 N1 범용 VM에 GPU를 연결하면 됩니다.
Compute Engine은 패스 스루 모드의 VM에 GPU를 제공하여 VM이 GPU 및 관련 메모리를 직접 제어할 수 있도록 합니다.
Compute Engine의 GPU에 대한 상세 설명은 GPU 정보를 참조하세요.
3D 시각화, 3D 렌더링 또는 가상 애플리케이션과 같이 그래픽 집약적인 워크로드가 있는 경우 NVIDIA RTX 가상 워크스테이션(이전의 NVIDIA GRID)을 사용할 수 있습니다.
이 문서에서는 Compute Engine에서 사용할 수 있는 다양한 GPU VM을 간략하게 설명합니다.
Compute Engine에서 GPU의 사용 가능한 리전 및 영역을 보려면 GPU 리전 및 영역 가용성을 참조하세요.
컴퓨팅 워크로드용 GPU
컴퓨팅 워크로드의 경우 GPU는 다음 머신 유형에 지원됩니다.
- A3 VM: NVIDIA H100 80GB GPU가 자동으로 연결됩니다.
- A2 VM: NVIDIA A100 80GB 또는 NVIDIA A100 40GB GPU가 자동으로 연결됩니다.
- G2 VM: NVIDIA L4 GPU가 자동으로 연결됩니다.
- N1 VM: NVIDIA T4, NVIDIA V100, NVIDIA P100, NVIDIA P4 GPU 모델을 연결할 수 있습니다.
A3 머신 시리즈
NVIDIA H100 80GB GPU를 사용하려면 A3 가속기 최적화 머신을 사용해야 합니다. 각 A3 머신 유형에는 고정된 GPU 수, vCPU 수, 메모리 크기가 포함되어 있습니다.
A3 머신 시리즈는 세 가지 유형으로 사용할 수 있습니다.
- A3 Mega: 이 머신 유형에는 H100 80GB GPU (
nvidia-h100-mega-80gb
)가 있으며 최고의 네트워크 성능을 제공합니다. 가장 까다롭고 대규모인 학습 워크로드에 적합합니다. - A3 High: 이 머신 유형에는 H100 80GB GPU (
nvidia-h100-80gb
)가 있으며 대규모 AI 모델 학습 및 제공 작업에 모두 적합합니다. - A3 Edge: 이 머신 유형에는 H100 80GB GPU (
nvidia-h100-80gb
)가 있으며, 게재를 위해 특별히 설계되었으며 제한된 리전에서만 사용할 수 있습니다.
A3 Mega
머신 유형 | GPU 수 | GPU 메모리* (GB HBM3) |
vCPU 수† | VM 메모리(GB) | 연결된 로컬 SSD(GiB) | 물리적 NIC 수 | 최대 네트워크 대역폭(Gbps)‡ | 네트워크 프로토콜 |
---|---|---|---|---|---|---|---|---|
a3-megagpu-8g |
8 | 640 | 208 | 1,872 | 6,000 | 9 | 1,800 | GPUDirect-TCPXO |
A3 High
a3-highgpu-1g
, a3-highgpu-2g
또는 a3-highgpu-4g
머신 유형을 프로비저닝할 때는 스팟 VM을 사용하거나 MIG의 크기 조절 요청과 같이 동적 워크로드 스케줄러 (DWS)를 사용하는 기능을 사용해야 합니다. 이러한 옵션에 관한 자세한 안내는 다음을 검토하세요.
- Spot VM을 만들려면 가속기 최적화 VM 만들기를 참고하고 프로비저닝 모델을
SPOT
로 설정하세요. - 동적 워크로드 스케줄러를 사용하는 MIG에서 크기 조절 요청을 만들려면 GPU VM으로 MIG 만들기를 참고하세요.
머신 유형 | GPU 수 | GPU 메모리* (GB HBM3) |
vCPU 수† | VM 메모리(GB) | 연결된 로컬 SSD(GiB) | 물리적 NIC 수 | 최대 네트워크 대역폭(Gbps)‡ | 네트워크 프로토콜 |
---|---|---|---|---|---|---|---|---|
a3-highgpu-1g |
1 | 80 | 26 | 234 | 750 | 1 | 25 | GPUDirect-TCPX |
a3-highgpu-2g |
2 | 160 | 52 | 468 | 1,500 | 1 | 50 | GPUDirect-TCPX |
a3-highgpu-4g |
4 | 320 | 104 | 936 | 3,000 | 1 | 100 | GPUDirect-TCPX |
a3-highgpu-8g |
8 | 640 | 208 | 1,872 | 6,000 | 5 | 1,000 | GPUDirect-TCPX |
A3 Edge
머신 유형 | GPU 수 | GPU 메모리* (GB HBM3) |
vCPU 수† | VM 메모리(GB) | 연결된 로컬 SSD(GiB) | 물리적 NIC 수 | 최대 네트워크 대역폭(Gbps)‡ | 네트워크 프로토콜 |
---|---|---|---|---|---|---|---|---|
a3-edgegpu-8g |
8 | 640 | 208 | 1,872 | 6,000 | 5 |
|
GPUDirect-TCPX |
*GPU 메모리는 데이터의 임시 저장에 사용할 수 있는 GPU 기기의 메모리입니다. VM의 메모리와는 별개이며 특히 그래픽 집약적인 워크로드의 더 높은 대역폭 수요를 처리하도록 설계되었습니다.
†vCPU는 사용 가능한 CPU 플랫폼 중 하나에서 단일 하드웨어 하이퍼 스레드로 구현됩니다.
‡최대 이그레스 대역폭은 지정된 수를 초과할 수 없습니다. 실제 이그레스 대역폭은 대상 IP 주소와 기타 요인에 따라 다릅니다.
네트워크 대역폭을 참조하세요.
A2 머신 시리즈
Google Cloud에서 NVIDIA A100 GPU를 사용하려면 A2 가속기 최적화 머신을 배포해야 합니다. 각 A2 머신 유형에는 고정된 GPU 수, vCPU 수, 메모리 크기가 포함되어 있습니다.
A2 머신 시리즈는 두 가지 유형으로 사용할 수 있습니다.
- A2 Ultra: 이 머신 유형에는 A100 80GB GPU (
nvidia-a100-80gb
) 및 로컬 SSD 디스크가 연결됩니다. - A2 표준: 이 머신 유형에는 A100 40GB GPU (
nvidia-tesla-a100
)가 연결됩니다.
A2 울트라
머신 유형 | GPU 수 | GPU 메모리* (GB HBM3) |
vCPU 수† | VM 메모리(GB) | 연결된 로컬 SSD(GiB) | 최대 네트워크 대역폭(Gbps)‡ |
---|---|---|---|---|---|---|
a2-ultragpu-1g |
1 | 80 | 12 | 170 | 375 | 24 |
a2-ultragpu-2g |
2 | 160 | 24 | 340 | 750 | 32 |
a2-ultragpu-4g |
4 | 320 | 48 | 680 | 1,500 | 50 |
a2-ultragpu-8g |
8 | 640 | 96 | 1,360 | 3,000 | 100 |
A2 표준
머신 유형 | GPU 수 | GPU 메모리* (GB HBM3) |
vCPU 수† | VM 메모리(GB) | 연결된 로컬 SSD(GiB) | 최대 네트워크 대역폭(Gbps)‡ |
---|---|---|---|---|---|---|
a2-highgpu-1g |
1 | 40 | 12 | 85 | 예 | 24 |
a2-highgpu-2g |
2 | 80 | 24 | 170 | 예 | 32 |
a2-highgpu-4g |
4 | 160 | 48 | 340 | 예 | 50 |
a2-highgpu-8g |
8 | 320 | 96 | 680 | 예 | 100 |
a2-megagpu-16g |
16 | 640 | 96 | 1,360 | 예 | 100 |
*GPU 메모리는 데이터의 임시 저장에 사용할 수 있는 GPU에서 사용 가능한 메모리입니다. VM의 메모리와는 별개이며 특히 그래픽 집약적인 워크로드의 더 높은 대역폭 수요를 처리하도록 설계되었습니다.
G2 머신 시리즈
NVIDIA L4 GPU(nvidia-l4
또는 nvidia-l4-vws
)를 사용하려면 G2 가속기 최적화 머신을 배포해야 합니다.
각 G2 머신 유형에는 고정된 개수의 NVIDIA L4 GPU 및 vCPU가 연결되어 있습니다. 각 G2 머신 유형에는 기본 메모리와 커스텀 메모리 범위도 있습니다. 커스텀 메모리 범위는 각 머신 유형의 VM에 할당할 수 있는 메모리 양을 정의합니다. VM을 생성하는 동안 커스텀 메모리를 지정할 수 있습니다.
머신 유형 | GPU 수 | GPU 메모리*(GB GDDR6) | vCPU 수† | 기본 VM 메모리(GB) | 커스텀 VM 메모리 범위(GB) | 지원되는 최대 로컬 SSD(GiB) | 최대 네트워크 대역폭(Gbps)‡ |
---|---|---|---|---|---|---|---|
g2-standard-4 |
1 | 24 | 4 | 16 | 16~32 | 375 | 10 |
g2-standard-8 |
1 | 24 | 8 | 32 | 32~54 | 375 | 16 |
g2-standard-12 |
1 | 24 | 12 | 48 | 48~54 | 375 | 16 |
g2-standard-16 |
1 | 24 | 16 | 64 | 54~64 | 375 | 32 |
g2-standard-24 |
2 | 48 | 24 | 96 | 96~108 | 750 | 32 |
g2-standard-32 |
1 | 24 | 32 | 128 | 96~128 | 375 | 32 |
g2-standard-48 |
4 | 96 | 48 | 192 | 192~216 | 1,500 | 50 |
g2-standard-96 |
8 | 192 | 96 | 384 | 384~432 | 3,000 | 100 |
*GPU 메모리는 데이터의 임시 저장에 사용할 수 있는 GPU에서 사용 가능한 메모리입니다. VM의 메모리와는 별개이며 특히 그래픽 집약적인 워크로드의 더 높은 대역폭 수요를 처리하도록 설계되었습니다.
N1 머신 시리즈
N1 공유 코어 머신 유형을 제외한 다음 GPU 모델을 N1 머신 유형에 연결할 수 있습니다.
GPU 수가 적은 N1 VM은 최대 vCPU 수로 제한됩니다. 일반적으로 GPU 수가 많을수록 더 많은 vCPU와 높은 메모리 용량으로 VM 인스턴스를 만들 수 있습니다.
N1+T4 GPU
다음 VM 구성을 사용하여 N1 범용 VM에 NVIDIA T4 GPU를 연결할 수 있습니다.
가속기 유형 | GPU 수 | GPU 메모리*(GB GDDR6) | vCPU 수 | VM 메모리(GB) | 지원되는 로컬 SSD |
---|---|---|---|---|---|
nvidia-tesla-t4 또는 nvidia-tesla-t4-vws |
1 | 16 | 1~48 | 1~312 | 예 |
2 | 32 | 1~48 | 1~312 | 예 | |
4 | 64 | 1~96 | 1~624 | 예 |
*GPU 메모리는 데이터의 임시 저장에 사용할 수 있는 GPU에서 사용 가능한 메모리입니다. VM의 메모리와는 별개이며 특히 그래픽 집약적인 워크로드의 더 높은 대역폭 수요를 처리하도록 설계되었습니다.
N1+P4 GPU
다음 VM 구성을 사용하여 N1 범용 VM에 NVIDIA P4 GPU를 연결할 수 있습니다.
가속기 유형 | GPU 수 | GPU 메모리*(GB GDDR5) | vCPU 수 | VM 메모리(GB) | 지원되는 로컬 SSD† |
---|---|---|---|---|---|
nvidia-tesla-p4 또는 nvidia-tesla-p4-vws |
1 | 8 | 1~24 | 1~156 | 예 |
2 | 16 | 1~48 | 1~312 | 예 | |
4 | 32 | 1~96 | 1~624 | 예 |
*GPU 메모리는 데이터의 임시 저장에 사용할 수 있는 GPU에서 사용 가능한 메모리입니다. VM의 메모리와는 별개이며 특히 그래픽 집약적인 워크로드의 더 높은 대역폭 수요를 처리하도록 설계되었습니다.
†VM에 NVIDIA P4 GPU가 연결된 경우 로컬 SSD 디스크는 us-central1-c
및 northamerica-northeast1-b
영역에서만 지원됩니다.
N1+V100 GPU
다음 VM 구성을 사용하여 N1 범용 VM에 NVIDIA V100 GPU를 연결할 수 있습니다.
가속기 유형 | GPU 수 | GPU 메모리*(GB HBM2) | vCPU 수 | VM 메모리(GB) | 지원되는 로컬 SSD† |
---|---|---|---|---|---|
nvidia-tesla-v100 |
1 | 16 | 1~12 | 1~78 | 예 |
2 | 32 | 1~24 | 1~156 | 예 | |
4 | 64 | 1~48 | 1~312 | 예 | |
8 | 128 | 1~96 | 1~624 | 예 |
*GPU 메모리는 데이터의 임시 저장에 사용할 수 있는 GPU에서 사용 가능한 메모리입니다. VM의 메모리와는 별개이며 특히 그래픽 집약적인 워크로드의 더 높은 대역폭 수요를 처리하도록 설계되었습니다.
†NVIDIA V100 GPU가 VM에 연결된 경우 로컬 SSD 디스크는 us-east1-c
에서 지원되지 않습니다.
N1+P100 GPU
다음 VM 구성을 사용하여 N1 범용 VM에 NVIDIA P100 GPU를 연결할 수 있습니다.
일부 NVIDIA P100 GPU의 경우 일부 구성에 사용할 수 있는 최대 CPU와 메모리는 GPU 리소스가 실행되는 영역에 따라 다릅니다.
가속기 유형 | GPU 수 | GPU 메모리*(GB HBM2) | vCPU 수 | VM 메모리(GB) | 지원되는 로컬 SSD |
---|---|---|---|---|---|
nvidia-tesla-p100 또는 nvidia-tesla-p100-vws |
1 | 16 | 1~16 | 1~104 | 예 |
2 | 32 | 1~32 | 1~208 | 예 | |
4 | 64 | 1~64 1~96 |
1~208 1~624 |
예 |
*GPU 메모리는 데이터의 임시 저장에 사용할 수 있는 GPU에서 사용 가능한 메모리입니다. VM의 메모리와는 별개이며 특히 그래픽 집약적인 워크로드의 더 높은 대역폭 수요를 처리하도록 설계되었습니다.
그래픽 워크로드용 NVIDIA RTX 가상 워크스테이션(vWS)
3D 시각화와 같이 그래픽 집약적인 워크로드가 있는 경우 NVIDIA RTX 가상 워크스테이션(vWS)(이전의 NVIDIA GRID)을 사용하는 가상 워크스테이션을 만들 수 있습니다. 가상 워크스테이션을 만들면 NVIDIA RTX 가상 워크스테이션(vWS) 라이선스가 자동으로 VM에 추가됩니다.
가상 워크스테이션 가격 책정에 대한 자세한 내용은 GPU 가격 책정 페이지를 참조하세요.
그래픽 워크로드의 경우 NVIDIA RTX 가상 워크스테이션(vWS) 모델을 사용할 수 있습니다.
G2 머신 시리즈: G2 머신 유형에는 NVIDIA L4 가상 워크스테이션(vWS)
nvidia-l4-vws
를 사용 설정할 수 있습니다.N1 머신 시리즈: N1 머신 유형에는 다음 가상 워크스테이션을 사용 설정할 수 있습니다.
- NVIDIA T4 가상 워크스테이션:
nvidia-tesla-t4-vws
- NVIDIA P100 가상 워크스테이션:
nvidia-tesla-p100-vws
- NVIDIA P4 가상 워크스테이션:
nvidia-tesla-p4-vws
- NVIDIA T4 가상 워크스테이션:
일반 비교 차트
다음 표에서는 GPU 메모리 크기, 기능 가용성, Compute Engine에서 사용할 수 있는 다양한 GPU 모델의 이상적인 워크로드 유형을 설명합니다.
GPU 모델 | GPU 메모리 | Interconnect | NVIDIA RTX 가상 워크스테이션(vWS) 지원 | 최적의 용도 |
---|---|---|---|---|
H100 80GB | 80GB HBM3 @ 3.35TBps | NVLink 풀 메시 @ 900GBps | ML 학습, 추론, HPC, BERT, DLRM의 대규모 데이터 테이블이 있는 대규모 모델 | |
A100 80GB | 80GB HBM2e @ 1.9TBps | NVLink 풀 메시 @ 600GBps | ML 학습, 추론, HPC, BERT, DLRM의 대규모 데이터 테이블이 있는 대규모 모델 | |
A100 40GB | 40GB HBM2 @ 1.6TBps | NVLink 풀 메시 @ 600GBps | ML 학습, 추론, HPC | |
L4 | 24GB GDDR6 @ 300GBps | 해당 사항 없음 | ML 추론, 학습, 원격 시각화 워크스테이션, 동영상 트랜스코딩, HPC | |
T4 | 16GB GDDR6 @ 320GBps | 해당 사항 없음 | ML 추론, 학습, 원격 시각화 워크스테이션, 동영상 트랜스코딩 | |
V100 | 16GB HBM2 @ 900GBps | NVLink Ring @ 300GBps | ML 학습, 추론, HPC | |
P4 | 8GB GDDR5 @ 192GBps | 해당 사항 없음 | 원격 시각화 워크스테이션, ML 추론, 동영상 트랜스코딩 | |
P100 | 16GB HBM2 @ 732GBps | 해당 사항 없음 | ML 학습, 추론, HPC, 원격 시각화 워크스테이션 |
Compute Engine에서 사용할 수 있는 여러 가지 GPU 모델과 리전의 GPU 가격을 비교하려면 GPU 가격 책정을 참조하세요.
성능 비교 차트
다음 표에서는 Compute Engine에서 사용할 수 있는 다양한 GPU 모델의 성능 사양을 설명합니다.
컴퓨팅 성능
GPU 모델 | FP64 | FP32 | FP16 | INT8 |
---|---|---|---|---|
H100 80GB | 34TFLOPS | 67TFLOPS | ||
A100 80GB | 9.7TFLOPS | 19.5TFLOPS | ||
A100 40GB | 9.7TFLOPS | 19.5TFLOPS | ||
L4 | 0.5TFLOPS* | 30.3TFLOPS | ||
T4 | 0.25TFLOPS* | 8.1TFLOPS | ||
V100 | 7.8TFLOPS | 15.7TFLOPS | ||
P4 | 0.2TFLOPS* | 5.5TFLOPS | 22TOPS† | |
P100 | 4.7TFLOPS | 9.3TFLOPS | 18.7TFLOPS |
*FP64 코드가 올바르게 작동하도록 T4, L4 및 P4 GPU 아키텍처에 소수의 FP64 하드웨어 장치가 포함되어 있습니다.
†TeraOperations per Second.
텐서 코어 성능
GPU 모델 | FP64 | TF32 | 혼합 정밀도 FP16/FP32 | INT8 | INT4 | FP8 |
---|---|---|---|---|---|---|
H100 80GB | 67TFLOPS | 989TFLOPS† | 1,979TFLOPS*, † | 3,958TOPS† | 3,958TFLOPS† | |
A100 80GB | 19.5TFLOPS | 156TFLOPS | 312TFLOPS* | 624TOPS | 1248TOPS | |
A100 40GB | 19.5TFLOPS | 156TFLOPS | 312TFLOPS* | 624TOPS | 1248TOPS | |
L4 | 120TFLOPS† | 242TFLOPS*, † | 485TOPS† | 485TFLOPS† | ||
T4 | 65TFLOPS | 130TOPS | 260TOPS | |||
V100 | 125TFLOPS | |||||
P4 | ||||||
P100 |
*혼합 정밀도 학습의 경우 NVIDIA H100, A100, L4 GPU도 bfloat16
데이터 유형을 지원합니다.
†H100 및 L4 GPU의 경우 성능 값을 두 배로 늘릴 수 있는 구조 희소성이 지원됩니다. 표시된 값은 희소성이 있는 값입니다. 희소성이 없으면 사양은 절반으로 줄어듭니다.
다음 단계
- Compute Engine의 GPU에 대한 상세 설명은 GPU 정보 참조하기
- GPU 리전 및 영역 가용성 검토하기
- 네트워크 대역폭 및 GPU를 검토합니다.
- GPU 가격 책정 자세히 알아보기