Este documento descreve os modelos de GPU NVIDIA disponíveis no Compute Engine, que pode usar para acelerar a aprendizagem automática (AA), o processamento de dados e as cargas de trabalho com utilização intensiva de gráficos nas suas instâncias de máquinas virtuais (VMs). Este documento também detalha as GPUs pré-associadas a séries de máquinas otimizadas para aceleradores, como A4X, A4, A3, A2 e G2, e as GPUs que pode associar a instâncias de uso geral N1.
Use este documento para comparar o desempenho, a memória e as funcionalidades de diferentes modelos de GPU. Para uma vista geral mais detalhada da família de máquinas otimizadas para aceleradores, incluindo informações sobre plataformas de CPU, opções de armazenamento e capacidades de rede, e para encontrar o tipo de máquina específico que corresponde à sua carga de trabalho, consulte o artigo Família de máquinas otimizadas para aceleradores.
Para mais informações sobre as GPUs no Compute Engine, consulte o artigo Acerca das GPUs.
Para ver as regiões e as zonas disponíveis para GPUs no Compute Engine, consulte o artigo Regiões e disponibilidade de zonas de GPUs.
Modelos de GPU disponíveis
Os seguintes modelos de GPU estão disponíveis com o tipo de máquina especificado para suportar as suas cargas de trabalho de IA, ML e HPC. Se tiver cargas de trabalho com muitos gráficos, como a visualização 3D, também pode criar estações de trabalho virtuais que usam estações de trabalho virtuais (vWS) NVIDIA RTX. A estação de trabalho virtual NVIDIA RTX está disponível para alguns modelos de GPU. Quando cria uma instância que usa a estação de trabalho virtual NVIDIA RTX, o Compute Engine adiciona automaticamente uma licença vWS. Para informações sobre os preços das estações de trabalho virtuais, consulte a página de preços da GPU.
Para os tipos de máquinas otimizados para aceleradores das séries A e G, o modelo de GPU especificado é anexado automaticamente à instância. Para os tipos de máquinas de uso geral N1, pode anexar os modelos de GPU especificados.
Tipo de máquina | Modelo da GPU | Modelo NVIDIA RTX Virtual Workstation (vWS) |
---|---|---|
A4X | Superchips NVIDIA GB200 Grace Blackwell (nvidia-gb200 ).
Cada Superchip contém quatro GPUs NVIDIA B200 Blackwell. |
|
A4 | GPUs NVIDIA B200 Blackwell (nvidia-b200 ) |
|
A3 Ultra | GPUs NVIDIA H200 SXM (nvidia-h200-141gb ) |
|
A3 Mega |
GPUs NVIDIA H100 SXM (nvidia-h100-mega-80gb ) |
|
A3 High e A3 Edge |
GPUs NVIDIA H100 SXM (nvidia-h100-80gb ) |
|
A2 Ultra | GPUs NVIDIA A100 de 80 GB (nvidia-a100-80gb ) |
|
A2 Standard | GPUs NVIDIA A100 de 40 GB (nvidia-a100-40gb ) |
|
G4 (pré-visualização) | NVIDIA RTX PRO 6000 Blackwell Server Edition (nvidia-rtx-pro-6000 ) |
|
G2 | NVIDIA L4 (nvidia-l4 ) |
Estações de trabalho virtuais (vWS) NVIDIA L4 (nvidia-l4-vws ) |
N1 | GPUs NVIDIA T4 (nvidia-tesla-t4 ) |
Estações de trabalho virtuais (vWS) NVIDIA T4 (nvidia-tesla-t4-vws ) |
GPUs NVIDIA P4 (nvidia-tesla-p4 ) |
Estações de trabalho virtuais (vWS) NVIDIA P4 (nvidia-tesla-p4-vws ) |
|
GPUs NVIDIA V100 (nvidia-tesla-v100 ) |
||
GPUs NVIDIA P100 (nvidia-tesla-p100 ) |
Estações de trabalho virtuais (vWS) NVIDIA P100 (nvidia-tesla-p100-vws ) |
Também pode usar alguns tipos de máquinas com GPU no hipercomputador de IA. O AI Hypercomputer é um sistema de supercomputação otimizado para suportar as suas cargas de trabalho de inteligência artificial (IA) e aprendizagem automática (AA). Esta opção é recomendada para criar uma infraestrutura densamente alocada e otimizada para o desempenho que tenha integrações para o Google Kubernetes Engine (GKE) e os programadores do Slurm.
Série de máquinas A4X
Otimizado com acelerador A4X
Os tipos de máquinas usam superchips NVIDIA GB200 Grace Blackwell (nvidia-gb200
) e
são ideais para a preparação e o fornecimento de modelos de base.
A A4X é uma plataforma de exaescala baseada na NVIDIA GB200 NVL72. Cada máquina tem dois processadores NVIDIA Grace com núcleos Arm Neoverse V2. Estas CPUs estão ligadas a quatro GPUs NVIDIA B200 Blackwell com comunicação rápida chip-to-chip (NVLink-C2C).
Superchips NVIDIA GB200 Grace Blackwell | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Número de vCPUs1 | Memória da instância (GB) | SSD local associado (GiB) | Contagem de NICs físicas | Largura de banda máxima da rede (Gbps)2 | Número de GPUs | Memória GPU3 (GB HBM3e) |
a4x-highgpu-4g |
140 | 884 | 12 000 | 6 | 2000 | 4 | 720 |
1Uma vCPU é implementada como um único hiperthread de hardware numa das
plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número indicado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores.
Para mais informações sobre a largura de banda da rede,
consulte o artigo Largura de banda da rede.
3A memória da GPU é a memória num dispositivo GPU que pode ser usada para o
armazenamento temporário de dados. É separada da memória da instância e foi
concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.
Série de máquinas A4
Os tipos de máquinas A4 otimizados para aceleradores
têm GPUs NVIDIA B200 Blackwell
(nvidia-b200
) anexadas e são ideais para a preparação e a publicação de modelos de base.
GPUs NVIDIA B200 Blackwell anexadas | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Número de vCPUs1 | Memória da instância (GB) | SSD local associado (GiB) | Contagem de NICs físicas | Largura de banda máxima da rede (Gbps)2 | Número de GPUs | Memória GPU3 (GB HBM3e) |
a4-highgpu-8g |
224 | 3968 | 12 000 | 10 | 3600 | 8 | 1440 |
1Uma vCPU é implementada como um único hiperthread de hardware numa das
plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número indicado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores.
Para mais informações acerca da largura de banda da rede, consulte o artigo
Largura de banda da rede.
3A memória da GPU é a memória num dispositivo GPU que pode ser usada para o
armazenamento temporário de dados. É separada da memória da instância e foi
concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.
Série de máquinas A3
Os tipos de máquinas otimizados para aceleradores A3 têm GPUs NVIDIA H100 SXM ou NVIDIA H200 SXM anexadas.
Tipo de máquina A3 Ultra
Os tipos de máquinas A3 Ultra
têm GPUs NVIDIA H200 SXM
(nvidia-h200-141gb
) anexadas e oferecem o desempenho de rede mais elevado na série A3. Os tipos de máquinas A3 Ultra são ideais para a preparação e a publicação de modelos de base.
GPUs NVIDIA H200 anexadas | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Número de vCPUs1 | Memória da instância (GB) | SSD local associado (GiB) | Contagem de NICs físicas | Largura de banda máxima da rede (Gbps)2 | Número de GPUs | Memória GPU3 (GB HBM3e) |
a3-ultragpu-8g |
224 | 2952 | 12 000 | 10 | 3600 | 8 | 1128 |
1Uma vCPU é implementada como um único hiperthread de hardware numa das
plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número indicado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores.
Para mais informações sobre a largura de banda da rede,
consulte o artigo Largura de banda da rede.
3A memória da GPU é a memória num dispositivo GPU que pode ser usada para o
armazenamento temporário de dados. É separada da memória da instância e foi
concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.
Tipos de máquinas A3 Mega, High e Edge
Para usar GPUs NVIDIA H100 SXM, tem as seguintes opções:
- A3 Mega: estes tipos de máquinas têm GPUs H100 SXM (
nvidia-h100-mega-80gb
) e são ideais para cargas de trabalho de preparação e apresentação em grande escala. - A3 High: estes tipos de máquinas têm GPUs H100 SXM (
nvidia-h100-80gb
) e são adequados para tarefas de preparação e apresentação. - A3 Edge: estes tipos de máquinas têm GPUs H100 SXM (
nvidia-h100-80gb
), foram concebidos especificamente para a publicação e estão disponíveis num conjunto limitado de regiões.
A3 Mega
GPUs NVIDIA H100 anexadas | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Número de vCPUs1 | Memória da instância (GB) | SSD local associado (GiB) | Contagem de NICs físicas | Largura de banda máxima da rede (Gbps)2 | Número de GPUs | Memória da GPU3 (GB HBM3) |
a3-megagpu-8g |
208 | 1872 | 6000 | 9 | 1800 | 8 | 640 |
A3 High
GPUs NVIDIA H100 anexadas | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Número de vCPUs1 | Memória da instância (GB) | SSD local associado (GiB) | Contagem de NICs físicas | Largura de banda máxima da rede (Gbps)2 | Número de GPUs | Memória da GPU3 (GB HBM3) |
a3-highgpu-1g |
26 | 234 | 750 | 1 | 25 | 1 | 80 |
a3-highgpu-2g |
52 | 468 | 1500 | 1 | 50 | 2 | 160 |
a3-highgpu-4g |
104 | 936 | 3000 | 1 | 100 | 4 | 320 |
a3-highgpu-8g |
208 | 1872 | 6000 | 5 | 1000 | 8 | 640 |
A3 Edge
GPUs NVIDIA H100 anexadas | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Número de vCPUs1 | Memória da instância (GB) | SSD local associado (GiB) | Contagem de NICs físicas | Largura de banda máxima da rede (Gbps)2 | Número de GPUs | Memória da GPU3 (GB HBM3) |
a3-edgegpu-8g |
208 | 1872 | 6000 | 5 |
|
8 | 640 |
1Uma vCPU é implementada como um único hiperthread de hardware numa das
plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número indicado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores.
Para mais informações sobre a largura de banda da rede,
consulte o artigo Largura de banda da rede.
3A memória da GPU é a memória num dispositivo GPU que pode ser usada para o
armazenamento temporário de dados. É separada da memória da instância e foi
concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.
Série de máquinas A2
Os tipos de máquinas A2 otimizados para aceleradores têm GPUs NVIDIA A100 anexadas e são ideais para o ajuste fino de modelos, modelos grandes e inferência otimizada em termos de custos.
As máquinas da série A2 estão disponíveis em dois tipos:
- A2 Ultra: estes tipos de máquinas têm GPUs A100 de 80 GB
(
nvidia-a100-80gb
) e discos SSD locais associados. - A2 Standard: estes tipos de máquinas têm GPUs A100 de 40 GB
(
nvidia-tesla-a100
) anexadas. Também pode adicionar discos SSD locais quando cria uma instância padrão A2. Para saber o número de discos que pode anexar, consulte o artigo Tipos de máquinas que exigem que escolha um número de discos SSD locais.
A2 Ultra
GPUs NVIDIA A100 de 80 GB anexadas | ||||||
---|---|---|---|---|---|---|
Tipo de máquina | Número de vCPUs1 | Memória da instância (GB) | SSD local associado (GiB) | Largura de banda máxima da rede (Gbps)2 | Número de GPUs | Memória GPU3 (GB HBM2e) |
a2-ultragpu-1g |
12 | 170 | 375 | 24 | 1 | 80 |
a2-ultragpu-2g |
24 | 340 | 750 | 32 | 2 | 160 |
a2-ultragpu-4g |
48 | 680 | 1500 | 50 | 4 | 320 |
a2-ultragpu-8g |
96 | 1360 | 3000 | 100 | 8 | 640 |
A2 Standard
GPUs NVIDIA A100 de 40 GB anexadas | ||||||
---|---|---|---|---|---|---|
Tipo de máquina | Número de vCPUs1 | Memória da instância (GB) | SSD local suportado | Largura de banda máxima da rede (Gbps)2 | Número de GPUs | Memória da GPU3 (GB HBM2) |
a2-highgpu-1g |
12 | 85 | Sim | 24 | 1 | 40 |
a2-highgpu-2g |
24 | 170 | Sim | 32 | 2 | 80 |
a2-highgpu-4g |
48 | 340 | Sim | 50 | 4 | 160 |
a2-highgpu-8g |
96 | 680 | Sim | 100 | 8 | 320 |
a2-megagpu-16g |
96 | 1360 | Sim | 100 | 16 | 640 |
1Uma vCPU é implementada como um único hiperthread de hardware numa das
plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número indicado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores.
Para mais informações sobre a largura de banda da rede,
consulte o artigo Largura de banda da rede.
3A memória da GPU é a memória num dispositivo GPU que pode ser usada para o
armazenamento temporário de dados. É separada da memória da instância e foi
concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.
Série de máquinas G4
Os tipos de máquinas otimizados para aceleradores G4
usam
GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition (nvidia-rtx-pro-6000
)
e são
adequados para cargas de trabalho de simulação do NVIDIA Omniverse, aplicações com utilização intensiva de gráficos, transcodificação de vídeo e desktops virtuais. Os tipos de máquinas G4 também oferecem uma solução de baixo custo para
realizar a inferência de anfitrião único e o ajuste de modelos em comparação com os tipos de máquinas da série A.
Uma funcionalidade essencial da série G4 é o suporte para comunicação ponto a ponto (P2P) direta da GPU
em tipos de máquinas com várias GPUs (g4-standard-96
, g4-standard-192
,
g4-standard-384
). Isto permite que as GPUs na mesma instância
troquem dados diretamente através do barramento PCIe, sem envolver o anfitrião da CPU. Para mais informações sobre a comunicação ponto a ponto da GPU G4, consulte o artigo Comunicação ponto a ponto da GPU G4.
GPUs NVIDIA RTX PRO 6000 anexadas | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Número de vCPUs1 | Memória da instância (GB) | SSD Titanium máximo suportado (GiB)2 | Contagem de NICs físicas | Largura de banda máxima da rede (Gbps)3 | Número de GPUs | Memória da GPU4 (GB GDDR7) |
g4-standard-48 |
48 | 180 | 1500 | 1 | 50 | 1 | 96 |
g4-standard-96 |
96 | 360 | 3000 | 1 | 100 | 2 | 192 |
g4-standard-192 |
192 | 720 | 6000 | 1 | 200 | 4 | 384 |
g4-standard-384 |
384 | 1440 | 12 000 | 2 | 400 | 8 | 768 |
1Uma vCPU é implementada como um único hiperthread de hardware numa das
plataformas de CPU disponíveis.
2 Pode adicionar discos SSD de titânio quando cria uma instância G4. Para saber o número de discos que pode anexar, consulte o artigo Tipos de máquinas que exigem que escolha um número de discos SSD locais.
3A largura de banda de saída máxima não pode exceder o número indicado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores.
Consulte o artigo Largura de banda da rede.
4A memória da GPU é a memória num dispositivo de GPU que pode ser usada para
armazenamento temporário de dados. É separada da memória da instância e foi
concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.
Série de máquinas G2
Os tipos de máquinas G2 otimizados para aceleradores têm GPUs NVIDIA L4 anexadas e são ideais para inferência otimizada em função dos custos, cargas de trabalho de computação de alto desempenho e com utilização intensiva de gráficos.
Cada tipo de máquina G2 também tem uma memória predefinida e um intervalo de memória personalizado. O intervalo de memória personalizado define a quantidade de memória que pode atribuir à sua instância para cada tipo de máquina. Também pode adicionar discos SSD locais quando cria uma instância G2. Para saber o número de discos que pode anexar, consulte o artigo Tipos de máquinas que exigem que escolha um número de discos SSD locais.
GPUs NVIDIA L4 anexadas | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Número de vCPUs1 | Memória da instância predefinida (GB) | Intervalo de memória da instância personalizado (GB) | SSD local máximo suportado (GiB) | Largura de banda máxima da rede (Gbps)2 | Número de GPUs | Memória GPU3 (GB GDDR6) |
g2-standard-4 |
4 | 16 | 16 a 32 | 375 | 10 | 1 | 24 |
g2-standard-8 |
8 | 32 | 32 a 54 | 375 | 16 | 1 | 24 |
g2-standard-12 |
12 | 48 | 48 a 54 | 375 | 16 | 1 | 24 |
g2-standard-16 |
16 | 64 | 54 a 64 | 375 | 32 | 1 | 24 |
g2-standard-24 |
24 | 96 | 96 a 108 | 750 | 32 | 2 | 48 |
g2-standard-32 |
32 | 128 | 96 a 128 | 375 | 32 | 1 | 24 |
g2-standard-48 |
48 | 192 | 192 a 216 | 1500 | 50 | 4 | 96 |
g2-standard-96 |
96 | 384 | 384 a 432 | 3000 | 100 | 8 | 192 |
1Uma vCPU é implementada como um único hiperthread de hardware numa das
plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número indicado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores.
Para mais informações sobre a largura de banda da rede,
consulte o artigo Largura de banda da rede.
3A memória da GPU é a memória num dispositivo GPU que pode ser usada para o
armazenamento temporário de dados. É separada da memória da instância e foi
concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.
Série de máquinas N1
Pode anexar os seguintes modelos de GPU a um tipo de máquina N1 com exceção dos tipos de máquinas com núcleo partilhado N1.
Ao contrário dos tipos de máquinas na série de máquinas otimizadas para aceleradores, os tipos de máquinas N1 não incluem um número definido de GPUs anexadas. Em vez disso, especifica o número de GPUs a associar quando cria a instância.
As instâncias N1 com menos GPUs limitam o número máximo de vCPUs. Em geral, um número mais elevado de GPUs permite-lhe criar instâncias com um número mais elevado de vCPUs e memória.
GPUs N1+T4
Pode anexar GPUs NVIDIA T4 a instâncias de uso geral N1 com as seguintes configurações de instâncias.
Tipo de acelerador | Número de GPUs | Memória da GPU1 (GB GDDR6) | Número de vCPUs | Memória da instância (GB) | SSD local suportado |
---|---|---|---|---|---|
nvidia-tesla-t4 ou nvidia-tesla-t4-vws
|
1 | 16 | 1 a 48 | 1 a 312 | Sim |
2 | 32 | 1 a 48 | 1 a 312 | Sim | |
4 | 64 | 1 a 96 | 1 a 624 | Sim |
1A memória de GPU é a memória disponível num dispositivo de GPU que pode usar para o armazenamento temporário de dados. É separada da memória da instância e foi concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.
GPUs N1+P4
Pode anexar GPUs NVIDIA P4 a instâncias de uso geral N1 com as seguintes configurações de instâncias.
Tipo de acelerador | Número de GPUs | Memória da GPU1 (GB GDDR5) | Número de vCPUs | Memória da instância (GB) | SSD local suportado2 |
---|---|---|---|---|---|
nvidia-tesla-p4 ou nvidia-tesla-p4-vws
|
1 | 8 | 1 a 24 | 1 a 156 | Sim |
2 | 16 | 1 a 48 | 1 a 312 | Sim | |
4 | 32 | 1 a 96 | 1 a 624 | Sim |
1A memória da GPU é a memória disponível num dispositivo de GPU que pode usar para armazenamento temporário de dados. É separada da memória da instância e foi especificamente concebida para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.
2Para instâncias com GPUs NVIDIA P4 anexadas, os discos SSD locais
só são suportados nas zonas us-central1-c
e
northamerica-northeast1-b
.
GPUs N1+V100
Pode anexar GPUs NVIDIA V100 a instâncias de uso geral N1 com as seguintes configurações de instâncias.
Tipo de acelerador | Número de GPUs | Memória da GPU1 (GB HBM2) | Número de vCPUs | Memória da instância (GB) | SSD local suportado2 |
---|---|---|---|---|---|
nvidia-tesla-v100 |
1 | 16 | 1 a 12 | 1 a 78 | Sim |
2 | 32 | 1 a 24 | 1 a 156 | Sim | |
4 | 64 | 1 a 48 | 1 a 312 | Sim | |
8 | 128 | 1 a 96 | 1 a 624 | Sim |
1A memória de GPU é a memória disponível num dispositivo de GPU que pode usar
para o armazenamento temporário de dados. É separada da memória da instância e foi
concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.
2Para instâncias com GPUs NVIDIA V100 anexadas, os discos SSD locais não são suportados no us-east1-c
.
GPUs N1+P100
Pode anexar GPUs NVIDIA P100 a instâncias de uso geral N1 com as seguintes configurações de instâncias.
Para algumas GPUs NVIDIA P100, a CPU e a memória máximas disponíveis para algumas configurações dependem da zona em que o recurso de GPU é executado.
Tipo de acelerador | Número de GPUs | Memória da GPU1 (GB HBM2) | Zona | Número de vCPUs | Memória da instância (GB) | SSD local suportado |
---|---|---|---|---|---|---|
nvidia-tesla-p100 ou nvidia-tesla-p100-vws
|
1 | 16 | Todas as zonas P100 | 1 a 16 | 1 a 104 | Sim |
2 | 32 | Todas as zonas P100 | 1 a 32 | 1 a 208 | Sim | |
4 | 64 | us-east1-c , europe-west1-d , europe-west1-b |
1 a 64 | 1 a 208 | Sim | |
Todas as outras zonas P100 | 1 a 96 | 1 a 624 | Sim |
1A memória de GPU é a memória disponível num dispositivo de GPU que pode usar para o armazenamento temporário de dados. É separada da memória da instância e foi concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.
Gráfico de comparação geral
A tabela seguinte descreve o tamanho da memória da GPU, a disponibilidade de funcionalidades e os tipos de carga de trabalho ideais de diferentes modelos de GPU disponíveis no Compute Engine.
Modelo da GPU | Memória da GPU | Interconnect | Suporte da estação de trabalho virtual (vWS) NVIDIA RTX | Melhor utilização para |
---|---|---|---|---|
GB200 | 180 GB HBM3e a 8 TBps | NVLink Full Mesh a 1800 GBps | Inferência e preparação distribuídas em grande escala de GMLs, sistemas de recomendação e HPC | |
B200 | 180 GB HBM3e a 8 TBps | NVLink Full Mesh a 1800 GBps | Inferência e preparação distribuídas em grande escala de GMLs, sistemas de recomendação e HPC | |
H200 | 141 GB HBM3e a 4,8 TBps | NVLink Full Mesh a 900 GBps | Modelos grandes com tabelas de dados massivas para preparação de ML, inferência, HPC, BERT e DLRM | |
H100 | 80 GB HBM3 a 3,35 TBps | NVLink Full Mesh a 900 GBps | Modelos grandes com tabelas de dados massivas para preparação de ML, inferência, HPC, BERT e DLRM | |
A100 80GB | 80 GB HBM2e a 1,9 TBps | NVLink Full Mesh a 600 GBps | Modelos grandes com tabelas de dados massivas para preparação de ML, inferência, HPC, BERT e DLRM | |
A100 40GB | 40 GB HBM2 a 1,6 TBps | NVLink Full Mesh a 600 GBps | Formação de ML, inferência e HPC | |
RTX PRO 6000 (pré-visualização) | 96 GB GDDR7 com ECC a 1597 GBps | N/A | Inferência de ML, preparação, estações de trabalho de visualização remota, transcodificação de vídeo, HPC | |
L4 | 24 GB GDDR6 a 300 GBps | N/A | Inferência de ML, preparação, estações de trabalho de visualização remota, transcodificação de vídeo, HPC | |
T4 | 16 GB GDDR6 a 320 GBps | N/A | Inferência de AA, formação, estações de trabalho de visualização remota, transcodificação de vídeo | |
V100 | 16 GB HBM2 a 900 GBps | NVLink Ring @ 300 GBps | Formação de ML, inferência e HPC | |
P4 | 8 GB GDDR5 a 192 GBps | N/A | Estações de trabalho de visualização remotas, inferência de ML e transcodificação de vídeo | |
P100 | 16 GB HBM2 a 732 GBps | N/A | Preparação de ML, inferência, HPC, estações de trabalho de visualização remota |
Para comparar os preços das GPUs para os diferentes modelos de GPUs e regiões disponíveis no Compute Engine, consulte os preços das GPUs.
Gráfico de comparação do desempenho
A tabela seguinte descreve as especificações de desempenho de diferentes modelos de GPU disponíveis no Compute Engine.
Desempenho de computação
Modelo da GPU | FP64 | FP32 | FP16 | INT8 |
---|---|---|---|---|
GB200 | 90 TFLOPS | 180 TFLOPS | ||
B200 | 40 TFLOPS | 80 TFLOPS | ||
H200 | 34 TFLOPS | 67 TFLOPS | ||
H100 | 34 TFLOPS | 67 TFLOPS | ||
A100 80GB | 9,7 TFLOPS | 19,5 TFLOPS | ||
A100 40GB | 9,7 TFLOPS | 19,5 TFLOPS | ||
L4 | 0,5 TFLOPS1 | 30,3 TFLOPS | ||
T4 | 0,25 TFLOPS1 | 8,1 TFLOPS | ||
V100 | 7,8 TFLOPS | 15,7 TFLOPS | ||
P4 | 0,2 TFLOPS1 | 5,5 TFLOPS | 22 TOPS2 | |
P100 | 4,7 TFLOPS | 9,3 TFLOPS | 18,7 TFLOPS |
1Para permitir que o código FP64 funcione corretamente, a arquitetura da GPU T4, L4 e P4 inclui um pequeno número de unidades de hardware FP64.
2 teraoperações por segundo.
Desempenho do núcleo Tensor
Modelo da GPU | FP64 | TF32 | FP16/FP32 de precisão mista | INT8 | INT4 | FP8 |
---|---|---|---|---|---|---|
GB200 | 90 TFLOPS | 2500 TFLOPS2 | 5000 TFLOPS1, 2 | 10 000 TFLOPS2 | 20 000 TFLOPS2 | 10 000 TFLOPS2 |
B200 | 40 TFLOPS | 1100 TFLOPS2 | 4500 TFLOPS1, 2 | 9000 TFLOPS2 | 9000 TFLOPS2 | |
H200 | 67 TFLOPS | 989 TFLOPS2 | 1979 TFLOPS1, 2 | 3958 TOPS2 | 3958 TFLOPS2 | |
H100 | 67 TFLOPS | 989 TFLOPS2 | 1979 TFLOPS1, 2 | 3958 TOPS2 | 3958 TFLOPS2 | |
A100 80GB | 19,5 TFLOPS | 156 TFLOPS | 312 TFLOPS1 | 624 TOPS | 1248 TOPS | |
A100 40GB | 19,5 TFLOPS | 156 TFLOPS | 312 TFLOPS1 | 624 TOPS | 1248 TOPS | |
L4 | 120 TFLOPS2 | 242 TFLOPS1, 2 | 485 TOPS2 | 485 TFLOPS2 | ||
T4 | 65 TFLOPS | 130 TOPS | 260 TOPS | |||
V100 | 125 TFLOPS | |||||
P4 | ||||||
P100 |
1 Para a preparação de precisão mista, as GPUs NVIDIA GB200, B200, H200, H100, A100 e L4 também suportam o tipo de dados bfloat16
.
2As GPUs NVIDIA GB200, B200, H200, H100 e L4
suportam a escassez estrutural. Pode usar a escassez estrutural para duplicar o desempenho dos seus modelos. Os valores documentados aplicam-se quando usa a escassez estruturada.
Se não estiver a usar a escassez estruturada, os valores são reduzidos para metade.
O que se segue?
- Saiba mais sobre as GPUs do Compute Engine.
- Verifique a disponibilidade de regiões e zonas de GPUs.
- Reveja as larguras de banda da rede e as GPUs.
- Veja os detalhes dos preços das GPUs.