Tipos de máquinas com GPU


Este documento descreve os modelos de GPU NVIDIA disponíveis no Compute Engine, que pode usar para acelerar a aprendizagem automática (AA), o processamento de dados e as cargas de trabalho com utilização intensiva de gráficos nas suas instâncias de máquinas virtuais (VMs). Este documento também detalha as GPUs pré-associadas a séries de máquinas otimizadas para aceleradores, como A4X, A4, A3, A2 e G2, e as GPUs que pode associar a instâncias de uso geral N1.

Use este documento para comparar o desempenho, a memória e as funcionalidades de diferentes modelos de GPU. Para uma vista geral mais detalhada da família de máquinas otimizadas para aceleradores, incluindo informações sobre plataformas de CPU, opções de armazenamento e capacidades de rede, e para encontrar o tipo de máquina específico que corresponde à sua carga de trabalho, consulte o artigo Família de máquinas otimizadas para aceleradores.

Para mais informações sobre as GPUs no Compute Engine, consulte o artigo Acerca das GPUs.

Para ver as regiões e as zonas disponíveis para GPUs no Compute Engine, consulte o artigo Regiões e disponibilidade de zonas de GPUs.

Modelos de GPU disponíveis

Os seguintes modelos de GPU estão disponíveis com o tipo de máquina especificado para suportar as suas cargas de trabalho de IA, ML e HPC. Se tiver cargas de trabalho com muitos gráficos, como a visualização 3D, também pode criar estações de trabalho virtuais que usam estações de trabalho virtuais (vWS) NVIDIA RTX. A estação de trabalho virtual NVIDIA RTX está disponível para alguns modelos de GPU. Quando cria uma instância que usa a estação de trabalho virtual NVIDIA RTX, o Compute Engine adiciona automaticamente uma licença vWS. Para informações sobre os preços das estações de trabalho virtuais, consulte a página de preços da GPU.

Para os tipos de máquinas otimizados para aceleradores das séries A e G, o modelo de GPU especificado é anexado automaticamente à instância. Para os tipos de máquinas de uso geral N1, pode anexar os modelos de GPU especificados.

Tipo de máquina Modelo da GPU Modelo NVIDIA RTX Virtual Workstation (vWS)
A4X Superchips NVIDIA GB200 Grace Blackwell (nvidia-gb200).

Cada Superchip contém quatro GPUs NVIDIA B200 Blackwell.

A4 GPUs NVIDIA B200 Blackwell (nvidia-b200)
A3 Ultra GPUs NVIDIA H200 SXM (nvidia-h200-141gb)
A3 Mega
GPUs NVIDIA H100 SXM (nvidia-h100-mega-80gb)
A3 High e
A3 Edge
GPUs NVIDIA H100 SXM (nvidia-h100-80gb)
A2 Ultra GPUs NVIDIA A100 de 80 GB (nvidia-a100-80gb)
A2 Standard GPUs NVIDIA A100 de 40 GB (nvidia-a100-40gb)
G4 (pré-visualização) NVIDIA RTX PRO 6000 Blackwell Server Edition (nvidia-rtx-pro-6000)
G2 NVIDIA L4 (nvidia-l4) Estações de trabalho virtuais (vWS) NVIDIA L4 (nvidia-l4-vws)
N1 GPUs NVIDIA T4 (nvidia-tesla-t4) Estações de trabalho virtuais (vWS) NVIDIA T4 (nvidia-tesla-t4-vws)
GPUs NVIDIA P4 (nvidia-tesla-p4) Estações de trabalho virtuais (vWS) NVIDIA P4 (nvidia-tesla-p4-vws)
GPUs NVIDIA V100 (nvidia-tesla-v100)
GPUs NVIDIA P100 (nvidia-tesla-p100) Estações de trabalho virtuais (vWS) NVIDIA P100 (nvidia-tesla-p100-vws)

Também pode usar alguns tipos de máquinas com GPU no hipercomputador de IA. O AI Hypercomputer é um sistema de supercomputação otimizado para suportar as suas cargas de trabalho de inteligência artificial (IA) e aprendizagem automática (AA). Esta opção é recomendada para criar uma infraestrutura densamente alocada e otimizada para o desempenho que tenha integrações para o Google Kubernetes Engine (GKE) e os programadores do Slurm.

Série de máquinas A4X

Otimizado com acelerador A4X Os tipos de máquinas usam superchips NVIDIA GB200 Grace Blackwell (nvidia-gb200) e são ideais para a preparação e o fornecimento de modelos de base.

A A4X é uma plataforma de exaescala baseada na NVIDIA GB200 NVL72. Cada máquina tem dois processadores NVIDIA Grace com núcleos Arm Neoverse V2. Estas CPUs estão ligadas a quatro GPUs NVIDIA B200 Blackwell com comunicação rápida chip-to-chip (NVLink-C2C).

Superchips NVIDIA GB200 Grace Blackwell
Tipo de máquina Número de vCPUs1 Memória da instância (GB) SSD local associado (GiB) Contagem de NICs físicas Largura de banda máxima da rede (Gbps)2 Número de GPUs Memória GPU3
(GB HBM3e)
a4x-highgpu-4g 140 884 12 000 6 2000 4 720

1Uma vCPU é implementada como um único hiperthread de hardware numa das plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número indicado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores. Para mais informações sobre a largura de banda da rede, consulte o artigo Largura de banda da rede.
3A memória da GPU é a memória num dispositivo GPU que pode ser usada para o armazenamento temporário de dados. É separada da memória da instância e foi concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.

Série de máquinas A4

Os tipos de máquinas A4 otimizados para aceleradores têm GPUs NVIDIA B200 Blackwell (nvidia-b200) anexadas e são ideais para a preparação e a publicação de modelos de base.

GPUs NVIDIA B200 Blackwell anexadas
Tipo de máquina Número de vCPUs1 Memória da instância (GB) SSD local associado (GiB) Contagem de NICs físicas Largura de banda máxima da rede (Gbps)2 Número de GPUs Memória GPU3
(GB HBM3e)
a4-highgpu-8g 224 3968 12 000 10 3600 8 1440

1Uma vCPU é implementada como um único hiperthread de hardware numa das plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número indicado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores. Para mais informações acerca da largura de banda da rede, consulte o artigo Largura de banda da rede.
3A memória da GPU é a memória num dispositivo GPU que pode ser usada para o armazenamento temporário de dados. É separada da memória da instância e foi concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.

Série de máquinas A3

Os tipos de máquinas otimizados para aceleradores A3 têm GPUs NVIDIA H100 SXM ou NVIDIA H200 SXM anexadas.

Tipo de máquina A3 Ultra

Os tipos de máquinas A3 Ultra têm GPUs NVIDIA H200 SXM (nvidia-h200-141gb) anexadas e oferecem o desempenho de rede mais elevado na série A3. Os tipos de máquinas A3 Ultra são ideais para a preparação e a publicação de modelos de base.

GPUs NVIDIA H200 anexadas
Tipo de máquina Número de vCPUs1 Memória da instância (GB) SSD local associado (GiB) Contagem de NICs físicas Largura de banda máxima da rede (Gbps)2 Número de GPUs Memória GPU3
(GB HBM3e)
a3-ultragpu-8g 224 2952 12 000 10 3600 8 1128

1Uma vCPU é implementada como um único hiperthread de hardware numa das plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número indicado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores. Para mais informações sobre a largura de banda da rede, consulte o artigo Largura de banda da rede.
3A memória da GPU é a memória num dispositivo GPU que pode ser usada para o armazenamento temporário de dados. É separada da memória da instância e foi concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.

Tipos de máquinas A3 Mega, High e Edge

Para usar GPUs NVIDIA H100 SXM, tem as seguintes opções:

  • A3 Mega: estes tipos de máquinas têm GPUs H100 SXM (nvidia-h100-mega-80gb) e são ideais para cargas de trabalho de preparação e apresentação em grande escala.
  • A3 High: estes tipos de máquinas têm GPUs H100 SXM (nvidia-h100-80gb) e são adequados para tarefas de preparação e apresentação.
  • A3 Edge: estes tipos de máquinas têm GPUs H100 SXM (nvidia-h100-80gb), foram concebidos especificamente para a publicação e estão disponíveis num conjunto limitado de regiões.

A3 Mega

GPUs NVIDIA H100 anexadas
Tipo de máquina Número de vCPUs1 Memória da instância (GB) SSD local associado (GiB) Contagem de NICs físicas Largura de banda máxima da rede (Gbps)2 Número de GPUs Memória da GPU3
(GB HBM3)
a3-megagpu-8g 208 1872 6000 9 1800 8 640

A3 High

GPUs NVIDIA H100 anexadas
Tipo de máquina Número de vCPUs1 Memória da instância (GB) SSD local associado (GiB) Contagem de NICs físicas Largura de banda máxima da rede (Gbps)2 Número de GPUs Memória da GPU3
(GB HBM3)
a3-highgpu-1g 26 234 750 1 25 1 80
a3-highgpu-2g 52 468 1500 1 50 2 160
a3-highgpu-4g 104 936 3000 1 100 4 320
a3-highgpu-8g 208 1872 6000 5 1000 8 640

A3 Edge

GPUs NVIDIA H100 anexadas
Tipo de máquina Número de vCPUs1 Memória da instância (GB) SSD local associado (GiB) Contagem de NICs físicas Largura de banda máxima da rede (Gbps)2 Número de GPUs Memória da GPU3
(GB HBM3)
a3-edgegpu-8g 208 1872 6000 5
  • 800: para asia-south1 e northamerica-northeast2
  • 400: para todas as outras regiões do A3 Edge
8 640

1Uma vCPU é implementada como um único hiperthread de hardware numa das plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número indicado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores. Para mais informações sobre a largura de banda da rede, consulte o artigo Largura de banda da rede.
3A memória da GPU é a memória num dispositivo GPU que pode ser usada para o armazenamento temporário de dados. É separada da memória da instância e foi concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.

Série de máquinas A2

Os tipos de máquinas A2 otimizados para aceleradores têm GPUs NVIDIA A100 anexadas e são ideais para o ajuste fino de modelos, modelos grandes e inferência otimizada em termos de custos.

As máquinas da série A2 estão disponíveis em dois tipos:

  • A2 Ultra: estes tipos de máquinas têm GPUs A100 de 80 GB (nvidia-a100-80gb) e discos SSD locais associados.
  • A2 Standard: estes tipos de máquinas têm GPUs A100 de 40 GB (nvidia-tesla-a100) anexadas. Também pode adicionar discos SSD locais quando cria uma instância padrão A2. Para saber o número de discos que pode anexar, consulte o artigo Tipos de máquinas que exigem que escolha um número de discos SSD locais.

A2 Ultra

GPUs NVIDIA A100 de 80 GB anexadas
Tipo de máquina Número de vCPUs1 Memória da instância (GB) SSD local associado (GiB) Largura de banda máxima da rede (Gbps)2 Número de GPUs Memória GPU3
(GB HBM2e)
a2-ultragpu-1g 12 170 375 24 1 80
a2-ultragpu-2g 24 340 750 32 2 160
a2-ultragpu-4g 48 680 1500 50 4 320
a2-ultragpu-8g 96 1360 3000 100 8 640

A2 Standard

GPUs NVIDIA A100 de 40 GB anexadas
Tipo de máquina Número de vCPUs1 Memória da instância (GB) SSD local suportado Largura de banda máxima da rede (Gbps)2 Número de GPUs Memória da GPU3
(GB HBM2)
a2-highgpu-1g 12 85 Sim 24 1 40
a2-highgpu-2g 24 170 Sim 32 2 80
a2-highgpu-4g 48 340 Sim 50 4 160
a2-highgpu-8g 96 680 Sim 100 8 320
a2-megagpu-16g 96 1360 Sim 100 16 640

1Uma vCPU é implementada como um único hiperthread de hardware numa das plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número indicado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores. Para mais informações sobre a largura de banda da rede, consulte o artigo Largura de banda da rede.
3A memória da GPU é a memória num dispositivo GPU que pode ser usada para o armazenamento temporário de dados. É separada da memória da instância e foi concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.

Série de máquinas G4

Os tipos de máquinas otimizados para aceleradores G4 usam GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition (nvidia-rtx-pro-6000) e são adequados para cargas de trabalho de simulação do NVIDIA Omniverse, aplicações com utilização intensiva de gráficos, transcodificação de vídeo e desktops virtuais. Os tipos de máquinas G4 também oferecem uma solução de baixo custo para realizar a inferência de anfitrião único e o ajuste de modelos em comparação com os tipos de máquinas da série A.

Uma funcionalidade essencial da série G4 é o suporte para comunicação ponto a ponto (P2P) direta da GPU em tipos de máquinas com várias GPUs (g4-standard-96, g4-standard-192, g4-standard-384). Isto permite que as GPUs na mesma instância troquem dados diretamente através do barramento PCIe, sem envolver o anfitrião da CPU. Para mais informações sobre a comunicação ponto a ponto da GPU G4, consulte o artigo Comunicação ponto a ponto da GPU G4.

GPUs NVIDIA RTX PRO 6000 anexadas
Tipo de máquina Número de vCPUs1 Memória da instância (GB) SSD Titanium máximo suportado (GiB)2 Contagem de NICs físicas Largura de banda máxima da rede (Gbps)3 Número de GPUs Memória da GPU4
(GB GDDR7)
g4-standard-48 48 180 1500 1 50 1 96
g4-standard-96 96 360 3000 1 100 2 192
g4-standard-192 192 720 6000 1 200 4 384
g4-standard-384 384 1440 12 000 2 400 8 768

1Uma vCPU é implementada como um único hiperthread de hardware numa das plataformas de CPU disponíveis.
2 Pode adicionar discos SSD de titânio quando cria uma instância G4. Para saber o número de discos que pode anexar, consulte o artigo Tipos de máquinas que exigem que escolha um número de discos SSD locais.
3A largura de banda de saída máxima não pode exceder o número indicado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores. Consulte o artigo Largura de banda da rede.
4A memória da GPU é a memória num dispositivo de GPU que pode ser usada para armazenamento temporário de dados. É separada da memória da instância e foi concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.

Série de máquinas G2

Os tipos de máquinas G2 otimizados para aceleradores têm GPUs NVIDIA L4 anexadas e são ideais para inferência otimizada em função dos custos, cargas de trabalho de computação de alto desempenho e com utilização intensiva de gráficos.

Cada tipo de máquina G2 também tem uma memória predefinida e um intervalo de memória personalizado. O intervalo de memória personalizado define a quantidade de memória que pode atribuir à sua instância para cada tipo de máquina. Também pode adicionar discos SSD locais quando cria uma instância G2. Para saber o número de discos que pode anexar, consulte o artigo Tipos de máquinas que exigem que escolha um número de discos SSD locais.

GPUs NVIDIA L4 anexadas
Tipo de máquina Número de vCPUs1 Memória da instância predefinida (GB) Intervalo de memória da instância personalizado (GB) SSD local máximo suportado (GiB) Largura de banda máxima da rede (Gbps)2 Número de GPUs Memória GPU3 (GB GDDR6)
g2-standard-4 4 16 16 a 32 375 10 1 24
g2-standard-8 8 32 32 a 54 375 16 1 24
g2-standard-12 12 48 48 a 54 375 16 1 24
g2-standard-16 16 64 54 a 64 375 32 1 24
g2-standard-24 24 96 96 a 108 750 32 2 48
g2-standard-32 32 128 96 a 128 375 32 1 24
g2-standard-48 48 192 192 a 216 1500 50 4 96
g2-standard-96 96 384 384 a 432 3000 100 8 192

1Uma vCPU é implementada como um único hiperthread de hardware numa das plataformas de CPU disponíveis.
2A largura de banda de saída máxima não pode exceder o número indicado. A largura de banda de saída real depende do endereço IP de destino e de outros fatores. Para mais informações sobre a largura de banda da rede, consulte o artigo Largura de banda da rede.
3A memória da GPU é a memória num dispositivo GPU que pode ser usada para o armazenamento temporário de dados. É separada da memória da instância e foi concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.

Série de máquinas N1

Pode anexar os seguintes modelos de GPU a um tipo de máquina N1 com exceção dos tipos de máquinas com núcleo partilhado N1.

Ao contrário dos tipos de máquinas na série de máquinas otimizadas para aceleradores, os tipos de máquinas N1 não incluem um número definido de GPUs anexadas. Em vez disso, especifica o número de GPUs a associar quando cria a instância.

As instâncias N1 com menos GPUs limitam o número máximo de vCPUs. Em geral, um número mais elevado de GPUs permite-lhe criar instâncias com um número mais elevado de vCPUs e memória.

GPUs N1+T4

Pode anexar GPUs NVIDIA T4 a instâncias de uso geral N1 com as seguintes configurações de instâncias.

Tipo de acelerador Número de GPUs Memória da GPU1 (GB GDDR6) Número de vCPUs Memória da instância (GB) SSD local suportado
nvidia-tesla-t4 ou
nvidia-tesla-t4-vws
1 16 1 a 48 1 a 312 Sim
2 32 1 a 48 1 a 312 Sim
4 64 1 a 96 1 a 624 Sim

1A memória de GPU é a memória disponível num dispositivo de GPU que pode usar para o armazenamento temporário de dados. É separada da memória da instância e foi concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.

GPUs N1+P4

Pode anexar GPUs NVIDIA P4 a instâncias de uso geral N1 com as seguintes configurações de instâncias.

Tipo de acelerador Número de GPUs Memória da GPU1 (GB GDDR5) Número de vCPUs Memória da instância (GB) SSD local suportado2
nvidia-tesla-p4 ou
nvidia-tesla-p4-vws
1 8 1 a 24 1 a 156 Sim
2 16 1 a 48 1 a 312 Sim
4 32 1 a 96 1 a 624 Sim

1A memória da GPU é a memória disponível num dispositivo de GPU que pode usar para armazenamento temporário de dados. É separada da memória da instância e foi especificamente concebida para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.
2Para instâncias com GPUs NVIDIA P4 anexadas, os discos SSD locais só são suportados nas zonas us-central1-c e northamerica-northeast1-b.

GPUs N1+V100

Pode anexar GPUs NVIDIA V100 a instâncias de uso geral N1 com as seguintes configurações de instâncias.

Tipo de acelerador Número de GPUs Memória da GPU1 (GB HBM2) Número de vCPUs Memória da instância (GB) SSD local suportado2
nvidia-tesla-v100 1 16 1 a 12 1 a 78 Sim
2 32 1 a 24 1 a 156 Sim
4 64 1 a 48 1 a 312 Sim
8 128 1 a 96 1 a 624 Sim

1A memória de GPU é a memória disponível num dispositivo de GPU que pode usar para o armazenamento temporário de dados. É separada da memória da instância e foi concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.
2Para instâncias com GPUs NVIDIA V100 anexadas, os discos SSD locais não são suportados no us-east1-c.

GPUs N1+P100

Pode anexar GPUs NVIDIA P100 a instâncias de uso geral N1 com as seguintes configurações de instâncias.

Para algumas GPUs NVIDIA P100, a CPU e a memória máximas disponíveis para algumas configurações dependem da zona em que o recurso de GPU é executado.

Tipo de acelerador Número de GPUs Memória da GPU1 (GB HBM2) Zona Número de vCPUs Memória da instância (GB) SSD local suportado
nvidia-tesla-p100 ou
nvidia-tesla-p100-vws
1 16 Todas as zonas P100 1 a 16 1 a 104 Sim
2 32 Todas as zonas P100 1 a 32 1 a 208 Sim
4 64 us-east1-c,
europe-west1-d,
europe-west1-b
1 a 64 1 a 208 Sim
Todas as outras zonas P100 1 a 96 1 a 624 Sim

1A memória de GPU é a memória disponível num dispositivo de GPU que pode usar para o armazenamento temporário de dados. É separada da memória da instância e foi concebida especificamente para processar as exigências de largura de banda mais elevadas das suas cargas de trabalho com utilização intensiva de gráficos.

Gráfico de comparação geral

A tabela seguinte descreve o tamanho da memória da GPU, a disponibilidade de funcionalidades e os tipos de carga de trabalho ideais de diferentes modelos de GPU disponíveis no Compute Engine.

Modelo da GPU Memória da GPU Interconnect Suporte da estação de trabalho virtual (vWS) NVIDIA RTX Melhor utilização para
GB200 180 GB HBM3e a 8 TBps NVLink Full Mesh a 1800 GBps Inferência e preparação distribuídas em grande escala de GMLs, sistemas de recomendação e HPC
B200 180 GB HBM3e a 8 TBps NVLink Full Mesh a 1800 GBps Inferência e preparação distribuídas em grande escala de GMLs, sistemas de recomendação e HPC
H200 141 GB HBM3e a 4,8 TBps NVLink Full Mesh a 900 GBps Modelos grandes com tabelas de dados massivas para preparação de ML, inferência, HPC, BERT e DLRM
H100 80 GB HBM3 a 3,35 TBps NVLink Full Mesh a 900 GBps Modelos grandes com tabelas de dados massivas para preparação de ML, inferência, HPC, BERT e DLRM
A100 80GB 80 GB HBM2e a 1,9 TBps NVLink Full Mesh a 600 GBps Modelos grandes com tabelas de dados massivas para preparação de ML, inferência, HPC, BERT e DLRM
A100 40GB 40 GB HBM2 a 1,6 TBps NVLink Full Mesh a 600 GBps Formação de ML, inferência e HPC
RTX PRO 6000 (pré-visualização) 96 GB GDDR7 com ECC a 1597 GBps N/A Inferência de ML, preparação, estações de trabalho de visualização remota, transcodificação de vídeo, HPC
L4 24 GB GDDR6 a 300 GBps N/A Inferência de ML, preparação, estações de trabalho de visualização remota, transcodificação de vídeo, HPC
T4 16 GB GDDR6 a 320 GBps N/A Inferência de AA, formação, estações de trabalho de visualização remota, transcodificação de vídeo
V100 16 GB HBM2 a 900 GBps NVLink Ring @ 300 GBps Formação de ML, inferência e HPC
P4 8 GB GDDR5 a 192 GBps N/A Estações de trabalho de visualização remotas, inferência de ML e transcodificação de vídeo
P100 16 GB HBM2 a 732 GBps N/A Preparação de ML, inferência, HPC, estações de trabalho de visualização remota

Para comparar os preços das GPUs para os diferentes modelos de GPUs e regiões disponíveis no Compute Engine, consulte os preços das GPUs.

Gráfico de comparação do desempenho

A tabela seguinte descreve as especificações de desempenho de diferentes modelos de GPU disponíveis no Compute Engine.

Desempenho de computação

Modelo da GPU FP64 FP32 FP16 INT8
GB200 90 TFLOPS 180 TFLOPS
B200 40 TFLOPS 80 TFLOPS
H200 34 TFLOPS 67 TFLOPS
H100 34 TFLOPS 67 TFLOPS
A100 80GB 9,7 TFLOPS 19,5 TFLOPS
A100 40GB 9,7 TFLOPS 19,5 TFLOPS
L4 0,5 TFLOPS1 30,3 TFLOPS
T4 0,25 TFLOPS1 8,1 TFLOPS
V100 7,8 TFLOPS 15,7 TFLOPS
P4 0,2 TFLOPS1 5,5 TFLOPS 22 TOPS2
P100 4,7 TFLOPS 9,3 TFLOPS 18,7 TFLOPS

1Para permitir que o código FP64 funcione corretamente, a arquitetura da GPU T4, L4 e P4 inclui um pequeno número de unidades de hardware FP64.
2 teraoperações por segundo.

Desempenho do núcleo Tensor

Modelo da GPU FP64 TF32 FP16/FP32 de precisão mista INT8 INT4 FP8
GB200 90 TFLOPS 2500 TFLOPS2 5000 TFLOPS1, 2 10 000 TFLOPS2 20 000 TFLOPS2 10 000 TFLOPS2
B200 40 TFLOPS 1100 TFLOPS2 4500 TFLOPS1, 2 9000 TFLOPS2 9000 TFLOPS2
H200 67 TFLOPS 989 TFLOPS2 1979 TFLOPS1, 2 3958 TOPS2 3958 TFLOPS2
H100 67 TFLOPS 989 TFLOPS2 1979 TFLOPS1, 2 3958 TOPS2 3958 TFLOPS2
A100 80GB 19,5 TFLOPS 156 TFLOPS 312 TFLOPS1 624 TOPS 1248 TOPS
A100 40GB 19,5 TFLOPS 156 TFLOPS 312 TFLOPS1 624 TOPS 1248 TOPS
L4 120 TFLOPS2 242 TFLOPS1, 2 485 TOPS2 485 TFLOPS2
T4 65 TFLOPS 130 TOPS 260 TOPS
V100 125 TFLOPS
P4
P100

1 Para a preparação de precisão mista, as GPUs NVIDIA GB200, B200, H200, H100, A100 e L4 também suportam o tipo de dados bfloat16.
2As GPUs NVIDIA GB200, B200, H200, H100 e L4 suportam a escassez estrutural. Pode usar a escassez estrutural para duplicar o desempenho dos seus modelos. Os valores documentados aplicam-se quando usa a escassez estruturada. Se não estiver a usar a escassez estruturada, os valores são reduzidos para metade.

O que se segue?