GPUs no Compute Engine

O Compute Engine fornece unidades de processamento gráfico (GPUs, na sigla em inglês) que podem ser adicionadas às instâncias de máquina virtual (VM, na sigla em inglês). Use essas GPUs para acelerar cargas de trabalho específicas nas instâncias, como aprendizado de máquina e processamento de dados.

Para cargas de trabalho com muitos gráficos, como visualização em 3D, renderização em 3D ou aplicativos virtuais, é possível criar estações de trabalho virtuais que usam a tecnologia NVIDIA® GRID®. Para informações sobre GPUs para aplicativos com muitos gráficos, consulte GPUs para cargas de trabalho com gráficos.

Este documento fornece uma visão geral das GPUs no Compute Engine. Para mais informações sobre como trabalhar com GPUs, consulte os seguintes recursos:

Faça um teste

Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho do Compute Engine em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.

Faça uma avaliação gratuita do Compute Engine

Introdução

O Compute Engine fornece GPUs NVIDIA® para as instâncias no modo de passagem. Com elas, as instâncias de máquina virtual têm controle direto sobre as GPUs e a memória associada.

Para cargas de trabalho computacionais, os modelos de GPU estão disponíveis nos estágios a seguir:

  • NVIDIA® A100: disponibilidade geral
  • NVIDIA® T4: nvidia-tesla-t4: disponibilidade geral
  • NVIDIA® V100: nvidia-tesla-v100: disponibilidade geral
  • NVIDIA® P100: nvidia-tesla-p100: disponibilidade geral
  • NVIDIA® P4: nvidia-tesla-p4: disponibilidade geral
  • NVIDIA® K80: nvidia-tesla-k80: disponibilidade geral

Para cargas de trabalho de gráficos, os modelos de GPU estão disponíveis nos estágios a seguir:

  • NVIDIA® T4 Virtual Workstations: nvidia-tesla-t4-vws: disponibilidade geral
  • NVIDIA® P100 Virtual Workstations: nvidia-tesla-p100-vws: disponibilidade geral
  • NVIDIA® P4 Virtual Workstations: nvidia-tesla-p4-vws: disponibilidade geral

Para informações sobre GPUs para estações de trabalho virtuais, consulte GPUs para cargas de trabalho de gráficos.

É possível anexar GPUs somente a instâncias com tipos de máquinas predefinidos ou personalizados. As GPUs não são compatíveis com tipos de máquinas com núcleo compartilhado ou com otimização de memória.

Você também pode adicionar SSDs locais às GPUs. Para ver uma lista de suporte de SSD local por tipos e regiões de GPU, consulte Disponibilidade de SSD local por regiões e zonas de GPU.

Preços

Os dispositivos de GPU recebem descontos por uso prolongado semelhantes às vCPUs. Para preços por hora e mensais para dispositivos de GPU, consulte a página de preços da GPU.

Modelos de GPU

GPUs NVIDIA® A100

Para executar GPUs NVIDIA® A100, é necessário usar o tipo de máquina otimizado para aceleradores (A2).

Cada tipo de máquina A2 tem uma contagem de GPU fixa, uma contagem de vCPU e um tamanho de memória.

Modelo de GPU Tipo de máquina GPUs Memória da GPU vCPUs disponíveis Memória disponível
NVIDIA® A100 a2-highgpu-1g 1 GPU 40 GB HBM2 12 vCPUs 85 GB
a2-highgpu-2g 2 GPUs 80 GB HBM2 24 vCPUs 170 GB
a2-highgpu-4g 4 GPUs 160 GB HBM2 48 vCPUs 340 GB
a2-highgpu-8g 8 GPUs 320 GB HBM2 96 vCPUs 680 GB
a2-megagpu-16g 16 GPUs 640 GB HBM2 96 vCPUs 1360 GB

Outros modelos de GPU NVIDIA® disponíveis

No entanto, as VMs com números reduzidos de GPUs estão limitadas a um número máximo de vCPUs. Em geral, um número maior de GPUs possibilita a criação de instâncias com um número maior de vCPUs e memória.

Modelo de GPU GPUs Memória da GPU vCPUs disponíveis Memória disponível
NVIDIA® T4 1 GPU GDDR6 de 16 GB 1 a 24 vCPUs 1 a 156 GB
2 GPUs GDDR6 de 32 GB 1 a 48 vCPUs 1 a 312 GB
4 GPUs GDDR6 de 64 GB 1 a 96 vCPUs 1 a 624 GB
NVIDIA® P4 1 GPU GDDR5 de 8 GB 1 a 24 vCPUs 1 a 156 GB
2 GPUs GDDR5 de 16 GB 1 a 48 vCPUs 1 a 312 GB
4 GPUs GDDR5 de 32 GB 1 a 96 vCPUs 1 a 624 GB
NVIDIA® V100 1 GPU HBM2 de 16 GB 1 a 12 vCPUs 1 a 78 GB
2 GPUs HBM2 de 32 GB 1 a 24 vCPUs 1 a 156 GB
4 GPUs HBM2 de 64 GB 1 a 48 vCPUs 1 a 312 GB
8 GPUs HBM2 de 128 GB 1 a 96 vCPUs 1 a 624 GB
NVIDIA® P100 1 GPU HBM2 de 16 GB 1 a 16 vCPUs 1 a 104 GB
2 GPUs HBM2 de 32 GB 1 a 32 vCPUs 1 a 208 GB
4 GPUs HBM2 de 64 GB

1 a 64 vCPUs
(us-east1-c, europe-west1-d, europe-west1-b)

1 a 96 vCPUs
(todas as zonas P100)

1 a 208 GB
(us-east1-c, europe-west1-d, europe-west1-b)

1 a 624 GB
(todas as zonas P100)

NVIDIA® K80 1 GPU GDDR5 de 12 GB 1 - 8 vCPUs 1 a 52 GB
2 GPUs GDDR5 de 24 GB 1 a 16 vCPUs 1 a 104 GB
4 GPUs GDDR5 de 48 GB 1 a 32 vCPUs 1 a 208 GB
8 GPUs GDDR5 de 96 GB 1 - 64 vCPUs

1 a 416 GB
(asia-east1-a e us-east1-d)

1 a 208 GB
(todas as zonas de K80)

Observação:
  • Para uma descrição mais detalhada das zonas, consulte Regiões e zonas.
  • As placas NVIDIA® K80® contêm duas GPUs cada. O preço das GPUs K80 é por GPU individual, e não por placa.

GPUs NVIDIA® GRID® para cargas de trabalho de gráficos

Se você tiver cargas de trabalho com muitos gráficos, como a visualização em 3D, será possível criar estações de trabalho virtuais que usam uma plataforma NVIDIA® GRID®. Para informações contextuais sobre NVIDIA GRID, consulte a Visão geral da GRID.

Quando você seleciona uma GPU para uma estação de trabalho virtual, uma licença da NVIDIA GRID é adicionada à VM. Para mais informações sobre preços, consulte a página de preços da GPU.

Para configurar uma estação de trabalho virtual NVIDIA® GRID®, é necessário criar uma VM com a Virtual Workstation ativada e instalar um driver GRID.

Depois de criar a estação de trabalho virtual, será possível se conectar a ela usando um protocolo de computador remoto, como o Teradici® PCoIP ou o VMWare® Horizon View.

Modelo de GPU GPUs Memória da GPU vCPUs disponíveis Memória disponível
NVIDIA® T4 Virtual Workstation 1 GPU GDDR6 de 16 GB 1 a 24 vCPUs 1 a 156 GB
2 GPUs GDDR6 de 32 GB 1 a 48 vCPUs 1 a 312 GB
4 GPUs GDDR6 de 64 GB 1 a 96 vCPUs 1 a 624 GB
NVIDIA® P4 Virtual Workstation 1 GPU GDDR5 de 8 GB 1 a 16 vCPUs 1 a 156 GB
2 GPUs GDDR5 de 16 GB 1 a 48 vCPUs 1 a 312 GB
4 GPUs GDDR5 de 32 GB 1 a 96 vCPUs 1 a 624 GB
NVIDIA® P100 Virtual Workstation 1 GPU HBM2 de 16 GB 1 a 16 vCPUs 1 a 104 GB
2 GPUs HBM2 de 32 GB 1 a 32 vCPUs 1 a 208 GB
4 GPUs HBM2 de 64 GB

1 a 64 vCPUs
(us-east1-c, europe-west1-d, europe-west1-b)

1 a 96 vCPUs
(todas as zonas P100)

1 a 208 GB
(us-east1-c, europe-west1-d, europe-west1-b)

1 a 624 GB
(todas as zonas P100)

Larguras de banda de rede e GPUs

Larguras de banda de rede mais altas podem melhorar o desempenho de cargas de trabalho distribuídas. Para mais informações, consulte Larguras de banda de rede e GPUs.

GPUs em instâncias preemptivas

É possível adicionar GPUs às instâncias de VM preemptivas com preços de spot menores para as GPUs. As GPUs anexadas a instâncias preemptivas funcionam como GPUs normais, mas persistem apenas durante a vida útil da instância. Instâncias preemptivas com GPUs seguem o mesmo processo de preempção de todas as instâncias preemptivas.

Considere solicitar a cota Preemptible GPU dedicada a ser usada para GPUs em instâncias preemptivas. Para mais informações, consulte Cotas para instâncias de VM preemptiva.

Durante os eventos de manutenção, as instâncias preemptivas com GPUs são interrompidas por padrão e não podem ser reiniciadas automaticamente. Para recriar suas instâncias após a interrupção forçada, use um grupo de instâncias gerenciadas. Os grupos de instâncias gerenciadas recriarão as instâncias se os recursos de vCPU, memória e GPU estiverem disponíveis.

Se você quiser receber um aviso antes que as instâncias sejam interrompidas ou se quiser configurar a instância para reiniciar automaticamente após um evento de manutenção, use uma instância padrão com uma GPU. Para instâncias padrão com GPUs, o Google fornece notificação com uma hora de antecedência da preempção.

O Compute Engine não cobrará pelas GPUs se as instâncias forem interrompidas no primeiro minuto de execução.

Para saber as etapas de reinício automático de uma instância padrão, consulte Como atualizar opções para uma instância.

Para saber como criar instâncias preemptivas com GPUs anexadas, leia Como criar VMs com GPUs anexadas.

Como reservar GPUs com desconto por uso contínuo

Para reservar recursos da GPU em uma zona específica, consulte Como reservar recursos zonais. As reservas são necessárias para a definição de preços com desconto de uso contínuo para GPUs.

Gráfico de comparação da GPU

Consulte esta seção para saber mais sobre fatores como especificações de desempenho, disponibilidade de recursos e tipos de carga de trabalho ideais mais adequadas para os diferentes modelos de GPU disponíveis no Compute Engine.

A CPU máxima e a memória disponível para qualquer modelo de GPU dependem da zona em que o recurso da GPU está sendo executado. Para mais informações sobre memória, recursos da CPU e regiões e zonas disponíveis, consulte a lista de GPUs.

Comparação geral

Métrica A100 T4 V100 P4 P100 K80
Memória 40 GB HBM2 a 1,6 TB/s 16 GB GDDR6 a 320 GB/s 16 GB HBM2 a 900 GB/s 8 GB GDDR5 a 192 GB/s 16 GB HBM2 a 732 GB/s 12 GB GDDR5 a 240 GB/s
Interconexão NVLink Full Mesh a 600 GB/s N/A NVLink Ring a 300 GB/s N/A N/A N/A
Suporte da estação de trabalho remota GRID
Melhor aplicação Treinamento de ML, inferência, HPC Inferência de ML, treinamento, estações de trabalho de visualização remota, transcodificação de vídeos Treinamento de ML, inferência, HPC Estações de trabalho de visualização remota, inferência de ML e transcodificação de vídeos Treinamento de ML, inferência, HPC, estações de trabalho de visualização remota Inferência de ML, treinamento, HPC
Preços Para comparar os preços de GPU para os diferentes modelos e regiões de GPU disponíveis no Compute Engine, consulte o sistema de preços de GPU.

Comparação de desempenho

Métrica A100 T4 V100 P4 P100 K80
Desempenho de computação
FP64 9,7 TFLOPS 0,25 TFLOPS1 7,8 TFLOPS 0,2 TFLOPS1 4,7 TFLOPS 1,46 TFLOPS
FP32 19,5 TFLOPS 8,1 TFLOPS 15,7 TFLOPS 5,5 TFLOPS 9,3 TFLOPS 4,37 TFLOPS
FP16 18,7 TFLOPS
INT8 22 TOPS2
Desempenho do Tensor Core
FP64 19,5 TFLOPS
TF32 156 TFLOPS
FP16/FP32 de precisão mista 312 TFLOPS3 65 TFLOPS 125 TFLOPS
INT8 624 TOPS2 180 TOPS2
INT4 1248 TOPS2 260 TOPS2

1Para que o código FP64 funcione corretamente, está incluído na arquitetura da GPU T4 e P4 um pequeno número de unidades de hardware FP64.

2TeraOperações por segundo.

3Para o treinamento em precisão mista, a NVIDIA A100 também aceita o tipo de dados bfloat16.

Restrições

Para VMs com GPUs anexadas, as seguintes restrições se aplicam:

  • Se você quiser usar GPUs NVIDIA® K80 com suas VMs, as VMs não poderão usar o Intel Skylake ou plataformas de CPU posteriores.

  • Atualmente, as GPUs são compatíveis apenas com os tipos de máquina A2 de uso geral ou otimizadas para aceleradores.

  • Não é possível anexar GPUs a VMs com tipos de máquinas com núcleo compartilhado.

  • As VMs com GPUs anexadas precisam interromper para eventos de manutenção do host, mas podem ser reiniciadas automaticamente. Os eventos de manutenção do host, no Compute Engine, têm uma frequência de uma vez a cada duas semanas, mas podem ser executados com mais frequência. Configure as cargas de trabalho para lidar corretamente com esses eventos de manutenção. Especificamente cargas de trabalho de longa duração, como machine learning e computação de alto desempenho (HPC), precisam lidar com a interrupção dos eventos de manutenção do host. Para mais informações, consulte Como lidar com eventos de manutenção do host da GPU.

  • Para proteger os usuários e sistemas do Compute Engine, novos projetos têm uma cota global de GPU, o que limita o número total de GPUs que podem ser criadas em qualquer zona compatível. Quando você solicita uma cota de GPU, precisa pedir uma cota para os modelos de GPU que você quer criar em cada região e outra cota global para o número total de GPUs de todos os tipos em todas as zonas.

  • As VMs com uma ou mais GPUs têm um número máximo de vCPUs para cada GPU que é adicionada à instância. Por exemplo, cada GPU NVIDIA® K80 permite que você tenha até oito vCPUs e até 52 GB de memória no tipo de máquina da instância. Para ver os intervalos de memória e de vCPU disponíveis para diferentes configurações de GPU, consulte a lista de GPUs.

  • O funcionamento correto das GPUs depende de drivers de dispositivos. Nas GPUs NVIDIA em execução no Compute Engine, é necessário usar uma versão mínima do driver. Para saber mais sobre as versões do driver, consulte Versões necessárias do driver NVIDIA.

  • As VMs com um modelo de GPU anexado específico são cobertas pelo SLA do Compute Engine somente se esse modelo estiver geralmente disponível e é compatível com mais de uma zona na mesma região. O SLA do Compute Engine não abrange modelos de GPU nas zonas a seguir:

    • NVIDIA® A100:
      • asia-southeast1-c
    • NVIDIA® T4:
      • australia-southeast1-a
      • europe-west3-b
      • southamerica-east1-c
    • NVIDIA® V100:
      • asia-east1-c
      • us-east1-c
    • NVIDIA® P100:
      • australia-southeast1-c
      • europe-west4-a
    • NVIDIA® K80:
      • us-west1-b
  • O Compute Engine é compatível com a execução de um usuário simultâneo por GPU.

A seguir