GPUs no Compute Engine

O Compute Engine fornece unidades de processamento gráfico (GPUs, na sigla em inglês) que podem ser adicionadas às instâncias de máquina virtual. Use essas GPUs para acelerar cargas de trabalho específicas nas instâncias, como aprendizado de máquina e processamento de dados.

Para cargas de trabalho com muitos gráficos, como visualização em 3D, renderização em 3D ou aplicativos virtuais, é possível criar estações de trabalho virtuais que usam a tecnologia NVIDIA® GRID®. Para informações sobre GPUs para aplicativos com muitos gráficos, consulte GPUs para cargas de trabalho com gráficos.

Este documento fornece uma visão geral das GPUs no Compute Engine. Para mais informações sobre como trabalhar com GPUs, consulte os seguintes recursos:

Introdução

O Compute Engine fornece GPUs NVIDIA® Tesla® para as instâncias no modo de passagem. Com elas, as instâncias de máquina virtual têm controle direto sobre as GPUs e a memória associada.

Para cargas de trabalho computacionais, os modelos de GPU estão disponíveis nos estágios a seguir:

  • NVIDIA® Tesla® T4: nvidia-tesla-t4: disponibilidade geral

  • NVIDIA® Tesla® V100: nvidia-tesla-v100: disponibilidade geral

  • NVIDIA® Tesla® P100: nvidia-tesla-p100: disponibilidade geral

  • NVIDIA® Tesla® P4: nvidia-tesla-p4: disponibilidade geral

  • NVIDIA® Tesla® K80: nvidia-tesla-k80: disponibilidade geral

Para cargas de trabalho de gráficos, os modelos de GPU estão disponíveis nos estágios a seguir:

  • NVIDIA® Tesla® T4 Virtual Workstations: nvidia-tesla-t4-vws: disponibilidade geral
  • NVIDIA® Tesla® P100 Virtual Workstations: nvidia-tesla-p100-vws: disponibilidade geral
  • NVIDIA® Tesla® P4 Virtual Workstations: nvidia-tesla-p4-vws: disponibilidade geral

Para informações sobre GPUs para estações de trabalho virtuais, consulte GPUs para cargas de trabalho de gráficos.

É possível anexar GPUs somente a instâncias com tipos de máquinas predefinidos ou personalizados. As GPUs não são compatíveis com tipos de máquinas com núcleo compartilhado ou com otimização de memória.

No entanto, as instâncias com números reduzidos de GPUs estão limitadas a um número máximo de vCPUs. Em geral, um número maior de GPUs possibilita a criação de instâncias com um número maior de vCPUs e memória.

GPUs para cargas de trabalho computacionais

Modelo de GPU GPUs Memória da GPU vCPUs disponíveis Memória disponível Zonas disponíveis
NVIDIA® Tesla® T4 1 GPU GDDR6 de 16 GB 1 a 24 vCPUs 1 a 156 GB
  • asia-northeast1-a
  • asia-south1-b
  • asia-southeast1-b
  • europe-west4-b
  • europe-west4-c
  • southamerica-east1-c
  • us-central1-a
  • us-central1-b
  • us-east1-c
  • us-east1-d
  • us-west1-a
  • us-west1-b
2 GPUs GDDR6 de 32 GB 1 a 48 vCPUs 1 a 312 GB
4 GPUs GDDR6 de 64 GB 1 a 96 vCPUs 1 a 624 GB
NVIDIA® Tesla® P4 1 GPU GDDR5 de 8 GB 1 a 24 vCPUs 1 a 156 GB
  • us-west2-c
  • us-west2-b
  • us-central1-a
  • us-central1-c
  • us-east4-a
  • us-east4-b
  • us-east4-c
  • northamerica-northeast1-a
  • northamerica-northeast1-b
  • northamerica-northeast1-c
  • europe-west4-b
  • europe-west4-c
  • australia-southeast1-a
  • australia-southeast1-b
  • asia-southeast1-b
  • asia-southeast1-c
2 GPUs GDDR5 de 16 GB 1 a 48 vCPUs 1 a 312 GB
4 GPUs GDDR5 de 32 GB 1 a 96 vCPUs 1 a 624 GB
NVIDIA® Tesla® V100 1 GPU HBM2 de 16 GB 1 a 12 vCPUs 1 a 78 GB
  • us-west1-a
  • us-west1-b
  • us-central1-a
  • us-central1-b
  • us-central1-c
  • us-central1-f
  • europe-west4-a
  • europe-west4-b
  • europe-west4-c
  • asia-east1-c
2 GPUs HBM2 de 32 GB 1 a 24 vCPUs 1 a 156 GB
4 GPUs HBM2 de 64 GB 1 a 48 vCPUs 1 a 312 GB
8 GPUs HBM2 de 128 GB 1 a 96 vCPUs 1 a 624 GB
NVIDIA® Tesla® P100 1 GPU HBM2 de 16 GB 1 a 16 vCPUs 1 a 104 GB
  • us-west1-a
  • us-west1-b
  • us-central1-c
  • us-central1-f
  • us-east1-b
  • us-east1-c
  • europe-west1-b
  • europe-west1-d
  • europe-west4-a
  • asia-east1-a
  • asia-east1-c
  • australia-southeast1-c
2 GPUs HBM2 de 32 GB 1 a 32 vCPUs 1 a 208 GB
4 GPUs HBM2 de 64 GB

1 a 64 vCPUs
(us-east1-c, europe-west1-d, europe-west1-b)

1 a 96 vCPUs
(todas as outras zonas)

1 a 208 GB
(us-east1-c, europe-west1-d, europe-west1-b)

1 a 624 GB
(todas as outras zonas)

NVIDIA® Tesla® K80 1 GPU GDDR5 de 12 GB 1 - 8 vCPUs 1 a 52 GB
  • us-west1-b
  • us-central1-a
  • us-central1-c
  • us-east1-c
  • us-east1-d
  • europe-west1-b
  • europe-west1-d
  • asia-east1-a
  • asia-east1-b
2 GPUs GDDR5 de 24 GB 1 a 16 vCPUs 1 a 104 GB
4 GPUs GDDR5 de 48 GB 1 a 32 vCPUs 1 a 208 GB
8 GPUs GDDR5 de 96 GB 1 - 64 vCPUs

1 a 416 GB
(asia-east1-a e us-east1-d)

1 a 208 GB
(todas as outras zonas)

Observação:
  • Para uma descrição mais detalhada das zonas, consulte Regiões e zonas.
  • As placas NVIDIA® K80® contêm duas GPUs cada. O preço das GPUs K80 é por GPU individual, e não por placa.

Os dispositivos de GPU recebem descontos por uso prolongado semelhantes às vCPUs. Leia a página de preços da GPU para ver o preço por hora e mensal dos dispositivos da GPU.

Para cargas de trabalho multi-GPU, as GPUs V100 são oferecidas com conexões NVLink™ de alta velocidade para comunicação entre GPUs.

Para ver informações sobre como suas GPUs se conectam umas às outras e às CPUs, execute o seguinte comando em sua instância:

nvidia-smi topo -m

Para informações sobre o NVLink e as vantagens dele, consulte o Blog do desenvolvedor da NVIDIA.

GPUs NVIDIA® GRID® para cargas de trabalho de gráficos

Se você tiver cargas de trabalho com muitos gráficos, como a visualização em 3D, será possível criar estações de trabalho virtuais que usam uma plataforma NVIDIA GRID®.

Para informações contextuais sobre GRID, consulte a Visão geral da GRID.

Quando você seleciona uma GPU para uma estação de trabalho virtual, uma licença da NVIDIA GRID é adicionada à instância. Para dar suporte às GPUs em suas estações de trabalho virtuais, você precisa de um driver GRID instalado.

Depois de criar a estação de trabalho virtual, será possível se conectar a ela usando um protocolo de computador remoto, como o Teradici® PCoIP ou o VMWare® Horizon View.

Modelo de GPU GPUs Memória da GPU vCPUs disponíveis Memória disponível Zonas disponíveis
NVIDIA® Tesla® T4 Virtual Workstation 1 GPU GDDR6 de 16 GB 1 a 24 vCPUs 1 a 156 GB
  • asia-northeast1-a
  • asia-south1-b
  • asia-southeast1-b
  • europe-west4-b
  • europe-west4-c
  • southamerica-east1-c
  • us-central1-a
  • us-central1-b
  • us-east1-c
  • us-east1-d (em breve)
  • us-west1-a
  • us-west1-b
2 GPUs GDDR6 de 32 GB 1 a 48 vCPUs 1 a 312 GB
4 GPUs GDDR6 de 64 GB 1 a 96 vCPUs 1 a 624 GB
NVIDIA® Tesla® P4 Virtual Workstation 1 GPU GDDR5 de 8 GB 1 a 16 vCPUs 1 a 192 GB
  • us-west2-c
  • us-west2-b
  • us-central1-a
  • us-central1-c
  • us-east4-a
  • us-east4-b
  • us-east4-c
  • northamerica-northeast1-a
  • northamerica-northeast1-b
  • northamerica-northeast1-c
  • europe-west4-b
  • europe-west4-c
  • australia-southeast1-a
  • australia-southeast1-b
  • asia-southeast1-b
  • asia-southeast1-c
2 GPUs GDDR5 de 16 GB 1 a 48 vCPUs 1 a 312 GB
4 GPUs GDDR5 de 32 GB 1 a 96 vCPUs 1 a 624 GB
NVIDIA® Tesla® P100 Virtual Workstation 1 GPU HBM2 de 16 GB 1 a 16 vCPUs 1 a 104 GB
  • us-west1-b
  • us-central1-c
  • us-central1-f
  • us-east1-b
  • us-east1-c
  • europe-west1-b
  • europe-west1-d
  • asia-east1-a
  • asia-east1-c
  • europe-west4-a
  • australia-southeast1-c
2 GPUs HBM2 de 32 GB 1 a 32 vCPUs 1 a 208 GB
4 GPUs HBM2 de 64 GB

1 a 64 vCPUs
(us-east1-c, europe-west1-d, europe-west1-b)

1 a 96 vCPUs
(todas as outras zonas)

1 a 208 GB
(us-east1-c, europe-west1-d, europe-west1-b)

1 a 624 GB
(todas as outras zonas)

Larguras de banda de rede e GPUs

Larguras de banda de rede mais altas podem melhorar o desempenho de cargas de trabalho distribuídas. No Compute Engine, a largura de banda da rede depende do tipo de máquina e do número de CPUs. Para instâncias de VMs que têm GPUs anexadas, a configuração da sua contagem de GPU, da CPU e da memória também afeta a largura de banda da rede. Além disso, para atingir as taxas de 50-100 Gbps, que agora estão disponíveis na versão Beta, suas instâncias de VM precisam usar a interface de rede virtual do Compute Engine (gVNIC).

As larguras de banda máximas disponíveis no Compute Engine são as seguintes:

  • Para instâncias de VMs com GPUs P100, P4 e K80 conectadas, uma largura de banda máxima de 32 Gbps está disponível. Isso é semelhante à taxa máxima disponível para instâncias de VM que não têm GPUs anexadas. Para mais informações sobre larguras de banda de rede, consulte taxa de dados de saída máxima.
  • Para instâncias de VMs com GPUs V100 e T4 conectadas, com base na contagem de GPUs, agora você pode uma largura de banda máxima de 50 Gb ou 100 Gbps. Para criar instâncias de VM com GPUs V100 e T4, que usam até 100 Gbps, consulte Como usar larguras de banda de rede de até 100 Gbps.

Configurações de largura de banda

As tabelas a seguir resumem a largura de banda da rede disponível para diferentes configurações de VM dos tipos de GPU T4 e V100.

A largura de banda da rede é aplicada automaticamente com base na configuração da instância da VM. Por exemplo, se você tiver uma instância de VM que tenha um único núcleo GPU V100, 12 vCPUs e 78 GB de memória, a largura de banda máxima será de 24 Gbps.

Configuração da instância da VM do V100 Largura de banda da rede
Contagem de GPUs
vCPUs Memória
1 12 78 GB 24 Gbps
2 24 156 GB 32 Gbps
4 48 312 GB 50 Gbpsbeta
8 96 624 GB 100 Gbpsbeta
Configuração da instância da VM T4 Largura de banda da rede
Contagem de GPUs
vCPUs Memória
1 24 156 GB 32 Gbps
2 48 312 GB 50 Gbpsbeta
4 96 624 GB 100 Gbpsbeta

GPUs em instâncias preemptivas

É possível adicionar GPUs às instâncias de VM preemptivas com preços preemptivos menores para as GPUs. As GPUs anexadas a instâncias preemptivas funcionam como GPUs normais, mas persistem apenas durante a vida útil da instância. Instâncias preemptivas com GPUs seguem o mesmo processo de preempção de todas as instâncias preemptivas.

Ao adicionar uma GPU a uma instância preemptiva, você usa sua cota regular de GPUs. Se for necessário, solicite uma cota de GPUs preemptivas separada.

Durante os eventos de manutenção, as instâncias preemptivas com GPUs são interrompidas por padrão e não podem ser reiniciadas automaticamente. Para recriar suas instâncias após a interrupção forçada, use um grupo de instâncias gerenciadas. Os grupos de instâncias gerenciadas vão recriar as instâncias se os recursos de vCPU, memória e GPU estiverem disponíveis.

Se você quiser receber um aviso antes que as instâncias sejam interrompidas ou se quiser configurar a instância para reiniciar automaticamente após um evento de manutenção, use uma instância não preemptiva com uma GPU. Para instâncias não preemptivas com GPUs, o Google fornece notificação com uma hora de antecedência da preempção.

O Compute Engine não cobrará pelas GPUs se as instâncias forem interrompidas no primeiro minuto de execução.

Consulte as etapas para reiniciar automaticamente uma instância não preemptiva em Como atualizar opções para uma instância.

Para saber como criar instâncias preemptivas com GPUs anexadas, leia Como criar uma instância com uma GPU.

Como reservar GPUs com desconto por uso contínuo

Para reservar recursos da GPU em uma zona específica, consulte Como reservar recursos zonais. As reservas são necessárias para a definição de preços com desconto de uso contínuo para GPUs.

Gráfico de comparação da GPU

Consulte esta seção para saber mais sobre fatores como especificações de desempenho, disponibilidade de recursos e tipos de carga de trabalho ideais mais adequadas para os diferentes tipos de GPU disponíveis no Compute Engine.

A CPU máxima e a memória disponível para qualquer tipo de GPU dependem da zona em que o recurso da GPU está sendo executado. Para mais informações sobre memória, recursos da CPU e regiões e zonas disponíveis, consulte a lista de GPUs.

O SSD local é compatível com GPUs executadas em todas as regiões e zonas disponíveis, com exceção das GPUs P4. As GPUs P4 são compatíveis com o SSD local apenas nas zonas us-central1-c e us-central1-f.

Métrica T4 P4 V100 P100 K80
Núcleos do Tensor 320 N/A 640 N/A N/A
Núcleos CUDA 2560 2560 5120 3840 2496
Pico de desempenho em TeraFLOPS (TFLOPS) Precisão dupla (FP64) 0,25 TFLOPS1 0,2 TFLOPS1 7,8 TFLOPS 4,7 TFLOPS 1,46 TFLOPS
Precisão única (FP32) 8,1 TFLOPS 5,5 TFLOPS 15,7 TFLOPS 9,3 TFLOPS 4,37 TFLOPS
Meia precisão (FP16) 65 TFLOPS2 N/A 125 TFLOPS2 18,7 TFLOPS N/A
INT8 130 TOPS3 22 TOPS3 63 TOPS3 N/A N/A
Interconexão NVLink/PCIe PCIe Gen 3x16 PCIe Gen 3x16 NVLink, 300 GB/s, PCIe Gen 3x16 PCIe Gen 3x16 PCIe Gen 3x16
Memória com largura de banda 16 GB GDDR6 a 320 GB/s 8 GB GDDR5 a 192 GB/s 16 GB HBM2 a 900 GB/s 16 GB HBM2 a 732 GB/s 12 GB GDDR5 a 240 GB/s
Suporte da estação de trabalho remota GRID S S N S N
Melhor aplicação Inferência de ML, treinamento, estações de trabalho de visualização remota, transcodificação de vídeos Estações de trabalho de visualização remota, inferência de ML e transcodificação de vídeos Treinamento de ML, inferência, HPC Treinamento de ML, inferência, HPC, estações de trabalho de visualização remota Inferência de ML, treinamento, HPC
Preços Para comparar os preços de GPU para os diferentes tipos e regiões de GPU disponíveis no Compute Engine, consulte o sistema de preços de GPU.

1Para que o código FP64 funcione corretamente, está incluído na arquitetura da GPU T4 e P4 um pequeno número de unidades de hardware FP64.

2Esse desempenho é alcançado pelo uso de núcleos do Tensor.

3TeraOperações por segundo.

Restrições

As instâncias com GPUs têm restrições específicas que fazem com que elas tenham um comportamento diferente dos outros tipos de instâncias.

  • Se você quiser usar as GPUs Tesla K80 com suas instâncias, essas instâncias não poderão usar o Intel Skylake ou plataformas de CPU posteriores.

  • Atualmente, as GPUs são compatíveis apenas com os tipos de máquinas N1 de uso geral.

  • As instâncias de GPU precisam ser encerradas em eventos de manutenção do host, mas podem ser reiniciadas automaticamente. Esses eventos normalmente ocorrem uma vez por mês, mas a frequência pode ser intensificada quando necessário. Configure as cargas de trabalho para lidar corretamente com esses eventos de manutenção. Especificamente cargas de trabalho de longa duração, como machine learning e computação de alto desempenho (HPC), precisam lidar com a interrupção dos eventos de manutenção do host. Saiba como lidar com os eventos de manutenção de host em instâncias com GPUs.

  • Para proteger os usuários e sistemas do Compute Engine, novos projetos têm uma cota global de GPU, o que limita o número total de GPUs que podem ser criadas em qualquer zona compatível. Quando você solicita uma cota de GPU, precisa pedir uma cota para os modelos de GPU que você quer criar em cada região e outra cota global para o número total de GPUs de todos os tipos em todas as zonas.

  • As instâncias com uma ou mais GPUs têm um número máximo de vCPUs para cada GPU que é adicionada à instância. Por exemplo, cada GPU NVIDIA® Tesla® K80 permite que você tenha até oito vCPUs e até 52 GB de memória no tipo de máquina da sua instância. Para ver os intervalos de memória e de vCPU disponíveis para diferentes configurações de GPU, consulte a lista de GPUs.

  • Não é possível anexar GPUs a instâncias com tipos de máquinas com núcleo compartilhado.

  • O funcionamento correto das GPUs depende de drivers de dispositivos. Nas GPUs NVIDIA em execução no Compute Engine, as seguintes versões do driver precisam ser utilizadas:

    • Instâncias do Linux:

      • Driver NVIDIA 410.79 ou superior
    • Instâncias do Windows Server:

      • Driver NVIDIA 411.98 ou superior
  • As instâncias com um determinado modelo de GPU anexado serão cobertas pelo SLA do Compute Engine somente se esse modelo estiver disponível em mais de uma zona na mesma região em que a instância está localizada. O SLA do Compute Engine não abrange modelos específicos de GPU nas zonas a seguir:

    • NVIDIA® Tesla® T4:
      • asia-northeast1-a
      • asia-south1-b
      • asia-southeast1-b
      • southamerica-east1-c
    • NVIDIA® Tesla® V100:
      • asia-east1-c
    • NVIDIA® Tesla® P100:
      • us-west1-b
      • europe-west4-a
    • NVIDIA® Tesla® K80:
      • us-west1-b
      • us-central1-c
  • As instâncias com GPUs NVIDIA® Tesla® P100 na região europe-west1-d não podem usar dispositivos SSD locais.

  • O Compute Engine é compatível com a execução de um usuário simultâneo por GPU.

A seguir