GPUs no Compute Engine

O Google Compute Engine fornece unidades de processamento gráfico (GPUs, na sigla em inglês) que podem ser adicionadas a instâncias de máquina virtual. Use essas GPUs para acelerar cargas de trabalho específicas nas instâncias, como aprendizado de máquina e processamento de dados.

Para cargas de trabalho com muitos gráficos, como visualização em 3D, renderização em 3D ou aplicativos virtuais, é possível criar estações de trabalho virtuais que usam a tecnologia NVIDIA® GRID®. Para informações sobre GPUs para aplicativos com muitos gráficos, consulte GPUs para cargas de trabalho com gráficos.

Para etapas para adicionar GPUs às instâncias, leia como adicionar GPUs a instâncias.

Introdução

O Compute Engine fornece GPUs NVIDIA® Tesla® para as instâncias no modo de passagem. Com elas, as instâncias de máquina virtual têm controle direto sobre as GPUs e a memória associada.

Para cargas de trabalho computacionais, os modelos de GPU estão disponíveis nos estágios a seguir:

  • NVIDIA® Tesla® T4: nvidia-tesla-t4: disponibilidade geral

  • NVIDIA® Tesla® V100: nvidia-tesla-v100: disponibilidade geral

  • NVIDIA® Tesla® P100: nvidia-tesla-p100: disponibilidade geral

  • NVIDIA® Tesla® P4: nvidia-tesla-p4: disponibilidade geral

  • NVIDIA® Tesla® K80: nvidia-tesla-k80: disponibilidade geral

Para cargas de trabalho de gráficos, os modelos de GPU estão disponíveis nos estágios a seguir:

  • NVIDIA® Tesla® T4 Virtual Workstations: nvidia-tesla-t4-vws: disponibilidade geral
  • NVIDIA® Tesla® P100 Virtual Workstations: nvidia-tesla-p100-vws: disponibilidade geral
  • NVIDIA® Tesla® P4 Virtual Workstations: nvidia-tesla-p4-vws: disponibilidade geral

Para informações sobre GPUs para estações de trabalho virtuais, consulte GPUs para cargas de trabalho de gráficos.

É possível anexar GPUs somente a instâncias com tipos de máquina predefinidos ou personalizados. As GPUs não são compatíveis com tipos de máquina com núcleo compartilhado ou com otimização de memória.

No entanto, as instâncias com números reduzidos de GPUs estão limitadas a um número máximo de vCPUs. Em geral, um número maior de GPUs possibilita a criação de instâncias com um número maior de vCPUs e memória.

GPUs para cargas de trabalho computacionais

Modelo de GPU GPUs Memória da GPU vCPUs disponíveis Memória disponível Zonas disponíveis
NVIDIA® Tesla® T4 1 GPU GDDR6 de 16 GB 1 a 24 vCPUs 1 a 156 GB
  • asia-northeast1-a
  • asia-south1-b
  • asia-southeast1-b
  • europe-west4-b
  • europe-west4-c
  • southamerica-east1-c
  • us-central1-a
  • us-central1-b
  • us-east1-c
  • us-east1-d
  • us-west1-a
  • us-west1-b
2 GPUs GDDR6 de 32 GB 1 a 48 vCPUs 1 a 312 GB
4 GPUs GDDR6 de 64 GB 1 a 96 vCPUs 1 a 624 GB
NVIDIA® Tesla® P4 1 GPU GDDR5 de 8 GB 1 a 24 vCPUs 1 a 156 GB
  • us-west2-c
  • us-west2-b
  • us-central1-a
  • us-central1-c
  • us-east4-a
  • us-east4-b
  • us-east4-c
  • northamerica-northeast1-a
  • northamerica-northeast1-b
  • northamerica-northeast1-c
  • europe-west4-b
  • europe-west4-c
  • australia-southeast1-a
  • australia-southeast1-b
  • asia-southeast1-b
  • asia-southeast1-c
2 GPUs GDDR5 de 16 GB 1 a 48 vCPUs 1 a 312 GB
4 GPUs GDDR5 de 32 GB 1 a 96 vCPUs 1 a 624 GB
NVIDIA® Tesla® V100 1 GPU HBM2 de 16 GB 1 a 12 vCPUs 1 a 78 GB
  • us-west1-a
  • us-west1-b
  • us-central1-a
  • us-central1-b
  • us-central1-c
  • us-central1-f
  • europe-west4-a
  • europe-west4-b
  • europe-west4-c
  • asia-east1-c
2 GPUs HBM2 de 32 GB 1 a 24 vCPUs 1 a 156 GB
4 GPUs HBM2 de 64 GB 1 a 48 vCPUs 1 a 312 GB
8 GPUs HBM2 de 128 GB 1 a 96 vCPUs 1 a 624 GB
NVIDIA® Tesla® P100 1 GPU HBM2 de 16 GB 1 a 16 vCPUs 1 a 104 GB
  • us-west1-a
  • us-west1-b
  • us-central1-c
  • us-central1-f
  • us-east1-b
  • us-east1-c
  • europe-west1-b
  • europe-west1-d
  • europe-west4-a
  • asia-east1-a
  • asia-east1-c
  • australia-southeast1-c
2 GPUs HBM2 de 32 GB 1 a 32 vCPUs 1 a 208 GB
4 GPUs HBM2 de 64 GB

1 a 64 vCPUs
(us-east1-c, europe-west1-d, europe-west1-b)

1 a 96 vCPUs
(todas as outras zonas)

1 a 208 GB
(us-east1-c, europe-west1-d, europe-west1-b)

1 a 624 GB
(todas as outras zonas)

NVIDIA® Tesla® K80 1 GPU GDDR5 de 12 GB 1 - 8 vCPUs 1 a 52 GB
  • us-west1-b
  • us-central1-a
  • us-central1-c
  • us-east1-c
  • us-east1-d
  • europe-west1-b
  • europe-west1-d
  • asia-east1-a
  • asia-east1-b
2 GPUs GDDR5 de 24 GB 1 a 16 vCPUs 1 a 104 GB
4 GPUs GDDR5 de 48 GB 1 a 32 vCPUs 1 a 208 GB
8 GPUs GDDR5 de 96 GB 1 a 64 vCPUs

1 a 416 GB
(asia-east1-a and us-east1-d)

1 a 208 GB
(todas as outras zonas)

Observação:
  • Para uma descrição mais detalhada das zonas, consulte Regiões e zonas.
  • As placas NVIDIA® K80® contêm duas GPUs cada. O preço das GPUs K80 é por GPU individual, e não pela placa.

Os dispositivos de GPU recebem descontos por uso prolongado semelhantes às vCPUs. Leia a página de preços da GPU para ver o preço por hora e mensal dos dispositivos da GPU.

Para cargas de trabalho multi-GPU, as GPUs V100 são oferecidas com conexões NVLink™ de alta velocidade para comunicação entre GPUs.

Para ver informações sobre como suas GPUs se conectam umas às outras e às CPUs, execute o seguinte comando em sua instância:

nvidia-smi topo -m

Para informações sobre o NVLink e as vantagens dele, consulte o Blog do desenvolvedor da NVIDIA.

GPUs NVIDIA® GRID® para cargas de trabalho de gráficos

Se tiver cargas de trabalho com muitos gráficos, como a visualização em 3D, você poderá criar estações de trabalho virtuais que usam uma plataforma NVIDIA GRID®.

Para informações contextuais sobre GRID, consulte a Visão geral da GRID.

Quando você seleciona uma GPU para uma estação de trabalho virtual, uma licença da NVIDIA GRID é adicionada à instância. Para dar suporte às GPUs em suas estações de trabalho virtuais, você precisa de um driver da GPU instalado.

Depois de criar a estação de trabalho virtual, será possível se conectar a ela usando um protocolo de computador remoto, como o Teradici® PCoIP ou o VMWare® Horizon View.

Modelo de GPU GPUs Memória da GPU vCPUs disponíveis Memória disponível Zonas disponíveis
NVIDIA® Tesla® T4 Virtual Workstation 1 GPU GDDR6 de 16 GB 1 a 24 vCPUs 1 a 156 GB
  • asia-northeast1-a
  • asia-south1-b
  • asia-southeast1-b
  • europe-west4-b
  • europe-west4-c
  • southamerica-east1-c
  • us-central1-a
  • us-central1-b
  • us-east1-c
  • us-east1-d (em breve)
  • us-west1-a
  • us-west1-b
2 GPUs GDDR6 de 32 GB 1 a 48 vCPUs 1 a 312 GB
4 GPUs GDDR6 de 64 GB 1 a 96 vCPUs 1 a 624 GB
NVIDIA® Tesla® P4 Virtual Workstation 1 GPU GDDR5 de 8 GB 1 a 16 vCPUs 1 a 192 GB
  • us-west2-c
  • us-west2-b
  • us-central1-a
  • us-central1-c
  • us-east4-a
  • us-east4-b
  • us-east4-c
  • northamerica-northeast1-a
  • northamerica-northeast1-b
  • northamerica-northeast1-c
  • europe-west4-b
  • europe-west4-c
  • australia-southeast1-a
  • australia-southeast1-b
  • asia-southeast1-b
  • asia-southeast1-c
2 GPUs GDDR5 de 16 GB 1 a 48 vCPUs 1 a 312 GB
4 GPUs GDDR5 de 32 GB 1 a 96 vCPUs 1 a 624 GB
NVIDIA® Tesla® P100 Virtual Workstation 1 GPU HBM2 de 16 GB 1 a 16 vCPUs 1 a 104 GB
  • us-west1-b
  • us-central1-c
  • us-central1-f
  • us-east1-b
  • us-east1-c
  • europe-west1-b
  • europe-west1-d
  • asia-east1-a
  • asia-east1-c
  • europe-west4-a
  • australia-southeast1-c
2 GPUs HBM2 de 32 GB 1 a 32 vCPUs 1 a 208 GB
4 GPUs HBM2 de 64 GB

1 a 64 vCPUs
(us-east1-c, europe-west1-d, europe-west1-b)

1 a 96 vCPUs
(todas as outras zonas)

1 a 208 GB
(us-east1-c, europe-west1-d, europe-west1-b)

1 a 624 GB
(todas as outras zonas)

GPUs em instâncias preemptivas

É possível adicionar GPUs às instâncias de VM preemptivas com preços preemptivos menores para as GPUs. As GPUs anexadas a instâncias preemptivas funcionam como GPUs normais, mas persistem apenas durante a vida útil da instância. Instâncias preemptivas com GPUs seguem o mesmo processo de preempção de todas as instâncias preemptivas.

Ao adicionar uma GPU a uma instância preemptiva, você usa sua cota regular de GPUs. Se for necessário, solicite uma cota de GPUs preemptivas separada.

Durante os eventos de manutenção, as instâncias preemptivas com GPUs são interrompidas por padrão e não podem ser reiniciadas automaticamente. Para recriar suas instâncias após a interrupção forçada, use um grupo de instâncias gerenciadas. Os grupos de instâncias gerenciadas recriarão as instâncias se os recursos de vCPU, memória e GPU estiverem disponíveis.

Se você quiser receber um aviso antes que as instâncias sejam interrompidas ou se quiser configurar a instância para reiniciar automaticamente após um evento de manutenção, use uma instância não preemptiva com uma GPU. Para instâncias não preemptivas com GPUs, o Google fornece notificação com uma hora de antecedência da preempção.

O Compute Engine não cobrará pelas GPUs se as instâncias forem interrompidas no primeiro minuto de execução.

Consulte as etapas para reiniciar automaticamente uma instância não preemptiva em Como atualizar opções para uma instância.

Para saber como criar instâncias preemptivas com GPUs anexadas, leia Como criar uma instância com uma GPU.

Como reservar GPUs com desconto por uso contínuo

Para reservar recursos da GPU em uma zona específica, consulte Como reservar recursos zonais. As reservas são necessárias para a definição de preços com desconto de uso contínuo para GPUs.

Gráfico de comparação da GPU

Consulte esta seção para saber mais sobre fatores como especificações de desempenho, disponibilidade de recursos e tipos de carga de trabalho ideais mais adequadas para os diferentes tipos de GPU disponíveis no Compute Engine.

A CPU máxima e a memória disponível para qualquer tipo de GPU dependem da zona em que o recurso da GPU está sendo executado. Para mais informações sobre memória, recursos da CPU e regiões e zonas disponíveis, consulte a lista de GPUs.

O SSD local é compatível com GPUs executadas em todas as regiões e zonas disponíveis, com exceção das GPUs P4. As GPUs P4 são compatíveis com o SSD local apenas nas zonas us-central1-c e us-central1-f.

Métrica T4 P4 V100 P100 K80
Núcleos do Tensor 320 N/A 640 N/A N/A
Núcleos CUDA 2560 2560 5120 3840 2496
Pico de desempenho em TeraFLOPS (TFLOPS) Precisão dupla (FP64) 0,25 TFLOPS1 0,2 TFLOPS1 7,8 TFLOPS 4,7 TFLOPS 1,46 TFLOPS
Precisão única (FP32) 8,1 TFLOPS 5,5 TFLOPS 15,7 TFLOPS 9,3 TFLOPS 4,37 TFLOPS
Meia precisão (FP16) 65 TFLOPS2 N/A 125 TFLOPS2 18,7 TFLOPS N/A
INT8 130 TOPS3 22 TOPS3 63 TOPS3 N/A N/A
Interconexão NVLink/PCIe PCIe Gen 3x16 PCIe Gen 3x16 NVLink, 300 GB/s, PCIe Gen 3x16 PCIe Gen 3x16 PCIe Gen 3x16
Memória com largura de banda 16 GB GDDR6 a 320 GB/s 8 GB GDDR5 a 192 GB/s 16 GB HBM2 a 900 GB/s 16 GB HBM2 a 732 GB/s 12 GB GDDR5 a 240 GB/s
Suporte da estação de trabalho remota GRID S S N S N
Melhor aplicação Inferência de ML, treinamento, estações de trabalho de visualização remota, transcodificação de vídeos Estações de trabalho de visualização remota, inferência de ML e transcodificação de vídeos Treinamento de ML, inferência, HPC Treinamento de ML, inferência, HPC, estações de trabalho de visualização remota Inferência de ML, treinamento, HPC
Preço Para comparar os preços de GPU para os diferentes tipos e regiões de GPU disponíveis no Compute Engine, consulte o sistema de preços de GPU.

1Para que o código FP64 funcione corretamente, está incluído na arquitetura da GPU T4 e P4 um pequeno número de unidades de hardware FP64.

2Esse desempenho é alcançado pelo uso de núcleos do Tensor.

3TeraOperações por segundo.

Restrições

As instâncias com GPUs têm restrições específicas que fazem com que elas tenham um comportamento diferente dos outros tipos de instâncias.

  • Se você quiser usar as GPUs Tesla K80 com suas instâncias, essas instâncias não poderão usar o Intel Skylake ou plataformas de CPU posteriores.

  • Atualmente, as GPUs são compatíveis apenas com os tipos de máquina N1 de uso geral.

  • As instâncias de GPU precisam ser encerradas em eventos de manutenção do host, mas podem ser reiniciadas automaticamente. Esses eventos normalmente ocorrem uma vez por mês, mas a frequência pode ser intensificada quando necessário. Configure as cargas de trabalho para lidar corretamente com esses eventos de manutenção. Especificamente cargas de trabalho de longa duração, como machine learning e computação de alto desempenho (HPC), precisam lidar com a interrupção dos eventos de manutenção do host. Saiba como lidar com os eventos de manutenção de host em instâncias com GPUs.

  • Para proteger os usuários e sistemas do Compute Engine, novos projetos têm uma cota global de GPU, o que limita o número total de GPUs que podem ser criadas em qualquer zona compatível. Quando você solicita uma cota de GPU, precisa pedir uma cota para os modelos de GPU que você quer criar em cada região e outra cota global para o número total de GPUs de todos os tipos em todas as zonas.

  • As instâncias com uma ou mais GPUs têm um número máximo de vCPUs para cada GPU que é adicionada à instância. Por exemplo, cada GPU NVIDIA® Tesla® K80 permite que você tenha até oito vCPUs e até 52 GB de memória no tipo de máquina da sua instância. Para ver os intervalos de memória e de vCPU disponíveis para diferentes configurações de GPU, consulte a lista de GPUs.

  • Não é possível anexar GPUs a instâncias com tipos de máquinas com núcleo compartilhado.

  • O funcionamento correto das GPUs depende de drivers de dispositivos. Nas GPUs NVIDIA em execução no Google Compute Engine, as seguintes versões do driver precisam ser utilizadas:

    • Instâncias do Linux:

      • Driver NVIDIA 410.79 ou superior
    • Instâncias do Windows Server:

      • Driver NVIDIA 411.98 ou superior
  • As instâncias com um determinado modelo de GPU anexado serão cobertas pelo SLA do Google Compute Engine somente se esse modelo estiver disponível em mais de uma zona na mesma região em que a instância está localizada. O Google Compute Engine SLA não abrange modelos específicos de GPU nas zonas a seguir:

    • NVIDIA® Tesla® T4:
      • asia-northeast1-a
      • asia-south1-b
      • asia-southeast1-b
      • southamerica-east1-c
    • NVIDIA® Tesla® V100:
      • asia-east1-c
    • NVIDIA® Tesla® P100:
      • us-west1-b
      • europe-west4-a
    • NVIDIA® Tesla® K80:
      • us-west1-b
      • us-central1-c
  • As instâncias com GPUs NVIDIA® Tesla® P100 na região europe-west1-d não podem usar dispositivos SSD locais.

  • O Compute Engine é compatível com a execução de um usuário simultâneo por GPU.

A seguir

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Compute Engine