Este documento descreve as funcionalidades e as limitações das instâncias de máquinas virtuais (VM) com GPU que são executadas no Compute Engine.
Para acelerar cargas de trabalho específicas no Compute Engine, pode implementar uma instância otimizada para aceleradores com GPUs anexadas ou anexar GPUs a uma instância de uso geral N1. O Compute Engine fornece GPUs para as suas instâncias no modo de passagem. O modo de passagem permite que as suas instâncias tenham controlo direto sobre as GPUs e a respetiva memória.
Também pode usar alguns tipos de máquinas com GPU no hipercomputador de IA. O AI Hypercomputer é um sistema de supercomputação otimizado para suportar as suas cargas de trabalho de inteligência artificial (IA) e aprendizagem automática (AA). Esta opção é recomendada para criar uma infraestrutura densamente alocada e otimizada para o desempenho que tenha integrações para o Google Kubernetes Engine (GKE) e os programadores do Slurm.
Tipos de máquinas suportados
As famílias de máquinas de uso geral N1 e otimizadas pelo acelerador suportam GPUs. Para instâncias que usam tipos de máquinas otimizados para aceleradores, o Compute Engine anexa automaticamente as GPUs quando cria a instância. Para instâncias que usam tipos de máquinas N1, anexa GPUs a uma instância durante ou após a criação da instância. As GPUs não são compatíveis com outros tipos de máquinas.
Tipos de máquinas otimizados pelo acelerador
Cada tipo de máquina otimizado para aceleradores tem um modelo específico de GPUs NVIDIA anexado. Se tiver cargas de trabalho com muitos gráficos, como a visualização 3D, também pode criar estações de trabalho virtuais que usam estações de trabalho virtuais (vWS) NVIDIA RTX. A estação de trabalho virtual NVIDIA RTX está disponível para alguns modelos de GPU.
Tipo de máquina | Modelo da GPU | Modelo NVIDIA RTX Virtual Workstation (vWS) |
---|---|---|
A4X | Superchips NVIDIA GB200 Grace Blackwell (nvidia-gb200 ).
Cada Superchip contém quatro GPUs NVIDIA B200 Blackwell. |
|
A4 | GPUs NVIDIA B200 Blackwell (nvidia-b200 ) |
|
A3 Ultra | GPUs NVIDIA H200 SXM (nvidia-h200-141gb ) |
|
A3 Mega | GPUs NVIDIA H100 SXM (nvidia-h100-mega-80gb ) |
|
A3 High, A3 Edge | GPUs NVIDIA H100 SXM (nvidia-h100-80gb ) |
|
A2 Ultra | GPUs NVIDIA A100 de 80 GB (nvidia-a100-80gb ) |
|
A2 Standard | GPUs NVIDIA A100 de 40 GB (nvidia-a100-40gb ) |
|
G4 (pré-visualização) | NVIDIA RTX PRO 6000 Blackwell Server Edition (nvidia-rtx-pro-6000 ) |
|
G2 | GPUs NVIDIA L4 (nvidia-l4 ) |
GPUs NVIDIA L4 Virtual Workstation (nvidia-l4-vws ) |
Para mais informações, consulte o artigo Família de máquinas otimizada para aceleradores.
Tipos de máquinas de utilização geral N1
Para a maioria dos tipos de máquinas N1, exceto o N1 com núcleo partilhado (f1-micro
e g1-small
),
pode anexar os seguintes modelos de GPU:
GPUs NVIDIA:
- NVIDIA T4:
nvidia-tesla-t4
- NVIDIA P4:
nvidia-tesla-p4
- NVIDIA P100:
nvidia-tesla-p100
- NVIDIA V100:
nvidia-tesla-v100
NVIDIA RTX Virtual Workstation (vWS) (anteriormente conhecida como NVIDIA GRID):
- Estação de trabalho virtual NVIDIA T4:
nvidia-tesla-t4-vws
- Estação de trabalho virtual NVIDIA P4:
nvidia-tesla-p4-vws
NVIDIA P100 Virtual Workstation:
nvidia-tesla-p100-vws
Para estas estações de trabalho virtuais, é adicionada automaticamente uma licença da estação de trabalho virtual (vWS) NVIDIA RTX à sua instância.
Para a família de uso geral N1, pode usar tipos de máquinas predefinidos ou personalizados.
GPUs em VMs do Spot
Pode adicionar GPUs às suas VMs de spot a preços de spot mais baixos para as GPUs. As GPUs anexadas a VMs de instância temporária funcionam como GPUs normais, mas persistem apenas durante a vida útil da VM. As VMs do Spot com GPUs seguem o mesmo processo de preemptividade que todas as VMs do Spot.
Considere pedir uma quota Preemptible GPU
dedicada para usar para GPUs em VMs de
instância temporária. Para mais informações, consulte o artigo
Quotas para VMs Spot.
Durante os eventos de manutenção, as VMs de capacidade instantânea com GPUs são anuladas por predefinição e não podem ser reiniciadas automaticamente. Se quiser recriar as suas VMs depois de terem sido interrompidas, use um grupo de instâncias gerido. Os grupos de instâncias geridas recriam as instâncias de VM se os recursos de vCPU, memória e GPU estiverem disponíveis.
Se quiser um aviso antes da remoção das suas VMs ou quiser configurar as VMs para serem reiniciadas automaticamente após um evento de manutenção, use VMs padrão com uma GPU. Para VMs padrão com GPUs, o Compute Engine envia um aviso prévio de uma hora antes da preempção.
O Compute Engine não cobra pelas GPUs se as respetivas VMs forem interrompidas no primeiro minuto após o início da execução.
Para saber como criar VMs Spot com GPUs anexadas, leia os artigos Criar uma VM com GPUs anexadas e Criar VMs Spot. Por exemplo, consulte o artigo Crie uma instância A3 Ultra ou A4 com VMs de opção.
GPUs em instâncias com tempos de execução predefinidos
Normalmente, as instâncias que usam o modelo de aprovisionamento padrão não podem usar quotas de alocação preemptíveis. As quotas preemptivas destinam-se a cargas de trabalho temporárias e estão normalmente mais disponíveis. Se o seu projeto não tiver uma quota preemptível e nunca a tiver pedido, todas as instâncias no seu projeto consomem quotas de alocação padrão.
Se pedir uma quota de alocação preemptível, as instâncias que usam o modelo de aprovisionamento padrão têm de cumprir todos os seguintes critérios para consumir a quota de alocação preemptível:
- As instâncias têm GPUs anexadas.
- As instâncias estão configuradas para serem eliminadas automaticamente após um tempo de execução predefinido
através do campo
maxRunDuration
outerminationTime
. Para mais informações, consulte o seguinte: - A instância não tem autorização para consumir reservas. Para mais informações, consulte o artigo Impeça que as instâncias de computação consumam reservas.
Quando consome a atribuição preemptível para cargas de trabalho de GPU com limite de tempo, pode beneficiar de um tempo de execução ininterrupto e da elevada obtenção da quota de atribuição preemptível. Para mais informações, consulte o artigo Quotas preemptíveis.
GPUs e Confidential VM
Pode usar uma GPU com uma instância de VM confidencial que usa o Intel TDX na série de máquinas A3. Para mais informações, consulte as configurações suportadas da VM confidencial. Para saber como criar uma instância de VM confidencial com GPUs, consulte o artigo Crie uma instância de VM confidencial com GPU.
GPUs e armazenamento em bloco
Quando cria uma instância com um tipo de máquina de GPU, pode adicionar armazenamento em blocos persistente ou temporário à instância. Para armazenar dados não transitórios, use armazenamento de blocos persistente, como o Hyperdisk ou o Persistent Disk , porque estes discos são independentes do ciclo de vida da instância. Os dados no armazenamento persistente podem ser retidos mesmo depois de eliminar a instância.
Para armazenamento temporário ou caches, use armazenamento em blocos temporário adicionando discos SSD locais quando criar a instância.
Armazenamento de blocos persistente com volumes de discos persistentes e Hyperdisk
Pode anexar um disco persistente e selecionar volumes do Hyperdisk a instâncias com GPUs.
Para cargas de trabalho de aprendizagem automática (ML) e de publicação, use volumes de ML do Hyperdisk, que oferecem um elevado débito e tempos de carregamento de dados mais curtos. O Hyperdisk ML é uma opção mais rentável para cargas de trabalho de ML porque oferece tempos de inatividade da GPU mais baixos.
Os volumes Hyperdisk ML oferecem suporte de multi-anexação só de leitura, pelo que pode anexar o mesmo disco a várias instâncias, dando a cada instância acesso aos mesmos dados.
Para mais informações acerca dos tipos de discos suportados para séries de máquinas que suportam GPUs, consulte as páginas das séries de máquinas N1 e otimizadas para aceleradores.
Discos SSD locais
Os discos SSD locais oferecem armazenamento rápido e temporário para colocação em cache, tratamento de dados ou outros dados transitórios. Os discos SSD locais oferecem armazenamento rápido porque estão fisicamente ligados ao servidor que aloja a sua instância. Os discos SSD locais oferecem armazenamento temporário porque a instância perde dados se for reiniciada.
Evite armazenar dados com requisitos de persistência fortes em discos SSD locais. Em alternativa, para armazenar dados não temporários, use o armazenamento persistente.
Se parar manualmente uma instância com uma GPU, pode preservar os dados do SSD local, com determinadas restrições. Consulte a documentação sobre o SSD local para ver mais detalhes.
Para ver o apoio técnico regional para SSD local com tipos de GPU, consulte o artigo Disponibilidade de SSD local por regiões e zonas de GPU.
GPUs e manutenção do anfitrião
O Compute Engine para sempre as instâncias com GPUs anexadas quando realiza eventos de manutenção no servidor anfitrião. Se a instância tiver discos SSD locais anexados, perde os dados do SSD local depois de parar.
Para obter informações sobre como processar eventos de manutenção, consulte o artigo Processamento de eventos de manutenção do anfitrião da GPU.
Preços das GPUs
Para instâncias com GPUs anexadas, incorre em custos da seguinte forma:
Se pedir ao Compute Engine para aprovisionar GPUs através do modelo de aprovisionamento de spot, flex-start ou associado a reservas, recebe um preço com desconto, consoante o tipo de GPU.
A maioria das instâncias com GPUs anexadas recebe descontos por utilização sustentada (SUDs), semelhantes aos vCPUs. Quando seleciona uma GPU para uma estação de trabalho virtual, o Compute Engine adiciona automaticamente uma licença da NVIDIA RTX Virtual Workstation à sua instância.
Para ver os preços por hora e mensais das GPUs, consulte a página de preços das GPUs.
Reserve GPUs com descontos de fidelidade
Para reservar recursos de GPU numa zona específica, consulte o artigo Escolha um tipo de reserva.
Para receber descontos por utilização garantida para GPUs numa zona específica, tem de comprar compromissos baseados em recursos para as GPUs e também anexar reservas que especifiquem GPUs correspondentes aos seus compromissos. Para mais informações, consulte o artigo Anexe reservas a compromissos baseados em recursos.
Restrições e limitações da GPU
Para instâncias com GPUs anexadas, aplicam-se as seguintes restrições e limitações:
Apenas os tipos de máquinas otimizados para aceleradores (A4X, A4, A3, A2 e G2) e de uso geral N1 suportam GPUs.
Para proteger os sistemas e os utilizadores do Compute Engine, os novos projetos têm uma quota de GPU global que limita o número total de GPUs que pode criar em qualquer zona suportada. Quando pede uma quota de GPU, tem de pedir uma quota para os modelos de GPU que quer criar em cada região e uma quota global adicional para o número total de GPUs de todos os tipos em todas as zonas.
As instâncias com uma ou mais GPUs têm um número máximo de vCPUs para cada GPU que adicionar à instância. Para ver os intervalos de vCPU e memória disponíveis para diferentes configurações de GPU, consulte a lista de GPUs.
As GPUs requerem controladores de dispositivo para funcionarem corretamente. As GPUs NVIDIA que são executadas no Compute Engine têm de usar uma versão mínima do controlador. Para mais informações sobre as versões dos controladores, consulte Versões dos controladores NVIDIA necessárias.
O ANS do Compute Engine abrange instâncias com um modelo de GPU anexado apenas se esse modelo de GPU anexado estiver geralmente disponível.
Para regiões com várias zonas, o SLA do Compute Engine abrange a instância apenas se o modelo de GPU estiver disponível em mais do que uma zona nessa região. Para ver os modelos de GPU por região, consulte o artigo Regiões e zonas de GPU.
O Compute Engine suporta um utilizador simultâneo por GPU.
Consulte também as limitações de cada tipo de máquina com GPUs anexadas.
O que se segue?
- Saiba como criar instâncias com GPUs anexadas.
- Saiba como adicionar ou remover GPUs.
- Saiba como criar uma instância de VM confidencial com uma GPU anexada.