Esta página foi traduzida pela API Cloud Translation.

Criar grupos de VMs de GPU em massa

Linux Windows

É possível criar um grupo de máquinas virtuais (VMs) que tenham unidades de processamento gráfico (GPUs) anexadas usando o processo de criação em massa. Com o processo de criação em massa, você tem uma validação antecipada em que a solicitação falha rapidamente se não for viável. Além disso, se você usar a sinalização de região, a API da instância em massa escolherá automaticamente a zona que tem capacidade para atender à solicitação. Para mais informações sobre a criação em massa de VMs, consulte Sobre a criação em massa de VMs.

Antes de começar

Para analisar outras etapas de pré-requisito, como selecionar uma imagem do SO e verificar a cota da GPU, consulte o documento de visão geral.
Configure a autenticação, caso ainda não tenha feito isso. A autenticação é o processo de verificação da sua identidade para acesso a serviços e APIs do Google Cloud . Para executar códigos ou amostras de um ambiente de desenvolvimento local, autentique-se no Compute Engine selecionando uma das seguintes opções:

Select the tab for how you plan to use the samples on this page:
gcloud
1. Install the Google Cloud CLI, then initialize it by running the following command:
  gcloud init
  Note: If you installed the gcloud CLI previously, make sure you have the latest version by running gcloud components update.
2. Set a default region and zone.

Funções exigidas

Para receber as permissões necessárias para criar VMS, peça ao administrador para conceder a você o papel do IAM de Administrador da instância da computação (v1) (roles/compute.instanceAdmin.v1) no projeto. Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Esse papel predefinido contém as permissões necessárias para criar VMs. Para conferir as permissões exatas necessárias, expanda a seção Permissões necessárias:

Permissões necessárias

As permissões a seguir são necessárias para criar VMs:

compute.instances.create no projeto
Usar uma imagem personalizada a fim de criar a VM: compute.images.useReadOnly na imagem
Usar um snapshot para criar a VM: compute.snapshots.useReadOnly no snapshot
Usar um modelo de instância para criar a VM: compute.instanceTemplates.useReadOnly no modelo de instância
Atribuir uma rede legada à VM: compute.networks.use no projeto
Especificar um endereço IP estático para a VM: compute.addresses.use no projeto
Atribuir um endereço IP externo à VM ao usar uma rede legada: compute.networks.useExternalIp no projeto
Especificar uma sub-rede para a VM: compute.subnetworks.use no projeto ou na sub-rede escolhida
Atribuir um endereço IP externo à VM ao usar uma rede VPC: compute.subnetworks.useExternalIp no projeto ou na sub-rede escolhida
Definir os metadados da instância de VM para a VM: compute.instances.setMetadata no projeto
Definir tags para a VM: compute.instances.setTags na VM
Definir rótulos para a VM: compute.instances.setLabels na VM
Definir uma conta de serviço a ser usada pela VM: compute.instances.setServiceAccount na VM
Criar um disco para a VM: compute.disks.create no projeto
Anexar um disco atual no modo somente leitura ou de leitura e gravação: compute.disks.use no disco
Anexar um disco atual no modo somente leitura: compute.disks.useReadOnly no disco

Essas permissões também podem ser concedidas com funções personalizadas ou outros papéis predefinidos.

Visão geral

Ao criar VMs com GPUs anexadas usando a API de instância em massa, é possível optar por criar VMs em uma região (como us-central1) ou em uma zona específica, como (us-central1-a).

Se você especificar uma região, o Compute Engine colocará as VMs em qualquer zona dentro da região compatível com GPUs.

Tipos de máquina

A família de máquinas com otimização para aceleradores contém vários tipos de máquinas.

Cada tipo de máquina com otimização de acelerador tem um modelo específico de GPUs NVIDIA anexado.

Para os tipos de máquina com otimização de aceleradores A3, há GPUs NVIDIA H100 de 80 GB ou NVIDIA H200 de 141 GB conectadas. Elas estão disponíveis nas seguintes opções:
- A3 Ultra: esses tipos de máquina têm GPUs H200 de 141 GB conectadas
- A3 Mega: esses tipos de máquinas têm GPUs H100 de 80 GB conectadas
- A3 High: esses tipos de máquinas têm GPUs H100 de 80 GB conectadas
- A3 Edge: esses tipos de máquinas têm GPUs H100 de 80 GB conectadas
Para tipos de máquina otimizados para aceleradores A2, as GPUs NVIDIA A100 estão anexadas. Elas estão disponíveis nas seguintes opções:
- A2 Ultra: esses tipos de máquina têm GPUs A100 de 80 GB anexadas
- A2 Standard: esses tipos de máquina têm GPUs A100 de 40 GB anexadas.
Para os tipos de máquina otimizados para acelerador G2, as GPUs NVIDIA L4 estão anexadas.

Criar grupos de VMs otimizadas para aceleradores

Para criar um grupo de VMs otimizadas para aceleradores, use a CLI do Google Cloud ou REST.

Dica:ao provisionar tipos de máquina a3-ultragpu-8g, use o Hypercompute Cluster para solicitar capacidade e criar VMs ou clusters. Para começar, consulte Visão geral da criação de VMs e clusters na documentação do Hypercomputer de IA.

gcloud

Para criar um grupo de VMs, use o comando gcloud compute instances bulk create. Para mais informações sobre os parâmetros e como usar esse comando, consulte Criar VMs em massa.

As seguintes sinalizações opcionais são mostradas no comando de exemplo:

O --provisioning-model=SPOT é uma flag opcional que configura suas VMs como VMs do Spot. Se a carga de trabalho for tolerante a falhas e resistente a possíveis preempções da VM, use as VMs spot para reduzir o custo das VMs e das GPUs anexadas. Para mais informações, consulte GPUs em VMs spot. Para VMs do Spot, as flags de opções de reinicialização automática e manutenção do host estão desativadas.
A sinalização --accelerator para especificar uma estação de trabalho virtual. A NVIDIA RTX Virtual Workstations (vWS) é compatível apenas com VMs do G2.

Exemplo

Neste exemplo, criamos duas VMs que anexaram GPUs usando as seguintes especificações:

nomes das VMs: my-test-vm-1, my-test-vm-2
Cada VM tem duas GPUs anexadas, especificadas pelo tipo de máquina otimizador de otimização apropriado.

gcloud compute instances bulk create \
    --name-pattern="my-test-vm-#" \
    --region=REGION \
    --count=2 \
    --machine-type=MACHINE_TYPE \
    --boot-disk-size=200 \
    --image=IMAGE \
    --image-project=IMAGE_PROJECT \
    --on-host-maintenance=TERMINATE \
    [--provisioning-model=SPOT] \
    [--accelerator=type=nvidia-l4-vws,count=VWS_ACCELERATOR_COUNT]

Substitua:

REGION: a região das VMs. Essa região precisa ser compatível com o modelo de GPU selecionado.
MACHINE_TYPE: o tipo de máquina selecionado. Escolha uma das seguintes opções:
- Um tipo de máquina A3.
- Um tipo de máquina A2
- Um tipo de máquina G2 Os tipos de máquina G2 também oferecem suporte à memória personalizada. A memória precisa ser um múltiplo de 1.024 MB e estar dentro do intervalo de memória compatível. Por exemplo, para criar uma VM com 4 vCPUs e 19 GB de memória, especifique --machine-type=g2-custom-4-19456.
IMAGE: uma imagem de sistema operacional compatível com GPUs.

Se você quiser usar a imagem mais recente em uma família de imagens, substitua a sinalização --image pela sinalização --image-family e defina o valor dela como uma imagem família compatível com GPUs. Por exemplo: --image-family=rocky-linux-8-optimized-gcp.

Também é possível especificar uma imagem personalizada ou Deep Learning VM Images
IMAGE_PROJECT: o projeto de imagem do Compute Engine a que a imagem do SO pertence. Se estiver usando uma imagem personalizada ou Deep Learning VM Images, especifique o projeto a que essas imagens pertencem.
VWS_ACCELERATOR_COUNT: o número necessário de GPUs virtuais.

Quando bem-sucedida, a saída será assim:

NAME          ZONE
my-test-vm-1  us-central1-b
my-test-vm-2  us-central1-b
Bulk create request finished with status message: [VM instances created: 2, failed: 0.]

REST

Use o método instances.bulkInsert com os parâmetros necessários para criar várias VMs em uma zona. Para mais informações sobre os parâmetros e como usar esse comando, consulte Criar VMs em massa.

Exemplo

Neste exemplo, criamos duas VMs que anexaram GPUs usando as seguintes especificações:

nomes das VMs: my-test-vm-1, my-test-vm-2

Cada VM tem duas GPUs anexadas, especificadas pelo tipo de máquina otimizador de otimização apropriado.

POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/regions/REGION/instances/bulkInsert
{
"namePattern":"my-test-vm-#",
"count":"2",
"instanceProperties": {
  "machineType":MACHINE_TYPE,
  "disks":[
    {
      "type":"PERSISTENT",
      "initializeParams":{
        "diskSizeGb":"200",
        "sourceImage":SOURCE_IMAGE_URI
      },
      "boot":true
    }
  ],
  "name": "default",
  "networkInterfaces":
  [
    {
      "network": "projects/PROJECT_ID/global/networks/default"
    }
  ],
  "scheduling":{
    "onHostMaintenance":"TERMINATE",
    ["automaticRestart":true]
  }
}
}

Substitua:

PROJECT_ID: ID do projeto
REGION: a região das VMs. Essa região precisa ser compatível com o modelo de GPU selecionado.
MACHINE_TYPE: o tipo de máquina selecionado. Escolha uma das seguintes opções:
- Um tipo de máquina A2
- Um tipo de máquina G2 Os tipos de máquina G2 também oferecem suporte à memória personalizada. A memória precisa ser um múltiplo de 1.024 MB e estar dentro do intervalo de memória compatível. Por exemplo, para criar uma VM com 4 vCPUs e 19 GB de memória, especifique --machine-type=g2-custom-4-19456.
SOURCE_IMAGE_URI: o URI da imagem ou família de imagens específica que você quer usar.

Por exemplo:
- Imagem específica: "sourceImage": "projects/rocky-linux-cloud/global/images/rocky-linux-8-optimized-gcp-v20220719"
- Família de imagens: "sourceImage": "projects/rocky-linux-cloud/global/images/family/rocky-linux-8-optimized-gcp".
Quando você especifica uma família de imagens, o Compute Engine cria uma VM a partir da imagem do SO mais recente e não obsoleta nessa família. Para mais informações sobre quando usar famílias de imagens, consulte Práticas recomendadas para famílias de imagens.

Outras configurações:

Se a carga de trabalho for tolerante a falhas e resistente a possíveis preempções da VM, use as VMs spot para reduzir o custo das VMs e das GPUs anexadas. Para mais informações, consulte GPUs em VMs spot. Para usar uma VM spot, adicione a opção "provisioningModel": "SPOT à solicitação. Para VMs do Spot, as flags de opções de reinicialização automática e manutenção do host estão desativadas.
```
"scheduling":
  {
    "provisioningModel": "SPOT"
  }
```
Para VMs G2, a NVIDIA RTX Virtual Workstations (vWS) é compatível. Para especificar uma estação de trabalho virtual, adicione a opção guestAccelerators à sua solicitação. Substitua VWS_ACCELERATOR_COUNT pelo número de GPUs virtuais necessárias.
```
"guestAccelerators":
 [
   {
     "acceleratorCount": VWS_ACCELERATOR_COUNT,
     "acceleratorType": "projects/PROJECT_ID/zones/ZONEacceleratorTypes/nvidia-l4-vws"
   }
 ]
```

Limitações

VMs A3 Ultra

Você não recebe descontos por uso prolongado e descontos por compromisso de uso flexível no caso de VMs que usam um tipo de máquina A3 Ultra.
Você só pode usar um tipo de máquina A3 Ultra em determinadas regiões e zonas.
Não é possível usar discos permanentes (regionais ou zonais) em uma VM que usa o tipo de máquina A3 ultra.
O tipo de máquina A3 Ultra só está disponível na plataforma de CPU Emerald Rapids.
Se a VM usa um tipo de máquina A3 Ultra, não é possível mudar o tipo. Se você precisar alterar o tipo de máquina, crie uma nova VM.
Não é possível mudar o tipo de máquina de uma VM para um tipo de máquina A3 Ultra. Se você precisar de uma VM que use um tipo de máquina A3 Ultra, crie uma nova VM.
Os tipos de máquina A3 Ultra não oferecem suporte a locatário único.
Não é possível executar sistemas operacionais Windows em um tipo de máquina A3 Ultra.
Só é possível reservar capacidade usando o Hypercompute Cluster.

VMs A3 Mega

Você não recebe descontos por uso prolongado e descontos por compromisso de uso flexível no caso de VMs que usam um tipo de máquina A3 Mega.
Só é possível usar um tipo de máquina A3 Mega em determinadas regiões e zonas.
Não é possível usar discos permanentes regionais em uma VM que usa o tipo de máquina A3 Mega.
O tipo de máquina A3 Mega só está disponível na plataforma de CPU Sapphire Rapids.
Se a VM usa um tipo de máquina A3 Mega, não é possível mudar o tipo. Se você precisar alterar o tipo de máquina, crie uma nova VM.
Não é possível mudar o tipo de máquina de uma VM para um tipo de máquina A3 Mega. Se você precisar de uma VM que use um tipo de máquina A3 Mega, crie uma nova VM.
Os tipos de máquina A3 Mega não oferecem suporte a locatário único.
Não é possível executar sistemas operacionais Windows em um tipo de máquina A3 Mega.

VMs A3 de alto desempenho

Você não recebe descontos por uso prolongado e descontos por compromisso de uso flexível no caso de VMs que usam um tipo de máquina A3 High.
Só é possível usar um tipo de máquina A3 High em determinadas regiões e zonas.
Não é possível usar discos permanentes regionais em uma VM que usa o tipo de máquina A3 High.
O tipo de máquina A3 High só está disponível na plataforma de CPU Sapphire Rapids.
Se a VM usa um tipo de máquina A3 High, não é possível mudar o tipo. Se você precisar alterar o tipo de máquina, crie uma nova VM.
Não é possível mudar o tipo de máquina de uma VM para um tipo de máquina A3 High. Se você precisar de uma VM que use um tipo de máquina A3 High, crie uma nova VM.
Os tipos de máquina A3 High não oferecem suporte a locatário único.
Não é possível executar sistemas operacionais Windows em um tipo de máquina A3 High.
Para os tipos de máquina a3-highgpu-1g, a3-highgpu-2g e a3-highgpu-4g, as seguintes limitações se aplicam:
- Para esses tipos de máquina, é necessário usar VMs spot ou um recurso que use o Dynamic Workload Scheduler (DWS), como solicitações de redimensionamento em um MIG. Para instruções detalhadas sobre essas opções, consulte o seguinte:
  - Para criar VMs do Spot, consulte Criar uma VM otimizada para aceleradores e defina o modelo de provisionamento como SPOT.
  - Para criar uma solicitação de redimensionamento em um MIG que usa o Dynamic Workload Scheduler, consulte Criar um MIG com VMs de GPU.
- Não é possível usar o Hyperdisk Balanced com estes tipos de máquina.
- Não é possível criar reservas.
Se você tentar criar uma VM usando o provisionamento padrão ou tentar criar uma reserva para esses tipos de máquina, vai receber uma mensagem de erro.

VMs A3 de borda

Você não recebe descontos por uso prolongado e descontos por compromisso de uso flexível no caso de VMs que usam um tipo de máquina A3 Edge.
Só é possível usar um tipo de máquina A3 Edge em determinadas regiões e zonas.
Não é possível usar discos permanentes regionais em uma VM que usa o tipo de máquina A3 Edge.
O tipo de máquina A3 Edge só está disponível na plataforma de CPU Sapphire Rapids.
Se a VM usa um tipo de máquina A3 Edge, não é possível mudar o tipo. Se você precisar alterar o tipo de máquina, crie uma nova VM.
Não é possível mudar o tipo de máquina de uma VM para um tipo de máquina A3 Edge. Se você precisar de uma VM que use um tipo de máquina A3 Edge, crie uma nova VM.
Os tipos de máquina A3 do Edge não oferecem suporte a locatários individuais.
Não é possível executar sistemas operacionais Windows em um tipo de máquina A3 Edge.

VMs A2 padrão

Você não recebe descontos por uso prolongado e descontos por compromisso de uso flexível no caso de VMs que usam tipos de máquina A2 padrão.
Só é possível usar tipos de máquina padrão A2 em determinadas regiões e zonas.
Os tipos de máquina A2 padrão só estão disponíveis na plataforma Cascade Lake.
Se a VM usa um tipo de máquina padrão A2, só é possível trocar esse tipo A2 padrão por outro tipo A2 padrão. Não é possível mudar para outro tipo de máquina. Para mais informações, consulte Modificar VMs otimizadas para aceleradores.
Você não pode usar o sistema operacional Windows com tipos de máquina A2 <codea2-megagpu-16g< code="" dir="ltr" translate="no">. Ao usar sistemas operacionais Windows, escolha um tipo de máquina diferente do padrão A2.</codea2-megagpu-16g<>
Não é possível fazer um formato rápido dos SSDs locais anexados em VMs do Windows que usam tipos de máquina padrão A2. Para formatar esses SSDs locais, é preciso usar o utilitário diskpart e especificar format fs=ntfs label=tmpfs.
Os tipos de máquina A2 padrão não oferecem suporte a locatário único.

VMs A2 ultra

Você não recebe descontos por uso prolongado e descontos por compromisso de uso flexível no caso de VMs que usam tipos de máquina A2 ultra.
Você só pode usar tipos de máquinas A2 ultra em determinadas regiões e zonas.
Os tipos de máquina A2 ultra só estão disponíveis na plataforma Cascade Lake.
Se a VM usa um tipo de máquina ultra A2, não é possível mudar o tipo de máquina. Se você precisar usar outro tipo de máquina ultra A2 ou qualquer outro tipo de máquina, crie uma nova VM.
Não é possível trocar nenhum tipo de máquina por um tipo de máquina A2 ultra. Se você precisar de uma VM que use uma série de máquinas A2 ultra, crie uma nova VM.
Não é possível fazer um formato rápido dos SSDs locais anexados em VMs do Windows que usam tipos de máquina A2 ultra. Para formatar esses SSDs locais, é preciso usar o utilitário diskpart e especificar format fs=ntfs label=tmpfs.

VMs G2

Você não recebe descontos por uso prolongado e descontos por compromisso de uso flexível no caso de VMs que usam tipos de máquina G2.
Só é possível usar os tipos de máquinas G2 em determinadas regiões e zonas.
Os tipos de máquina G2 só estão disponíveis na plataforma Cascade Lake.
Os discos permanentes padrão (pd-standard) não são compatíveis com VMs que usam tipos de máquina padrão G2. Para saber quais são os tipos de disco compatíveis, consulte Tipos de disco compatíveis com a G2.
Não é possível criar GPUs de várias instâncias nos tipos de máquina G2.
Se precisar mudar o tipo de máquina de uma VM G2, consulte Modificar VMs otimizadas para aceleradores.
Não é possível usar o Deep Learning VM Images como discos de inicialização para suas VMs que usam os tipos de máquina G2.
O driver padrão atual para o Container-Optimized OS não oferece suporte a GPUs L4 em execução nos tipos de máquina G2. O Container-Optimized OS também é compatível apenas com um conjunto selecionado de drivers. Se você quiser usar o Container-Optimized OS em tipos de máquina G2, leia as seguintes observações:
- Use uma versão do Container-Optimized OS que seja compatível com a versão mínima recomendada do driver NVIDIA ou 525.60.13. Para mais informações, consulte as Notas de lançamento do Container-Optimized OS.
- Ao instalar o driver, especifique a versão mais recente disponível que funciona para as GPUs L4. Por exemplo, sudo cos-extensions install gpu -- -version=525.60.13.
Use a CLI do Google Cloud ou REST para criar VMs G2 nos seguintes cenários:
- Você quer especificar valores de memória personalizados.
- Você quer personalizar o número de núcleos de CPU visíveis.

Criar grupos de VMs de uso geral N1

Para criar um grupo de VMs com GPUs anexadas, use a CLI do Google Cloud ou REST.

Nesta seção, descrevemos como criar várias VMs usando os seguintes tipos de GPU:

GPUs NVIDIA:

NVIDIA T4: nvidia-tesla-t4
NVIDIA P4: nvidia-tesla-p4
NVIDIA P100: nvidia-tesla-p100
NVIDIA V100: nvidia-tesla-v100

NVIDIA RTX Virtual Workstation (vWS) (anteriormente conhecida como NVIDIA GRID):

NVIDIA T4 Virtual Workstation: nvidia-tesla-t4-vws
NVIDIA P4 Virtual Workstation: nvidia-tesla-p4-vws
NVIDIA P100 Virtual Workstation: nvidia-tesla-p100-vws

Para essas estações de trabalho virtuais, uma licença da NVIDIA RTX Virtual Workstation (vWS) é adicionada automaticamente à VM.

gcloud

Para criar um grupo de VMs, use o comando gcloud compute instances bulk create. Para mais informações sobre os parâmetros e como usar esse comando, consulte Criar VMs em massa.

Exemplo

O exemplo a seguir cria duas VMs com GPUs anexadas usando as seguintes especificações:

nomes das VMs: my-test-vm-1, my-test-vm-2
VMs criadas em qualquer zona em us-central1 compatível com GPUs
Cada VM tem duas GPUs T4 anexadas, especificadas usando o tipo e as sinalizações de contagem de aceleradores
Cada VM tem drivers de GPU instalados
Cada VM usa a Deep Learning VM Image pytorch-latest-gpu-v20211028-debian-10.

gcloud compute instances bulk create \
    --name-pattern="my-test-vm-#" \
    --count=2 \
    --region=us-central1 \
    --machine-type=n1-standard-2 \
    --accelerator type=nvidia-tesla-t4,count=2 \
    --boot-disk-size=200 \
    --metadata="install-nvidia-driver=True" \
    --scopes="https://www.googleapis.com/auth/cloud-platform" \
    --image=pytorch-latest-gpu-v20211028-debian-10 \
    --image-project=deeplearning-platform-release \
    --on-host-maintenance=TERMINATE --restart-on-failure

Quando bem-sucedida, a saída será assim:

NAME          ZONE
my-test-vm-1  us-central1-b
my-test-vm-2  us-central1-b
Bulk create request finished with status message: [VM instances created: 2, failed: 0.]

REST

Exemplo

O exemplo a seguir cria duas VMs com GPUs anexadas usando as seguintes especificações:

nomes das VMs: my-test-vm-1, my-test-vm-2
VMs criadas em qualquer zona em us-central1 compatível com GPUs
Cada VM tem duas GPUs T4 anexadas, especificadas usando o tipo e as sinalizações de contagem de aceleradores
Cada VM tem drivers de GPU instalados
Cada VM usa a Deep Learning VM Image pytorch-latest-gpu-v20211028-debian-10.

Substitua PROJECT_ID pela ID do seu projeto.

POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/region/us-central1/instances/bulkInsert

{
    "namePattern":"my-test-vm-#",
    "count":"2",
    "instanceProperties": {
      "machineType":"n1-standard-2",
      "disks":[
        {
          "type":"PERSISTENT",
          "initializeParams":{
            "diskSizeGb":"200",
            "sourceImage":"projects/deeplearning-platform-release/global/images/pytorch-latest-gpu-v20211028-debian-10"
          },
          "boot":true
        }
      ],
      "name": "default",
      "networkInterfaces":
      [
        {
          "network": "projects/PROJECT_ID/global/networks/default"
        }
      ],
      "guestAccelerators":
      [
        {
          "acceleratorCount": 2,
          "acceleratorType": "nvidia-tesla-t4"
        }
      ],
      "scheduling":{
        "onHostMaintenance":"TERMINATE",
        "automaticRestart":true
      },
      "metadata":{
        "items":[
          {
            "key":"install-nvidia-driver",
            "value":"True"
          }
        ]
      }
  }
 }

A seguir

Saiba como monitorar o desempenho da GPU.
Saiba como usar uma largura de banda de rede maior.
Saiba como processar eventos de manutenção do host da GPU.

Saiba como conferir o uso real e o uso previsto das suas VMs e GPUs.