Esta página foi traduzida pela API Cloud Translation.

Peça TPUs com reserva futura no modo de calendário

Autopilot Padrão

Este guia mostra como otimizar o aprovisionamento da unidade de processamento tensorial (TPU) usando a reserva futura no modo de calendário. A reserva futura no modo de calendário é um consultor e um recomendador de calendário integrados que podem ajudar a localizar capacidade de UTPs e planear com antecedência. Pode pedir capacidade para uma hora de início e uma duração especificadas, entre 1 e 90 dias, e o recomendador fornece datas sugeridas.

Este guia destina-se a engenheiros de aprendizagem automática (ML), administradores e operadores de plataformas, bem como a especialistas em dados e IA interessados em usar capacidades de orquestração de contentores do Kubernetes para executar cargas de trabalho em lote. Para mais informações sobre as funções comuns e exemplos de tarefas que referimos no Google Cloud conteúdo, consulte Funções e tarefas comuns de utilizadores do GKE.

Para mais informações, consulte o artigo Acerca da reserva futura no modo de calendário.

Exemplos de utilização

A reserva futura no modo de calendário funciona melhor para cargas de trabalho com pedidos agendados, de curto prazo e de elevada procura, como preparação, ou modelos de inferência em lote que requerem elevada disponibilidade na hora de início pedida.

Se a sua carga de trabalho exigir recursos aprovisionados dinamicamente conforme necessário, durante um máximo de 7 dias, sem reservas a longo prazo nem gestão de quotas complexa, considere usar a opção de consumo de início flexível. Para mais informações, consulte o artigo Acerca do aprovisionamento de GPUs e TPUs com início flexível.

Antes de começar

Antes de começar, certifique-se de que realizou as seguintes tarefas:

Ative a API Google Kubernetes Engine.

Ative a API Google Kubernetes Engine

Se quiser usar a CLI gcloud para esta tarefa, instale-a e, em seguida, inicialize-a. Se instalou anteriormente a CLI gcloud, execute o comando gcloud components update para obter a versão mais recente. As versões anteriores da CLI gcloud podem não suportar a execução dos comandos neste documento.
Nota: para instalações existentes da CLI gcloud, certifique-se de que define a compute/region propriedade. Se usar principalmente clusters zonais, defina o compute/zone. Ao definir uma localização predefinida, pode evitar erros na CLI gcloud, como os seguintes: One of [--zone, --region] must be supplied: Please specify location. Pode ter de especificar a localização em determinados comandos se a localização do seu cluster for diferente da predefinição que definiu.

Certifique-se de que tem um dos seguintes elementos:
- Um cluster padrão existente com a versão 1.28.3-gke.1098000 ou posterior.
- Um cluster do Autopilot existente com a versão 1.30.3-gke.1451000 ou posterior.

Peça uma reserva futura no modo de calendário para as UTPs

O processo para pedir TPUs com reserva futura no modo de calendário envolve os seguintes passos:

Certifique-se de que tem quota suficiente para quaisquer recursos que não façam parte de uma reserva quando as VMs são criadas, como discos ou endereços IP. Os pedidos de reserva futuros no modo de calendário não requerem quota do Compute Engine.
Conclua os passos para criar um pedido no modo de calendário. Estes passos incluem o seguinte:
1. Veja a disponibilidade futura das TPUs.
2. Crie e envie um pedido de reserva futura no modo de calendário para as UTPs.
3. Aguarde que Google Cloud aprove o seu pedido.
Crie um node pool de TPU que use a sua reserva.

Crie um node pool

Esta secção aplica-se apenas a clusters padrão.

Pode usar a sua reserva quando cria pools de nós de fatias de TPUs com um ou vários anfitriões. Por exemplo, pode criar um conjunto de nós de fatia de TPU de anfitrião único com a CLI do Google Cloud.

gcloud container node-pools create NODE_POOL_NAME \
    --location=LOCATION \
    --cluster=CLUSTER_NAME \
    --node-locations=NODE_ZONES \
    --machine-type=MACHINE_TYPE \
    --reservation-affinity=specific \ This is required
    --reservation=RESERVATION

Substitua o seguinte:

NODE_POOL_NAME: o nome do novo conjunto de nós.
LOCATION: o nome da zona com base na versão da TPU que quer usar. Para identificar uma localização disponível, consulte o artigo Disponibilidade de TPUs no GKE.
CLUSTER_NAME: o nome do cluster.
NODE_ZONES: a lista separada por vírgulas de uma ou mais zonas onde o GKE cria o conjunto de nós.
MACHINE_TYPE: o tipo de máquina a usar para os nós. Para mais informações sobre os tipos de máquinas compatíveis com a TPU, use a tabela em Escolha a versão da TPU.
RESERVATION: o nome da reserva do calendário a consumir.

Para ver uma lista completa de todas as flags que pode especificar, consulte a referência gcloud container clusters create.

Depois de criar um conjunto de nós com a reserva de calendário, pode implementar a sua carga de trabalho como qualquer outro conjunto de nós de TPU. Por exemplo, pode criar uma tarefa que especifique o conjunto de nós da TPU que consome as TPUs reservadas.

O que se segue?

Experimente exemplos de implementação do GKE para modelos de IA generativa que usam os recursos de TPU que reservou:
Explore exemplos experimentais para tirar partido do GKE e acelerar as suas iniciativas de IA/ML no GKE AI Labs.