Este guia mostra como otimizar o aprovisionamento da unidade de processamento tensorial (TPU) usando a reserva futura no modo de calendário. A reserva futura no modo de calendário é um consultor e um recomendador de calendário integrados que podem ajudar a localizar capacidade de UTPs e planear com antecedência. Pode pedir capacidade para uma hora de início e uma duração especificadas, entre 1 e 90 dias, e o recomendador fornece datas sugeridas.
Este guia destina-se a engenheiros de aprendizagem automática (ML), administradores e operadores de plataformas, bem como a especialistas em dados e IA interessados em usar capacidades de orquestração de contentores do Kubernetes para executar cargas de trabalho em lote. Para mais informações sobre as funções comuns e exemplos de tarefas que referimos no Google Cloud conteúdo, consulte Funções e tarefas comuns de utilizadores do GKE.
Para mais informações, consulte o artigo Acerca da reserva futura no modo de calendário.
Exemplos de utilização
A reserva futura no modo de calendário funciona melhor para cargas de trabalho com pedidos agendados, de curto prazo e de elevada procura, como preparação, ou modelos de inferência em lote que requerem elevada disponibilidade na hora de início pedida.
Se a sua carga de trabalho exigir recursos aprovisionados dinamicamente conforme necessário, durante um máximo de 7 dias sem reservas a longo prazo nem gestão de quotas complexa, considere usar o início flexível. Para mais informações, consulte o artigo Acerca do aprovisionamento de GPUs e TPUs com início flexível.
Antes de começar
Antes de começar, certifique-se de que realizou as seguintes tarefas:
- Ative a API Google Kubernetes Engine. Ative a API Google Kubernetes Engine
- Se quiser usar a CLI gcloud para esta tarefa,
instale-a e, em seguida,
inicialize-a. Se instalou anteriormente a CLI gcloud, execute
gcloud components update
para obter a versão mais recente.
- Certifique-se de que tem um dos seguintes elementos:
- Um cluster padrão existente com a versão 1.28.3-gke.1098000 ou posterior.
- Um cluster do Autopilot existente com a versão 1.30.3-gke.1451000 ou posterior.
Peça uma reserva futura no modo de calendário para as UTPs
O processo para pedir TPUs com reserva futura no modo de calendário envolve os seguintes passos:
- Certifique-se de que tem quota suficiente para quaisquer recursos que não façam parte de uma reserva quando as VMs são criadas, como discos ou endereços IP. Os pedidos de reserva futuros no modo de calendário não requerem quota do Compute Engine.
- Conclua os passos para criar um pedido no modo de calendário. Estes passos incluem o seguinte:
- Ver a disponibilidade futura de TPUs.
- Crie e envie um pedido de reserva futura no modo de calendário para as UTPs.
- Aguarde que Google Cloud aprove o seu pedido.
- Crie um node pool de TPU que use a sua reserva.
Crie um node pool
Esta secção aplica-se apenas a clusters padrão.
Pode usar a sua reserva quando cria pools de nós de fatias de TPUs com um ou vários anfitriões. Por exemplo, pode criar um conjunto de nós de fatia de TPU de anfitrião único com a CLI do Google Cloud.
gcloud container node-pools create NODE_POOL_NAME \
--location=LOCATION \
--cluster=CLUSTER_NAME \
--node-locations=NODE_ZONES \
--machine-type=MACHINE_TYPE \
--reservation-affinity=specific \ This is required
--reservation=RESERVATION
Substitua o seguinte:
NODE_POOL_NAME
: o nome do novo node pool.LOCATION
: o nome da zona com base na versão da TPU que quer usar. Para identificar uma localização disponível, consulte o artigo Disponibilidade de TPUs no GKE.CLUSTER_NAME
: o nome do cluster.NODE_ZONES
: a lista separada por vírgulas de uma ou mais zonas onde o GKE cria o conjunto de nós.MACHINE_TYPE
: o tipo de máquina a usar para os nós. Para mais informações sobre os tipos de máquinas compatíveis com a TPU, use a tabela em Escolha a versão da TPU.RESERVATION
: o nome da reserva do calendário a consumir.
Para ver uma lista completa de todas as flags que pode especificar, consulte a referência gcloud container clusters create
.
Depois de criar um conjunto de nós com a reserva de calendário, pode implementar a sua carga de trabalho como qualquer outro conjunto de nós de TPU. Por exemplo, pode criar uma tarefa que especifique o conjunto de nós da TPU que consome as TPUs reservadas.
O que se segue?
Experimente exemplos de implementação do GKE para modelos de IA generativa que usam os recursos de TPU que reservou:
- Apresente um MDG com o TPU Trillium no GKE com o vLLM
- Implemente um LLM com TPUs no GKE com o KubeRay
- Publique um MDG com TPUs no GKE com o JetStream e o PyTorch
- Implemente o Gemma com TPUs no GKE com o JetStream
- Publique o Stable Diffusion XL (SDXL) com TPUs no GKE com o MaxDiffusion
- Apresente modelos de código aberto com TPUs no GKE com o Optimum TPU
Explore exemplos experimentais para tirar partido do GKE e acelerar as suas iniciativas de IA/ML no GKE AI Labs.