Sobre as opções de consumo de aceleradores para cargas de trabalho de IA/ML no GKE


Nesta página, descrevemos as técnicas disponíveis que podem ser usadas para obter aceleradores de computação, como GPUs ou TPUs, com base nos requisitos das suas cargas de trabalho de IA/ML. Essas técnicas são chamadas de opções de consumo de acelerador no GKE. Entender as diferentes opções de consumo ajuda você a otimizar a utilização de recursos para evitar a subutilização, aumentar a probabilidade de obtenção de recursos e equilibrar custo e desempenho.

Esta página é destinada a administradores e operadores de plataforma que trabalham com engenheiros de machine learning (ML) para obter os recursos necessários e implantar cargas de trabalho de IA/ML.

Para saber mais sobre papéis comuns e tarefas de exemplo que mencionamos no conteúdo do Google Cloud , consulte Tarefas e funções de usuário comuns do GKE.

Entender as opções de consumo

É possível selecionar uma das seguintes opções para consumir aceleradores no GKE:

  • Sob demanda:você consome TPUs ou GPUs no GKE sem organizar a capacidade com antecedência. Antes de solicitar recursos, você precisa ter cota sob demanda suficiente para o tipo e a quantidade específicos de aceleradores. A opção sob demanda é a mais flexível, mas não há garantia de que recursos suficientes estarão disponíveis para atender à sua solicitação.
  • Reservas:você reserva recursos por um período definido. Uma reserva pode ser qualquer uma das seguintes opções:
    • Reservas futuras:você reserva recursos por períodos normalmente mais longos para um horário específico no futuro. Você tem acesso exclusivo aos recursos reservados durante esse período. As reservas adiantadas exigem interação com um gerente técnico de contas (TAM). Para mais informações, consulte as orientações sobre TPU e GPU.
    • Reservas adiantadas de até 90 dias (no modo de agenda): você solicita capacidade para um período especificado, e um consultor de agenda sugere datas disponíveis. As reservas adiantadas de até 90 dias (no modo de calendário) oferecem mais flexibilidade para durações mais curtas e pesquisa de capacidade de autoatendimento. Para mais informações, consulte Solicitações de reserva adiantada no modo de calendário.
    • Reservas imediatas:é possível solicitar que uma reserva imediata seja provisionada assim que a capacidade estiver disponível, semelhante à opção sob demanda. Enquanto a reserva estiver ativa, você pagará pelos recursos, mesmo que não os use.
  • Flex-start:você protege recursos densamente alocados para cargas de trabalho de curta duração sem uma reserva. Você solicita um número específico de GPUs ou TPUs, e o Compute Engine as provisiona quando a capacidade fica disponível. As GPUs ou TPUs são executadas sem interrupções por até sete dias. Para mais informações, consulte provisionamento flex-start.
  • Spot:você provisiona VMs spot, o que permite receber descontos significativos, mas elas podem ser interrompidas a qualquer momento, com um aviso de 30 segundos. Para mais informações, consulte VMs spot.

Entenda a cota de aceleradores no GKE

As cotas e os limites do sistema restringem o uso de recursos do Google Cloud para manter a disponibilidade de recursos para todos os usuários do Google Cloud . As cotas têm valores padrão, mas geralmente é possível solicitar ajustes. Os limites do sistema são valores fixos que não podem ser alterados. Por padrão, os projetos geralmente não vêm com uma cota significativa de aceleradores. É necessário solicitar e receber aprovação para cota de tipos e regiões específicos de aceleradores.

Considere as seguintes características ao gerenciar as cotas necessárias para suas cargas de trabalho:

  • É necessário solicitar a cota necessária para cada opção de consumo. Para identificar a cota necessária para cada opção de consumo, consulte os parâmetros "Cota" correspondentes listados na tabela Escolher uma opção de consumo. Se não houver cota suficiente, as tentativas de criar clusters, pools de nós ou implantar cargas de trabalho que exigem aceleradores vão falhar com um erro Quota exceeded.

  • É necessário solicitar cota ao usar classes de computação personalizadas no Autopilot. Os nós provisionados para atender aos requisitos da classe de computação ainda consomem a cota do projeto para os aceleradores especificados.

  • Google Cloud As contas de teste sem custo financeiro têm limitações para solicitar aumentos de cota de recursos de alto valor, como GPUs e TPUs. Para ter acesso à cota do acelerador, faça upgrade para uma conta paga.

Para verificar e solicitar cota, acesse a página "Cotas" no Google Cloud console. É possível filtrar as cotas de acelerador e solicitar aumentos.

Escolher uma opção de consumo

Use as considerações a seguir para escolher a melhor opção de consumo para sua carga de trabalho de IA/ML:

  • Tipo de carga de trabalho:considere o tipo de carga de trabalho que você quer implementar. Os requisitos do GKE variam se você estiver executando uma carga de trabalho de treinamento ou de inferência:
    • Treinamento:exige recursos de alto desempenho com memória significativa. As cargas de trabalho de treinamento geralmente têm um ciclo de vida bem definido. Essas cargas de trabalho geralmente são mais fáceis de planejar porque são menos propensas a picos repentinos no consumo de recursos.
    • Inferência:geralmente exige aceleradores otimizados para escalonabilidade e menor custo. As cargas de trabalho de inferência podem exigir muita memória do acelerador durante picos repentinos no consumo de recursos.
  • Ciclo de vida com base na fase de implementação:considere sua meta de negócios se você estiver executando uma prova de conceito (POC), avaliação da plataforma, desenvolvimento ou teste de aplicativos, produção ou otimização.
  • Tempo de provisionamento:determine se a carga de trabalho exige execução imediata ou se pode ser executada no futuro. Se a execução futura for possível, determine a flexibilidade do horário de início.
  • Equilíbrio entre custo e desempenho:avalie os requisitos de desempenho da carga de trabalho e as restrições de orçamento para selecionar o acelerador mais econômico. Pense nas vantagens e desvantagens entre o custo dos aceleradores e as características de desempenho deles. Não se esqueça de que novos aceleradores podem trazer taxas de custo-performance aprimoradas.

Use a tabela a seguir para escolher uma opção de consumo:

Tipo de carga de trabalho Tempo de provisionamento Duração Opção de consumo recomendada
  • Cargas de trabalho de longa duração e grande escala, como pré-treinamento de modelos de fundação ou inferência multi-host.
  • Cargas de trabalho de produção.
Imediato (com reserva aprovada) Longo prazo (por reserva)

Se você quiser consumir qualquer GPU (exceto A4X, A4 ou A3 Ultra) ou TPU, use Reservas sob demanda:

  • Custo:você recebe uma cobrança pelo período total da reserva.
  • Cota:a cota é aumentada automaticamente antes da entrega da capacidade.

Se você quiser consumir aceleradores G2, A2, A3 High ou A3 Mega, use Reservas futuras:

  • Custo:você recebe uma cobrança pelo período total da reserva.
  • Cota:a cota é aumentada automaticamente antes da entrega da capacidade.
  • Cargas de trabalho distribuídas de curta duração, como ajuste fino de modelos, simulações ou inferência em lote, em que é necessário um horário de início preciso.
  • Cargas de trabalho para avaliação, comparativo de mercado ou teste de otimização da plataforma.
Imediato (com reserva aprovada) Até 90 dias

Reservas futuras de até 90 dias (no modo de agenda):

  • Custo:com desconto (até 53%). Você recebe uma cobrança pelo período da reserva.
  • Cota:nenhuma cota é cobrada.
  • Aceleradores compatíveis:A4, A3 Ultra, TPU v5e, TPU v5p, TPU Trillium.
  • Cargas de trabalho em lote, como treinamento de modelos pequenos, ajuste fino ou inferência escalonável em que o horário de início é flexível.
  • Cargas de trabalho para POCs ou testes de integração.
Sob demanda (sujeito à disponibilidade) Até 7 dias por alocação

Modo de provisionamento de início flexível:

  • Custo:com desconto (até 53%). Você paga conforme a utilização.
  • Cota:a cota preemptiva de GPU ou a cota preemptiva de TPU é cobrada.
  • Aceleradores compatíveis:todas as famílias de GPU, exceto A4X. Todas as versões de TPU.
  • Cargas de trabalho de baixa prioridade e tolerantes a falhas, como CI/CD, análise de dados ou computação de alto desempenho (HPC).
  • Cargas de trabalho altamente interrompíveis.
Sob demanda (sujeito à disponibilidade) Variável, pode ser interrompida com um aviso de 30 segundos

VMs spot:

  • Custo:com desconto significativo (60 a 91%). Você paga conforme a utilização.
  • Cota:a cota preemptiva de GPU ou a cota preemptiva de TPU é cobrada.
  • Aceleradores compatíveis:todas as famílias de GPU, exceto A4X. Todas as versões de TPU.
  • Cargas de trabalho de uso geral que exigem execução imediata.
Imediata (sujeito à disponibilidade) Sem limite

Sob demanda (GPUs ou TPUs):

  • Custo:você paga conforme o uso.
  • Cota:a cota sob demanda de GPU ou TPU é cobrada.
  • Aceleradores compatíveis:todas as famílias de GPU, exceto A4X, A4 ou A3 Ultra. Todas as versões de TPU.

A seguir