Esta página foi traduzida pela API Cloud Translation.

Acerca das opções de consumo de aceleradores para cargas de trabalho de IA/ML no GKE

Autopilot Padrão

Esta página descreve as técnicas disponíveis que pode usar para obter aceleradores de computação, como GPUs ou TPUs, com base nos requisitos das suas cargas de trabalho de IA/ML. Estas técnicas são denominadas opções de consumo de aceleradores no GKE. Compreender as diferentes opções de consumo ajuda a otimizar a utilização de recursos para evitar a subutilização de recursos, aumentar a probabilidade de obter recursos e equilibrar o custo e o desempenho.

Esta página destina-se a administradores e operadores da plataforma que coordenam com engenheiros de aprendizagem automática (ML) para obter os recursos necessários para implementar com êxito cargas de trabalho de IA/AA.

Para saber mais sobre as funções comuns e as tarefas de exemplo a que fazemos referência no Google Cloud conteúdo, consulte o artigo Funções e tarefas comuns de utilizadores do GKE.

Compreenda as opções de consumo

Pode selecionar uma das seguintes opções para consumir aceleradores no GKE:

A pedido: consome TPUs ou GPUs no GKE sem organizar a capacidade antecipadamente. Antes de pedir recursos, tem de ter quota a pedido suficiente para o tipo e a quantidade específicos de aceleradores. A opção a pedido é a opção de consumo mais flexível. No entanto, não existe qualquer garantia de que existam recursos a pedido suficientes para satisfazer o seu pedido.
Reservas: reserva recursos durante um período definido. Uma reserva pode ser qualquer uma das seguintes opções:
- Reservas futuras: reserva recursos para durações normalmente mais longas para um período específico no futuro. Tem acesso exclusivo aos recursos reservados durante esse período. As reservas futuras requerem interação com um Gestor de contas técnicas (TAM). Para mais informações, consulte as orientações sobre a TPU e a GPU.
- Reservas futuras até 90 dias (no modo de calendário): pede capacidade para um período especificado, com um consultor do calendário a sugerir datas disponíveis. As reservas futuras até 90 dias (no modo de calendário) oferecem mais flexibilidade para durações mais curtas e pesquisa de capacidade self-service. Para mais informações, consulte o artigo Pedidos de reservas futuras no modo de calendário.
- Reservas a pedido: pode pedir que uma reserva a pedido seja preparada assim que a capacidade estiver disponível, de forma semelhante à opção a pedido. Enquanto a reserva estiver ativa, paga os recursos, quer os use ou não.
Início flexível: garante recursos densamente alocados para cargas de trabalho de curta duração sem reserva. Pede um número específico de GPUs ou TPUs, e o Compute Engine aprovisiona-as quando a capacidade fica disponível. As GPUs ou as TPUs são executadas sem interrupções durante um máximo de sete dias. Para mais informações, consulte o artigo Aprovisionamento de início flexível.
Spot: aprovisiona VMs do Spot, o que lhe permite receber descontos significativos, mas as VMs do Spot podem ser anuladas em qualquer altura, com um aviso de 30 segundos. Para mais informações, consulte o artigo VMs de spot.

Compreenda a quota de aceleradores no GKE

As quotas e os limites do sistema restringem a sua utilização de recursos do Google Cloud para suportar a disponibilidade de recursos para todos os utilizadores do Google Cloud . As quotas têm valores predefinidos, mas normalmente pode pedir ajustes. Os limites do sistema são valores fixos que não podem ser alterados. Por predefinição, os projetos geralmente não têm uma quota significativa do acelerador. Tem de pedir e receber aprovação para a quota para tipos de aceleradores e regiões específicos.

Considere as seguintes caraterísticas ao gerir as quotas de que as suas cargas de trabalho precisam:

Tem de pedir a quota necessária para cada opção de consumo. Para identificar a quota necessária para cada opção de consumo, consulte os parâmetros "Quota" correspondentes indicados na tabela escolha uma opção de consumo. Se não existir quota suficiente, as tentativas de criar clusters, conjuntos de nós ou implementar cargas de trabalho que exijam aceleradores falham com um erro Quota exceeded.
Tem de pedir quota quando usa classes de computação personalizadas no Autopilot. Os nós aprovisionados para cumprir os requisitos da classe de computação continuam a consumir a quota do seu projeto para os aceleradores especificados.
Google Cloud As contas de avaliação gratuita têm limitações no pedido de aumentos de quotas para recursos de elevado valor, como GPUs e TPUs. Para ter acesso à quota do acelerador, atualize para uma conta paga.

Para verificar e pedir quota, aceda à página Quotas na Google Cloud consola. Pode filtrar as quotas de aceleradores e pedir aumentos.

Escolha uma opção de consumo

Use as seguintes considerações para escolher a melhor opção de consumo para a sua carga de trabalho de IA/ML:

Tipo de carga de trabalho: considere o tipo de carga de trabalho que quer implementar. Os requisitos do GKE variam se estiver a executar um treino ou uma carga de trabalho de inferência:
- Preparação: requer recursos de alto desempenho com memória significativa. Normalmente, os fluxos de trabalho de preparação têm um ciclo de vida bem definido. Normalmente, é mais fácil planear estas cargas de trabalho porque são menos propensas a picos súbitos no consumo de recursos.
- Inferência: normalmente, requer aceleradores otimizados para escalabilidade e custo mais baixo. As cargas de trabalho de inferência podem exigir uma quantidade significativa de memória do acelerador durante picos súbitos no consumo de recursos.
Duração com base na fase de implementação: tenha em conta o objetivo da empresa se estiver a executar uma prova de conceito (POC), uma avaliação da plataforma, um desenvolvimento ou um teste de aplicações, uma produção ou uma otimização.
Tempo de aprovisionamento: determine se a sua carga de trabalho requer uma execução imediata ou se pode ser executada no futuro. Se a execução futura for possível, determine a flexibilidade da hora de início.
Equilibre o custo e o desempenho: avalie os requisitos de desempenho da carga de trabalho e as restrições orçamentais para selecionar o acelerador mais rentável. Considere a contrapartida entre o custo dos aceleradores e as respetivas características de desempenho. Lembre-se de que os novos aceleradores podem melhorar as relações custo/desempenho.

Use a tabela seguinte para escolher uma opção de consumo:

Tipo de carga de trabalho	Tempo de aprovisionamento	Duração	Opção de consumo recomendada
Cargas de trabalho de grande escala e de longa duração, como a pré-formação de modelos de base ou a inferência multi-anfitrião. Cargas de trabalho de produção.	Imediato (com reserva aprovada)	Longo prazo (por reserva)	Se quiser consumir qualquer GPU (exceto A4X, A4 ou A3 Ultra) ou qualquer TPU, use reservas a pedido: Custo: é cobrado o período de reserva completo. Quota: a quota é aumentada automaticamente antes de a capacidade ser disponibilizada.
	Imediato (com reserva aprovada)	Longo prazo (por reserva)	Se quiser consumir aceleradores G2, A2, A3 High ou A3 Mega, use reservas futuras: Custo: é cobrado o período de reserva completo. Quota: a quota é aumentada automaticamente antes de a capacidade ser disponibilizada.
Cargas de trabalho distribuídas de curta duração, como o ajuste fino de modelos, as simulações ou a inferência em lote, em que é necessário um horário de início preciso. Cargas de trabalho para avaliação, testes de referência ou testes de otimização de plataformas.	Imediato (com reserva aprovada)	Até 90 dias	Reservas futuras até 90 dias (no modo de calendário): Custo: com desconto (até 53%). É-lhe cobrado o período de reserva. Quota: não é cobrada nenhuma quota. Aceleradores suportados: A4, A3 Ultra, TPU v5e, TPU v5p e TPU Trillium.
Cargas de trabalho em lote, como preparação de modelos pequenos, ajuste fino ou inferência escalável, em que a hora de início é flexível. Cargas de trabalho para POCs ou testes de integração.	A pedido (sujeito a disponibilidade)	Até 7 dias por atribuição	Modo de aprovisionamento de início flexível: Custo: com desconto (até 53%). Paga à medida que usa. Quota: é cobrada a quota de GPUs preemptíveis ou a quota de TPUs preemptíveis. Aceleradores suportados: todas as famílias de GPUs, exceto A4X. Todas as versões da TPU.
Cargas de trabalho tolerantes a falhas e de prioridade inferior, como CI/CD, análise de dados ou computação de alto desempenho (HPC). Cargas de trabalho altamente interrompíveis.	A pedido (sujeito a disponibilidade)	Variável, pode ser antecipado com um aviso de 30 segundos	VMs do Spot: Custo: com um desconto significativo (60 a 91%). Paga à medida que usa. Quota: é cobrada a quota de GPUs preemptíveis ou a quota de TPUs preemptíveis. Aceleradores suportados: todas as famílias de GPUs, exceto A4X. Todas as versões da TPU.
Cargas de trabalho de uso geral que requerem execução imediata.	Imediato (sujeito à disponibilidade)	Sem limite	A pedido (GPUs ou TPUs): Custo: paga à medida que usa. Quota: é cobrada a quota a pedido de GPU ou TPU. Aceleradores suportados: todas as famílias de GPUs, exceto A4X, A4 ou A3 Ultra. Todas as versões da TPU.

O que se segue?

Saiba mais acerca das GPUs no GKE.
Saiba mais acerca das TPUs no GKE.
Saiba mais acerca da inferência de IA/ML no GKE.