Esta página descreve as técnicas disponíveis que pode usar para obter aceleradores de computação, como GPUs ou TPUs, com base nos requisitos das suas cargas de trabalho de IA/ML. Estas técnicas são denominadas opções de consumo de aceleradores no GKE. Compreender as diferentes opções de consumo ajuda a otimizar a utilização de recursos para evitar a subutilização de recursos, aumentar a probabilidade de obter recursos e equilibrar o custo e o desempenho.
Esta página destina-se a administradores e operadores da plataforma que coordenam com engenheiros de aprendizagem automática (ML) para obter os recursos necessários para implementar com êxito cargas de trabalho de IA/AA.
Para saber mais sobre as funções comuns e as tarefas de exemplo a que fazemos referência no Google Cloud conteúdo, consulte o artigo Funções e tarefas comuns do utilizador do GKE.
Compreenda as opções de consumo
Pode selecionar a partir das seguintes opções para consumir aceleradores no GKE:
- A pedido: consome TPUs ou GPUs no GKE sem organizar a capacidade antecipadamente. Antes de pedir recursos, tem de ter quota a pedido suficiente para o tipo e a quantidade específicos de aceleradores. A opção a pedido é a opção de consumo mais flexível. No entanto, não existe qualquer garantia de que existam recursos a pedido suficientes para satisfazer o seu pedido.
- Reservas: reserva recursos durante um período definido. Uma reserva pode ser qualquer uma das seguintes opções:
- Reservas futuras: reserva recursos para durações normalmente mais longas para um período específico no futuro. Tem acesso exclusivo aos recursos reservados durante esse período. As reservas futuras requerem interação com um Gestor de contas técnicas (TAM). Para mais informações, consulte as orientações sobre a TPU e a GPU.
- Reservas futuras até 90 dias (no modo de calendário): pede capacidade para um período especificado, com um consultor do calendário a sugerir datas disponíveis. As reservas futuras até 90 dias (no modo de calendário) oferecem mais flexibilidade para durações mais curtas e pesquisa de capacidade self-service. Para mais informações, consulte o artigo Pedidos de reservas futuras no modo de calendário.
- Reservas a pedido: pode pedir que uma reserva a pedido seja preparada assim que a capacidade estiver disponível, de forma semelhante à opção a pedido. Enquanto a reserva estiver ativa, paga os recursos, quer os use ou não.
- Início flexível: garante recursos densamente alocados para cargas de trabalho de curta duração sem reserva. Pede um número específico de GPUs ou TPUs, e o Compute Engine aprovisiona-as quando a capacidade fica disponível. As GPUs ou as TPUs são executadas sem interrupções durante um máximo de sete dias. Para mais informações, consulte o artigo sobre o aprovisionamento flexível.
- Spot: aprovisiona VMs do Spot, o que lhe permite obter descontos significativos, mas as VMs do Spot podem ser antecipadas em qualquer altura, com um aviso de 30 segundos. Para mais informações, consulte o artigo VMs de spot.
Compreenda a quota de aceleradores no GKE
As quotas e os limites do sistema restringem a sua utilização de recursos do Google Cloud para suportar a disponibilidade de recursos para todos os utilizadores do Google Cloud . As quotas têm valores predefinidos, mas normalmente pode pedir ajustes. Os limites do sistema são valores fixos que não podem ser alterados. Por predefinição, os projetos geralmente não têm uma quota significativa do acelerador. Tem de pedir e receber aprovação para a quota para tipos de aceleradores e regiões específicos.
Considere as seguintes caraterísticas ao gerir as quotas de que as suas cargas de trabalho precisam:
Tem de pedir a quota necessária para cada opção de consumo. Para identificar a quota necessária para cada opção de consumo, consulte os parâmetros "Quota" correspondentes indicados na tabela escolha uma opção de consumo. Se não existir quota suficiente, as tentativas de criar clusters, pools de nós ou implementar cargas de trabalho que exijam aceleradores falham com um erro
Quota exceeded
.Tem de pedir quota quando usa classes de computação personalizadas no Autopilot. Os nós aprovisionados para cumprir os requisitos da classe de computação continuam a consumir a quota do seu projeto para os aceleradores especificados.
Google Cloud As contas de avaliação gratuita têm limitações no pedido de aumentos de quotas para recursos de elevado valor, como GPUs e TPUs. Para ter acesso à quota do acelerador, atualize para uma conta paga.
Para verificar e pedir quota, aceda à página Quotas na Google Cloud consola. Pode filtrar quotas de aceleradores e pedir aumentos.
Escolha uma opção de consumo
Use as seguintes considerações para escolher a melhor opção de consumo para a sua carga de trabalho de IA/ML:
- Tipo de carga de trabalho: considere o tipo de carga de trabalho que quer implementar.
Os requisitos do GKE variam se estiver a executar um treino ou uma carga de trabalho de inferência:
- Preparação: requer recursos de elevado desempenho com memória significativa. Normalmente, os fluxos de trabalho de preparação têm um ciclo de vida bem definido. Normalmente, é mais fácil planear estas cargas de trabalho porque são menos propensas a picos súbitos no consumo de recursos.
- Inferência: normalmente, requer aceleradores otimizados para escalabilidade e custo mais baixo. As cargas de trabalho de inferência podem exigir uma quantidade significativa de memória do acelerador durante picos súbitos no consumo de recursos.
- Duração com base na fase de implementação: tenha em conta o objetivo da empresa se estiver a executar uma prova de conceito (POC), uma avaliação da plataforma, um desenvolvimento ou um teste de aplicações, uma produção ou uma otimização.
- Tempo de aprovisionamento: determine se a sua carga de trabalho requer uma execução imediata ou se pode ser executada no futuro. Se a execução futura for possível, determine a flexibilidade da hora de início.
- Equilíbrio entre custo e desempenho: avalie os requisitos de desempenho da carga de trabalho e as restrições orçamentais para selecionar o acelerador mais rentável. Considere a contrapartida entre o custo dos aceleradores e as respetivas características de desempenho. Lembre-se de que os novos aceleradores podem melhorar as relações custo/desempenho.
Use a tabela seguinte para escolher uma opção de consumo:
Tipo de carga de trabalho | Tempo de aprovisionamento | Duração | Opção de consumo recomendada |
---|---|---|---|
|
Imediato (com reserva aprovada) | Longo prazo (por reserva) | Se quiser consumir qualquer GPU (exceto A4X, A4 ou A3 Ultra) ou qualquer TPU, use reservas a pedido:
|
Se quiser consumir aceleradores G2, A2, A3 High ou A3 Mega, use reservas futuras:
|
|||
|
Imediato (com reserva aprovada) | Até 90 dias | Reservas futuras até 90 dias (no modo de calendário):
|
|
A pedido (sujeito a disponibilidade) | Até 7 dias por atribuição | Modo de aprovisionamento de início flexível:
|
|
A pedido (sujeito a disponibilidade) | Variável, pode ser interrompido com um aviso de 30 segundos |
|
|
Imediato (sujeito à disponibilidade) | Sem limite |
O que se segue?
- Saiba mais acerca das GPUs no GKE.
- Saiba mais acerca das TPUs no GKE.
- Saiba mais acerca da inferência de IA/ML no GKE.