Introdução às cargas de trabalho de IA/ML no GKE

Nesta página, você encontra uma visão geral conceitual do Google Kubernetes Engine (GKE) para cargas de trabalho de IA/ML. O GKE é uma implementação gerenciada pelo Google da plataforma de orquestração de contêineres de código aberto do Kubernetes.

O Google Kubernetes Engine oferece uma plataforma escalonável, flexível e econômica para executar todas as suas cargas de trabalho em contêineres, incluindo aplicativos de inteligência artificial e machine learning (IA/ML). Seja para treinar grandes modelos de base, atender a solicitações de inferência em escala ou criar uma plataforma de IA abrangente, o GKE oferece o controle e o desempenho necessários.

Esta página é destinada a especialistas em dados e IA, arquitetos de nuvem, operadores e desenvolvedores que procuram uma solução escalonável, automatizada e gerenciada do Kubernetes para executar cargas de trabalho de IA/ML. Para saber mais sobre papéis comuns, consulte Tarefas e funções de usuário comuns do GKE.

Começar a usar cargas de trabalho de IA/ML no GKE

Comece a explorar o GKE em minutos usando o nível gratuito do GKE, que permite começar a usar o Kubernetes sem gerar custos de gerenciamento de clusters.

  1. Começar a usar o console Google Cloud

  2. Confira estes guias de início rápido:
    • Inferência no GKE: implante um modelo de linguagem grande (LLM) de IA no GKE para inferência usando uma arquitetura predefinida.
    • Treinamento no GKE: implante um modelo de treinamento de IA no GKE e armazene as previsões no Cloud Storage.
  3. Leia Sobre as opções de consumo de aceleradores para cargas de trabalho de IA/ML, que tem orientações e recursos para planejar e obter aceleradores (GPUs e TPUs) para sua plataforma.

Casos de uso comuns

O GKE oferece uma plataforma unificada que pode oferecer suporte a todas as suas cargas de trabalho de IA.

  • Criação de uma plataforma de IA: para equipes de plataforma empresarial, o GKE oferece a flexibilidade de criar uma plataforma padronizada e multitenant que atende a diversas necessidades.
  • Serviço on-line de baixa latência: para desenvolvedores que criam aplicativos de IA generativa, o GKE com o Inference Gateway oferece o roteamento e o escalonamento automático otimizados necessários para oferecer uma experiência do usuário responsiva e controlar os custos.

Escolha a plataforma certa para sua carga de trabalho de IA/ML

Google Cloud oferece um espectro de produtos de infraestrutura de IA para apoiar sua jornada de ML, desde totalmente gerenciados até totalmente configuráveis. A escolha da plataforma certa depende das suas necessidades específicas de controle, flexibilidade e nível de gerenciamento.

Prática recomendada:

Escolha o GKE quando precisar de controle total, portabilidade e a capacidade de criar uma plataforma de IA personalizada e de alta performance.

  • Controle e flexibilidade da infraestrutura: você precisa de um alto grau de controle sobre sua infraestrutura, usar pipelines personalizados ou fazer personalizações no nível do kernel.
  • Treinamento e inferência em grande escala: você quer treinar modelos muito grandes ou disponibilizar modelos com latência mínima usando a escalonabilidade e o alto desempenho do GKE.
  • Eficiência de custos em escala: você quer priorizar a otimização de custos usando a integração do GKE com VMs do Spot e VMs de início flexível para gerenciar os custos de maneira eficaz.
  • Portabilidade e padrões abertos: você quer evitar a dependência de fornecedores e executar suas cargas de trabalho em qualquer lugar com o Kubernetes, e já tem experiência com o Kubernetes ou uma estratégia multicloud.

Você também pode considerar estas alternativas:

ServiçoGoogle Cloud Ideal para
Vertex AI Uma plataforma completa e totalmente gerenciada para acelerar o desenvolvimento e reduzir o gerenciamento da infraestrutura. Funciona bem para equipes focadas em MLOps e retorno rápido do investimento. Para mais informações, assista a Escolher entre o GKE autohospedado e a Vertex AI gerenciada para hospedar modelos de IA.
Cloud Run Uma plataforma sem servidor para cargas de trabalho de inferência em contêineres que podem ser escalonadas para zero. Funciona bem para aplicativos orientados a eventos e para disponibilizar modelos menores de maneira econômica. Para uma análise comparativa detalhada, consulte GKE e Cloud Run.

Como o GKE melhora as cargas de trabalho de IA/ML

O GKE oferece um conjunto de componentes especializados que simplificam e aceleram cada etapa do ciclo de vida de IA/ML, desde o treinamento em grande escala até a inferência de baixa latência.

No diagrama a seguir, o GKE está dentro de Google Cloude pode usar diferentes opções de armazenamento em nuvem (como o Cloud Storage FUSE e o Lustre gerenciado) e diferentes opções de infraestrutura em nuvem (como o Cloud TPU e as GPUs do Cloud). O GKE também funciona com softwares e frameworks de código aberto para aprendizado profundo (como JAX ou TensorFlow), orquestração de ML (como Jupyter ou Ray) e inferência de LLM (como vLLM ou NVIDIA Dynamo).
Figura 1: GKE como uma plataforma gerenciada escalonável para cargas de trabalho de IA/ML.

A tabela a seguir resume os recursos do GKE que oferecem suporte às suas cargas de trabalho de IA/ML ou metas operacionais.

Carga de trabalho ou operação de IA/ML Como o GKE ajuda você Principais recursos
Inferência e disponibilização Otimizado para veicular modelos de IA de forma elástica, com baixa latência, alta capacidade de processamento e eficiência de custo.
  • Flexibilidade do acelerador: o GKE é compatível com GPUs e TPUs para inferência.
  • Gateway de inferência do GKE: um gateway compatível com modelos que oferece roteamento inteligente e balanceamento de carga especificamente para cargas de trabalho de inferência de IA.
  • Início rápido de inferência do GKE: uma ferramenta para simplificar a análise de desempenho e a implantação, fornecendo um conjunto de perfis comparativos para modelos de IA conhecidos.
  • GKE Autopilot: um modo operacional do GKE que automatiza as operações do cluster e o dimensionamento adequado da capacidade, reduzindo a sobrecarga.
Treinamento e ajuste refinado Oferece a escalonabilidade e os recursos de orquestração necessários para treinar modelos muito grandes de maneira eficiente e minimizar os custos.
  • Nós de inicialização mais rápidos: uma otimização projetada especificamente para cargas de trabalho de GPU que reduz os tempos de inicialização de nós em até 80%.
  • Modo de provisionamento de início flexível com tecnologia do Dynamic Workload Scheduler: melhora sua capacidade de proteger aceleradores de GPU e TPU escassos para cargas de trabalho de treinamento de curta duração.
  • Kueue: um sistema de enfileiramento de jobs nativo do Kubernetes que gerencia alocação de recursos, programação, gerenciamento de cotas e priorização para cargas de trabalho em lote.
  • Multislice de TPU: uma arquitetura de hardware e rede que permite que várias frações de TPU se comuniquem entre si pela rede de data center (DCN) para alcançar treinamento em grande escala.
Desenvolvimento unificado de IA/ML Suporte gerenciado para o Ray, um framework de código aberto para escalonar aplicativos Python distribuídos.
  • Complemento Ray no GKE: abstrai a infraestrutura do Kubernetes, permitindo escalonar cargas de trabalho como pré-processamento de dados em grande escala, treinamento distribuído e exibição on-line com mudanças mínimas no código.

A seguir