Introdução às cargas de trabalho de IA/ML no GKE

Esta página oferece uma vista geral conceptual do Google Kubernetes Engine (GKE) para cargas de trabalho de IA/ML. O GKE é uma implementação gerida pela Google da plataforma de orquestração de contentores de código aberto Kubernetes.

O Google Kubernetes Engine oferece uma plataforma escalável, flexível e económica para executar todas as suas cargas de trabalho contentorizadas, incluindo aplicações de inteligência artificial e aprendizagem automática (IA/AA). Quer esteja a preparar modelos de base grandes, a publicar pedidos de inferência em grande escala ou a criar uma plataforma de IA abrangente, o GKE oferece o controlo e o desempenho de que precisa.

Esta página destina-se a especialistas em dados e IA, arquitetos da nuvem, operadores e programadores que procuram uma solução Kubernetes escalável, automatizada e gerida para executar cargas de trabalho de IA/ML. Para saber mais sobre as funções comuns, consulte o artigo Funções e tarefas comuns do utilizador do GKE.

Comece a usar cargas de trabalho de IA/ML no GKE

Pode começar a explorar o GKE em minutos através do nível gratuito do GKE, que lhe permite começar a usar o Kubernetes sem incorrer em custos de gestão de clusters.

  1. Comece a usar na Google Cloud consola

  2. Experimente estes inícios rápidos:
    • Inferência no GKE: implemente um modelo de linguagem (conteúdo extenso) (MDI/CE) de IA no GKE para inferência através de uma arquitetura predefinida.
    • Preparação no GKE: implemente um modelo de preparação de IA no GKE e armazene as previsões no Cloud Storage.
  3. Leia o artigo Acerca das opções de consumo de aceleradores para cargas de trabalho de IA/ML, que contém orientações e recursos para planear e obter aceleradores (GPUs e TPUs) para a sua plataforma.

Exemplos de utilização comuns

O GKE oferece uma plataforma unificada que pode suportar todas as suas cargas de trabalho de IA.

  • Criar uma plataforma de IA: para equipas de plataformas empresariais, o GKE oferece a flexibilidade para criar uma plataforma multiinquilino padronizada que satisfaça diversas necessidades.
  • Serviço online de baixa latência: para os programadores que criam aplicações de IA generativa, o GKE com o Inference Gateway oferece o encaminhamento otimizado e o dimensionamento automático necessários para oferecer uma experiência do utilizador rápida e dinâmica, ao mesmo tempo que controla os custos.

Escolha a plataforma certa para a sua carga de trabalho de IA/AM

Google Cloud oferece um espetro de produtos de infraestrutura de IA para apoiar o seu percurso de ML, desde totalmente geridos a totalmente configuráveis. A escolha da plataforma certa depende das suas necessidades específicas de controlo, flexibilidade e nível de gestão.

Prática recomendada:

Escolha o GKE quando precisar de controlo detalhado, portabilidade e a capacidade de criar uma plataforma de IA personalizada de alto desempenho.

  • Flexibilidade e controlo da infraestrutura: precisa de um elevado grau de controlo sobre a sua infraestrutura, usar pipelines personalizados ou necessita de personalizações ao nível do kernel.
  • Preparação e inferência em grande escala: quer preparar modelos muito grandes ou publicar modelos com latência mínima, usando a escalabilidade e o alto desempenho do GKE.
  • Rentabilidade em grande escala: quer dar prioridade à otimização de custos usando a integração do GKE com VMs de anúncios de TV e VMs de início flexível para gerir os custos de forma eficaz.
  • Portabilidade e normas abertas: quer evitar a dependência de fornecedores e executar as suas cargas de trabalho em qualquer lugar com o Kubernetes, e já tem experiência no Kubernetes ou uma estratégia de várias nuvens.

Também pode considerar estas alternativas:

Google Cloud serviço Ideal para
Vertex AI Uma plataforma ponto a ponto totalmente gerida para acelerar o desenvolvimento e descarregar a gestão da infraestrutura. Funciona bem para equipas focadas em MLOps e tempo de rentabilização rápido. Para mais informações, veja o vídeo Escolher entre o GKE autoalojado e o Vertex AI gerido para alojar modelos de IA.
Cloud Run Uma plataforma sem servidor para cargas de trabalho de inferência contentorizadas que podem ser dimensionadas para zero. Funciona bem para aplicações orientadas por eventos e para publicar modelos mais pequenos de forma rentável. Para uma análise detalhada comparativa, consulte o artigo GKE e Cloud Run.

Como o GKE alimenta as cargas de trabalho de IA/ML

O GKE oferece um conjunto de componentes especializados que simplificam e aceleram cada fase do ciclo de vida da IA/ML, desde a preparação em grande escala à inferência de baixa latência.

No diagrama seguinte, o GKE está dentro de Google Cloud
       e pode usar diferentes opções de armazenamento na nuvem (como o Cloud Storage FUSE e o Lustre gerido) e diferentes opções de infraestrutura na nuvem
       (como o Cloud TPU e as GPUs do Google Cloud). O GKE também funciona com software e frameworks de código aberto para aprendizagem profunda (como JAX ou TensorFlow), orquestração de ML (como Jupyter ou Ray) e inferência de LLM (como vLLM ou NVIDIA Dynamo).
Figura 1: o GKE como uma plataforma gerida escalável para cargas de trabalho de IA/ML.

A tabela seguinte resume as funcionalidades do GKE que suportam as suas cargas de trabalho de IA/ML ou objetivos operacionais.

Operação ou carga de trabalho de IA/AA Como o GKE lhe presta apoio técnico Funcionalidades principais
Inferência e publicação Otimizado para publicar modelos de IA de forma elástica, com baixa latência, elevado débito e rentabilidade.
  • Flexibilidade do acelerador: o GKE suporta GPUs e TPUs para inferência.
  • GKE Inference Gateway: um gateway com reconhecimento de modelos que oferece encaminhamento inteligente e equilíbrio de carga especificamente para cargas de trabalho de inferência de IA.
  • Início rápido da inferência do GKE: uma ferramenta para simplificar a análise do desempenho e a implementação, fornecendo um conjunto de perfis de testes de referência para modelos de IA populares.
  • GKE Autopilot: um modo operacional do GKE que automatiza as operações de cluster e o dimensionamento da capacidade, reduzindo a sobrecarga.
Formação e ajuste preciso Oferece as capacidades de escala e organização necessárias para formar de forma eficiente modelos muito grandes, ao mesmo tempo que minimiza os custos.
  • Nós de arranque mais rápidos: uma otimização concebida especificamente para cargas de trabalho de GPU que reduz os tempos de arranque dos nós até 80%.
  • Modo de aprovisionamento de início flexível com tecnologia do programador de cargas de trabalho dinâmicas: melhora a sua capacidade de proteger aceleradores de GPU e TPU escassos para cargas de trabalho de preparação de curta duração.
  • Kueue: um sistema de colocação em fila de tarefas nativo do Kubernetes que gere a atribuição de recursos, o agendamento, a gestão de quotas e a priorização para cargas de trabalho em lote.
  • TPU multislice: uma arquitetura de hardware e rede que permite que várias fatias de TPU comuniquem entre si através da rede do centro de dados (DCN) para alcançar uma preparação em grande escala.
Desenvolvimento unificado de IA/ML Apoio técnico gerido para o Ray, uma framework de código aberto para dimensionar aplicações Python distribuídas.
  • Suplemento do Ray no GKE: abstrai a infraestrutura do Kubernetes, permitindo-lhe dimensionar cargas de trabalho, como pré-processamento de dados em grande escala, preparação distribuída e publicação online com alterações mínimas ao código.

O que se segue?