Orquestração de IA/ML na documentação do GKE

Execute cargas de trabalho de IA/ML otimizadas com as capacidades de orquestração da plataforma do Google Kubernetes Engine (GKE). Com o Google Kubernetes Engine (GKE), pode implementar uma plataforma de IA/AA robusta e pronta para produção com todas as vantagens do Kubernetes gerido e estas capacidades:

  • Orquestração de infraestrutura que suporta GPUs e TPUs para cargas de trabalho de preparação e fornecimento em grande escala.
  • Integração flexível com frameworks de computação distribuída e processamento de dados.
  • Suporte para várias equipas na mesma infraestrutura para maximizar a utilização de recursos
Esta página oferece uma vista geral das capacidades de IA/AM do GKE e como começar a executar cargas de trabalho de IA/AM otimizadas no GKE com GPUs, TPUs e estruturas como Hugging Face TGI, vLLM e JetStream.
  • Aceda ao Gemini 2.0 Flash Thinking
  • Utilização mensal gratuita de produtos populares, incluindo APIs de IA e o BigQuery
  • Sem cobranças automáticas nem compromissos

Continue a explorar com mais de 20 produtos sempre gratuitos

Aceda a mais de 20 produtos gratuitos para exemplos de utilização comuns, incluindo APIs de IA, VMs, armazéns de dados e muito mais.

Recursos de documentação

Encontre inícios rápidos e guias, reveja referências importantes e receba ajuda com problemas comuns.
Explore a formação ao seu ritmo, exemplos de utilização, arquiteturas de referência e exemplos de código com exemplos de como usar e associar Google Cloud serviços.
Formação
Formação e tutoriais

Saiba como implementar e gerir uma aplicação de IA baseada em agentes contentorizada no GKE, usando o Agent Development Kit (ADK) e a Vertex AI para inferência escalável com o Gemini 2.0 Flash.

Tutorial Inferência de IA/ML IA com agentes

Formação
Formação e tutoriais

Saiba como implementar MDIs com Tensor Processing Units (TPUs) no GKE com a estrutura de fornecimento de TPUs Optimum da Hugging Face.

Tutorial Inferência de IA/ML TPU

Formação
Formação e tutoriais

Saiba como criar armazenamento suportado por instâncias do Parallelstore totalmente geridas e aceder a elas como volumes. O controlador CSI está otimizado para cargas de trabalho de preparação de IA/ML que envolvem tamanhos de ficheiros mais pequenos e leituras aleatórias.

Tutorial Carregamento de dados de IA/ML

Formação
Formação e tutoriais

Saiba como simplificar e acelerar o carregamento de ponderações de modelos de IA/AA no GKE com o Hyperdisk ML.

Tutorial Carregamento de dados de IA/ML

Formação
Formação e tutoriais

Saiba como publicar um MDG com unidades de processamento tensor (TPUs) no GKE com o JetStream através do PyTorch.

Tutorial Inferência de IA/ML TPUs

Formação
Formação e tutoriais

Conheça as práticas recomendadas para otimizar o desempenho da inferência de MDIs com GPUs no GKE através das estruturas de fornecimento vLLM e Text Generation Inference (TGI).

Tutorial Inferência de IA/ML GPUs

Formação
Formação e tutoriais

Saiba quando usar o operador de GPU da NVIDIA e como ativar o operador de GPU da NVIDIA no GKE.

Tutorial GPUs

Formação
Formação e tutoriais

Saiba como configurar a sua infraestrutura de escalamento automático através do GKE Horizontal Pod Autoscaler (HPA) para implementar o LLM Gemma com o JetStream de anfitrião único.

Tutorial TPUs

Formação
Formação e tutoriais

Saiba como otimizar o MDG Gemma com GPUs no GKE com a biblioteca Hugging Face Transformers.

Tutorial Inferência de IA/ML GPUs

Formação
Formação e tutoriais

Saiba como implementar e publicar um modelo do Stable Diffusion no GKE através de TPUs, do Ray Serve e do suplemento do operador do Ray.

Tutorial Inferência de IA/ML Ray TPUs

Formação
Formação e tutoriais

Saiba como configurar a sua infraestrutura de dimensionamento automático através do GKE Horizontal Pod Autoscaler (HPA) para implementar o LLM Gemma com a framework de serviço da Hugging Face Text Generation Interface (TGI).

Tutorial GPUs

Formação
Formação e tutoriais

Saiba como executar uma carga de trabalho do PyTorch baseada em contentores do Megatron-LM no A3 Mega.

Tutorial Formação em IA/ML GPUs

Formação
Formação e tutoriais

Saiba como pedir aceleradores de hardware (GPUs) nas suas cargas de trabalho do GKE Autopilot.

Tutorial GPUs

Formação
Formação e tutoriais

Saiba como publicar o Llama 2 70B ou o Falcon 40B com várias GPUs NVIDIA L4 com o GKE.

Tutorial Inferência de IA/ML GPUs

Formação
Formação e tutoriais

Saiba como começar a usar facilmente o Ray no GKE executando uma carga de trabalho num cluster do Ray.

Tutorial Ray

Formação
Formação e tutoriais

Saiba como publicar o Falcon 7b, o Llama2 7b, o Falcon 40b ou o Llama2 70b através da framework Ray no GKE.

Tutorial Inferência de IA/ML Ray GPUs

Formação
Formação e tutoriais

Saiba como orquestrar uma carga de trabalho Jax em várias fatias de TPU no GKE usando o JobSet e o Kueue.

Tutorial TPUs

Formação
Formação e tutoriais

Saiba como observar cargas de trabalho de GPU no GKE com o NVIDIA Data Center GPU Manager (DCGM).

Tutorial Observabilidade de IA/ML GPUs

Formação
Formação e tutoriais

Este início rápido mostra como implementar um modelo de preparação com GPUs no GKE e armazenar as previsões no Cloud Storage.

Tutorial Formação em IA/ML GPUs

Formação
Formação e tutoriais

Este vídeo mostra como o GKE ajuda a resolver desafios comuns da preparação de grandes modelos de IA em grande escala, bem como as práticas recomendadas para preparar e publicar modelos de aprendizagem automática em grande escala no GKE.

Vídeo Preparação de IA/ML Inferência de IA/ML

Formação
Formação e tutoriais

Esta publicação no blogue é um guia passo a passo para a criação, a execução e a desativação de um bloco de notas do Jupiter com o TensorFlow ativado.

Blogue Formação em IA/ML Inferência de IA/ML GPUs

Formação
Formação e tutoriais

Este tutorial usa o Kueue para mostrar como implementar um sistema de colocação em fila de tarefas e configurar a partilha de recursos e quotas de cargas de trabalho entre diferentes espaços de nomes no GKE.

Tutorial Processamento em lote de IA/ML

Formação
Formação e tutoriais

Este tutorial mostra como integrar uma aplicação de modelo de linguagem grande baseada na geração aumentada de obtenção com ficheiros PDF que carrega para um contentor do Cloud Storage.

Tutorial Carregamento de dados de IA/ML

Formação
Formação e tutoriais

Este tutorial mostra-lhe como analisar grandes conjuntos de dados no GKE tirando partido do BigQuery para o armazenamento e o processamento de dados, do Cloud Run para o processamento de pedidos e de um MDG Gemma para a análise de dados e as previsões.

Tutorial Carregamento de dados de IA/ML

Exemplo de utilização
Exemplos de utilização

Saiba como tirar partido do GKE e do Ray para pré-processar de forma eficiente grandes conjuntos de dados para aprendizagem automática.

MLOps Formação Ray

Exemplo de utilização
Exemplos de utilização

Saiba como acelerar os tempos de carregamento de dados para as suas aplicações de aprendizagem automática no Google Kubernetes Engine.

Inferência Hyperdisk ML Cloud Storage FUSE

Exemplo de utilização
Exemplos de utilização

Saiba como otimizar os custos de inferência da GPU ajustando o Horizontal Pod Autoscaler do GKE para máxima eficiência.

Inference GPU HPA

Exemplo de utilização
Exemplos de utilização

Saiba como implementar microsserviços NVIDIA NIM no GKE com facilidade e acelerar as suas cargas de trabalho de IA.

IA NVIDIA NIM

Exemplo de utilização
Exemplos de utilização

Saiba como o operador Ray no GKE simplifica as implementações de produção de IA/ML, aumentando o desempenho e a escalabilidade.

IA TPU Ray

Exemplo de utilização
Exemplos de utilização

Saiba como maximizar o débito de fornecimento de grandes modelos de linguagem (GMLs) para GPUs no GKE, incluindo decisões de infraestrutura e otimizações do servidor de modelos.

LLM GPU NVIDIA

Exemplo de utilização
Exemplos de utilização

Como criar um motor de pesquisa com o Google Cloud, usando o Vertex AI Agent Builder, o Vertex AI Search e o GKE.

Pesquisa Agente Vertex AI

Exemplo de utilização
Exemplos de utilização

Como a LiveX AI usa o GKE para criar agentes de IA que melhoram a satisfação do cliente e reduzem os custos.

GenAI NVIDIA GPU

Exemplo de utilização
Exemplos de utilização

Arquitetura de referência para executar uma aplicação de IA generativa com geração aumentada por recuperação (RAG) usando o GKE, o Cloud SQL, o Ray, o Hugging Face e o LangChain.

GenAI RAG Ray

Exemplo de utilização
Exemplos de utilização

Como a IPRally usa o GKE e o Ray para criar uma plataforma de AA escalável e eficiente para pesquisas de patentes mais rápidas com melhor precisão.

IA Ray GPU

Exemplo de utilização
Exemplos de utilização

Tire partido do Gemma nas Cloud GPUs e Cloud TPUs para inferência e eficiência de preparação no GKE.

IA Gemma Desempenho

Exemplo de utilização
Exemplos de utilização

Use os melhores modelos abertos Gemma para criar aplicações de IA portáteis e personalizáveis, e implementá-las no GKE.

IA Gemma Desempenho

Exemplo de utilização
Exemplos de utilização

Orquestre aplicações Ray no GKE com o KubeRay e o Kueue.

Kueue Ray KubeRay

Exemplo de utilização
Exemplos de utilização

Aplique estatísticas de segurança e técnicas de reforço para preparar cargas de trabalho de IA/AA com o Ray no GKE.

IA Ray Segurança

Exemplo de utilização
Exemplos de utilização

Selecione a melhor combinação de opções de armazenamento para cargas de trabalho de IA e ML no Google Cloud.

IA ML Armazenamento

Exemplo de utilização
Exemplos de utilização

Instale automaticamente os controladores de GPU Nvidia no GKE.

GPU NVIDIA Instalação

Exemplo de utilização
Exemplos de utilização

Prepare modelos de IA generativa com o GKE e a framework NVIDIA NeMo.

GenAI NVIDIA NeMo

Exemplo de utilização
Exemplos de utilização

Melhore a escalabilidade, a rentabilidade, a tolerância a falhas, o isolamento e a portabilidade usando o GKE para cargas de trabalho do Ray.

IA Ray Scale

Exemplo de utilização
Exemplos de utilização

Obtenha um suporte de GPU melhorado, um desempenho superior e preços mais baixos para cargas de trabalho de IA/ML com o GKE Autopilot.

GPU Autopilot Desempenho

Exemplo de utilização
Exemplos de utilização

A startup dimensiona a saída de vídeo personalizada com o GKE.

GPU Escala Recipientes

Exemplo de utilização
Exemplos de utilização

Como o Ray está a transformar o desenvolvimento de ML no Spotify.

ML Ray Contentores

Exemplo de utilização
Exemplos de utilização

A Ordaōs Bio, um dos principais aceleradores de IA para investigação e descoberta biomédica, está a encontrar soluções para novas imunoterapias em oncologia e doenças inflamatórias crónicas.

Desempenho TPU Otimização de custos

Exemplo de utilização
Exemplos de utilização

Como a Moloco, uma startup do Vale do Silício, aproveitou o poder do GKE e do Tensor Flow Enterprise para otimizar a sua infraestrutura de aprendizagem automática (ML).

ML Escala Otimização de custos

Exemplo de código
Exemplos de código

Veja exemplos de aplicações usadas nos tutoriais oficiais do produto GKE.

Exemplo de código
Exemplos de código

Veja exemplos experimentais para tirar partido do GKE e acelerar as suas iniciativas de IA/ML.

Exemplo de código
Exemplos de código

Veja arquiteturas de referência e soluções para implementar cargas de trabalho aceleradas no GKE.

Vídeos relacionados