Orquestração de IA/ML na documentação do GKE

Comece a usar a inferência de modelos de IA com os recursos de IA generativa do GKE.

Home
Documentação
AI/ML orchestration on GKE

Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Execute cargas de trabalho de IA/ML otimizadas com os recursos de orquestração da plataforma do Google Kubernetes Engine (GKE). Com o Google Kubernetes Engine (GKE), é possível implementar uma plataforma de IA/ML robusta e pronta para produção com todos os benefícios do Kubernetes gerenciado e os seguintes recursos:

Orquestração de infraestrutura compatível com GPUs e TPUs para treinamento e disponibilização de cargas de trabalho em escala.
Integração flexível com frameworks de processamento de dados e computação distribuída
Suporte para várias equipes na mesma infraestrutura para maximizar a utilização de recursos

Esta página oferece uma visão geral dos recursos de IA/ML do GKE e como começar a executar cargas de trabalho otimizadas de IA/ML no GKE com GPUs, TPUs e frameworks, como TGI do Hugging Face, vLLM e JetStream.

Recursos de documentação

Encontre guias de início rápido, consulte referências de chaves e receba ajuda para problemas comuns.

info

Disponibilizar modelos abertos no GKE

NOVO!

Disponibilizar modelos de código aberto usando TPUs no GKE com o TPU Optimum
Tutorial

Disponibilizar o Gemma usando GPUs no GKE com o TGI do Hugging Face
Tutorial

Disponibilizar o Gemma usando GPUs no GKE com o vLLM
Tutorial

Disponibilizar o Gemma usando GPUs no GKE com o NVIDIA Triton e TensorRT-LLM
Tutorial

Disponibilizar o Gemma usando TPUs no GKE com o JetStream
Tutorial

Guia de início rápido: disponibilizar um modelo com uma única GPU no GKE Autopilot

info

Orquestrar TPUs e GPUs em grande escala

Vídeo

Introdução às Cloud TPUs para machine learning.
Vídeo

Crie machine learning em larga escala em Cloud TPUs com o GKE
Vídeo

Como exibir modelos de linguagem grandes com o KubeRay em TPUs
Blog

Machine learning com JAX no Kubernetes com GPUs NVIDIA
Blog

Crie uma plataforma de machine learning (ML) com o Kubeflow e o Ray no GKE

info

Otimização de custos e orquestração de jobs

NOVO!

Arquitetura de referência para uma plataforma de processamento em lote no GKE
Blog

Armazenamento de IA/ML de alto desempenho com suporte a SSD local no GKE
Blog

Como simplificar MLOps usando pesos e vieses com o Google Kubernetes Engine
Prática recomendada

Práticas recomendadas para executar cargas de trabalho em lote no GKE
Prática recomendada

Execute aplicativos do Kubernetes com custo otimizado no GKE
Prática recomendada

Melhoria do tempo de lançamento da difusão estável no GKE em quatro vezes

Recursos relacionados

Treinamento e tutoriais

Casos de uso

Exemplos de código

Conheça o treinamento autoguiado do Google Cloud Skills Boost, os casos de uso, as arquiteturas de referência e os exemplos de código com exemplos de como usar e conectar os serviços do Google Cloud.

Treinamento

Treinamento e tutoriais

Acelerar o carregamento de dados de IA/ML com o Hyperdisk ML

Aprenda a simplificar e acelerar o carregamento de pesos de modelos de IA/ML no GKE com o Hyperdisk ML.

Saiba mais

Treinamento

Treinamento e tutoriais

Disponibilizar um LLM usando TPUs no GKE com o JetStream e o PyTorch

Saiba como disponibilizar um LLM usando Unidades de Processamento de Tensor (TPUs) no GKE com o JetStream pelo PyTorch.

Saiba mais

Treinamento

Treinamento e tutoriais

Práticas recomendadas para otimizar a inferência de LLM com GPUs no GKE

Conheça as práticas recomendadas para otimizar o desempenho da inferência de LLM com GPUs no GKE usando os frameworks de disponibilização do vLLM e da inferência de geração de texto (TGI, na sigla em inglês).

Saiba mais

Treinamento

Treinamento e tutoriais

Gerenciar a pilha de GPU com o operador de GPU NVIDIA no GKE

Saiba quando usar e como ativar o operador de GPU NVIDIA no GKE.

Saiba mais

Treinamento

Treinamento e tutoriais

Configurar o escalonamento automático para cargas de trabalho LLM em TPUs

Aprenda a configurar sua infraestrutura de escalonamento automático usando o escalonador automático horizontal de pods (HPA) do GKE para implantar o LLM do Gemma usando o JetStream de host único.

Saiba mais

Treinamento

Treinamento e tutoriais

Ajustar modelos abertos do Gemma usando várias GPUs no GKE

Saiba como ajustar o LLM do Gemma usando GPUs no GKE com a biblioteca Transformers do Hugging Face.

Saiba mais

Treinamento

Treinamento e tutoriais

Implantar um aplicativo Ray Serve com um modelo de difusão estável no GKE com TPUs

Aprenda a implantar e disponibilizar um modelo de difusão estável no GKE usando TPUs, Ray Serve e o complemento Ray Operator.

Saiba mais

Treinamento

Treinamento e tutoriais

Configurar o escalonamento automático para cargas de trabalho LLM em GPUs com o GKE

Saiba como configurar sua infraestrutura de escalonamento automático usando o Escalonador automático horizontal de pods (HPA) do GKE para implantar o LLM do Gemma com o framework de disponibilização da interface de geração de texto (TGI) do Hugging Face.

Saiba mais

Treinamento

Treinamento e tutoriais

Treinar o Llama2 com o Megatron-LM nas máquinas virtuais A3 Mega

Aprenda a executar uma carga de trabalho PyTorch Megatron-LM baseada em contêiner no A3 Mega.

Saiba mais

Treinamento

Treinamento e tutoriais

Implantar cargas de trabalho da GPU no Autopilot

Saiba como solicitar aceleradores de hardware (GPUs) nas cargas de trabalho do GKE Autopilot.

Saiba mais

Treinamento

Treinamento e tutoriais

Exibir um LLM com várias GPUs no GKE

Saiba como exibir Llama 2 70B ou Falcon 40B usando várias GPUs NVIDIA L4 com o GKE.

Saiba mais

Treinamento

Treinamento e tutoriais

Disponibilizar um LLM usando TPUs de vários hosts no GKE com o Saxml

Saiba como exibir o Falcon 7b, Llama2 7b, Falcon 40b ou Llama2 70b usando o framework do Ray no GKE.

Saiba mais

Treinamento

Treinamento e tutoriais

Primeiros passos com Ray no GKE

Saiba como começar a usar o Ray no GKE executando uma carga de trabalho em um cluster do Ray.

Saiba mais

Treinamento

Treinamento e tutoriais

Exibir um LLM em GPUs L4 com Ray

Saiba como exibir o Falcon 7b, Llama2 7b, Falcon 40b ou Llama2 70b usando o framework do Ray no GKE.

Saiba mais

Treinamento

Treinamento e tutoriais

Orquestrar cargas de trabalho do TPU Multislice usando o JobSet e Kueue

Saiba como orquestrar uma carga de trabalho Jax em várias frações de TPU no GKE usando o JobSet e Kueue.

Saiba mais

Treinamento

Treinamento e tutoriais

Como monitorar cargas de trabalho da GPU no GKE com o NVIDIA Data Center GPU Manager (DCGM)

Saiba como observar as cargas de trabalho da GPU no GKE com o NVIDIA Data Center GPU Manager (DCGM).

Saiba mais

Treinamento

Treinamento e tutoriais

Guia de início rápido: treinar um modelo com GPUs nos clusters do GKE Standard

Neste guia de início rápido, mostramos como implantar um modelo de treinamento com GPUs no GKE e armazenar as previsões no Cloud Storage.

Saiba mais

Treinamento

Treinamento e tutoriais

Como executar machine learning em larga escala no GKE

Neste vídeo, mostramos como o GKE ajuda a resolver desafios comuns do treinamento de grandes modelos de IA em escala e as práticas recomendadas para treinar e disponibilizar modelos de machine learning em grande escala no GKE.

Saiba mais

Treinamento

Treinamento e tutoriais

TensorFlow no GKE Autopilot com aceleração de GPU

Esta postagem do blog é um guia explicativo para a criação, execução e desmontagem de um notebook Jupiter com Tensorflow.

Saiba mais

Treinamento

Treinamento e tutoriais

Implementar um sistema de enfileiramento de jobs com compartilhamento de cota entre namespaces no GKE

Neste tutorial, usamos o Kueue para mostrar como implementar um sistema de enfileiramento de jobs e configurar o compartilhamento de cotas e recursos de carga de trabalho entre diferentes namespaces no GKE.

Saiba mais

Treinamento

Treinamento e tutoriais

Criar um chatbot RAG com o GKE e o Cloud Storage

Neste tutorial, mostramos como integrar um aplicativo de modelo de linguagem grande baseado na geração de recuperação aprimorada com arquivos PDF enviados para um bucket do Cloud Storage.

Saiba mais

Caso de uso

Casos de uso

Mecanismos de pesquisa simplificados: abordagem de baixo código com o GKE e o Vertex AI Agent Builder

Como criar um mecanismo de pesquisa com o Google Cloud usando o Vertex AI Agent Builder, a Vertex AI para Pesquisa e o GKE.

Pesquisa Agente Vertex AI

Saiba mais

Caso de uso

Casos de uso

A IA da LiveX reduz os custos de suporte ao cliente com agentes de IA treinados e disponibilizados no GKE e na IA da NVIDIA

Veja como a LiveX AI usa o GKE para criar agentes de IA que aumentam a satisfação do cliente e reduzem custos.

IA generativa NVIDIA GPU

Saiba mais

Caso de uso

Casos de uso

Infraestrutura para um aplicativo de IA generativa com capacidade para RAG usando o GKE

Arquitetura de referência para executar um aplicativo de IA generativa com geração aumentada de recuperação (RAG) usando GKE, Cloud SQL, Ray, Hugging Face e LangChain.

GenAI RAG Ray

Saiba mais

Caso de uso

Casos de uso

Inovação na pesquisa de patentes: como o IPRally aproveita a IA com o GKE e o Ray

Como a IPRally usa o GKE e o Ray para criar uma plataforma de ML escalonável e eficiente para pesquisas de patentes mais rápidas e com maior precisão.

IA Ray GPU

Saiba mais

Caso de uso

Casos de uso

Análise detalhada de desempenho do Gemma no Google Cloud

Use o Gemma em GPUs e TPUs do Cloud para aumentar a eficiência da inferência e do treinamento no GKE.

IA Gemma Desempenho

Saiba mais

Caso de uso

Casos de uso

Análise detalhada do Gemma no GKE: inovações para disponibilizar modelos abertos de IA generativa

Use os melhores modelos abertos do Gemma para criar aplicativos de IA portáteis e personalizáveis e implantá-los no GKE.

IA Gemma Desempenho

Saiba mais

Caso de uso

Casos de uso

Programação avançada de IA/ML com Ray e Kueue

Orquestre aplicativos do Ray no GKE com o KubeRay e o Kueue.

Kueue Ray KubeRay

Saiba mais

Caso de uso

Casos de uso

Como proteger o Ray no Google Kubernetes Engine

Aplicar insights de segurança e técnicas de fortalecimento para treinar cargas de trabalho de IA/ML usando o Ray no GKE.

IA Ray Segurança

Saiba mais

Caso de uso

Casos de uso

Planejar armazenamento para cargas de trabalho de IA e ML no Google Cloud

Selecione a melhor combinação de opções de armazenamento para cargas de trabalho de IA e ML no Google Cloud.

IA ML Armazenamento

Saiba mais

Caso de uso

Casos de uso

A instalação automática de drivers simplifica o uso de GPUs NVIDIA no GKE

Instale automaticamente os drivers de GPU da Nvidia no GKE.

GPU NVIDIA Instalação

Saiba mais

Caso de uso

Casos de uso

Acelere sua jornada de IA generativa com o framework NVIDIA NeMo no GKE

Treine modelos de IA generativa usando o GKE e o framework NVIDIA NeMo.

GenAI NVIDIA NeMo

Saiba mais

Caso de uso

Casos de uso

Por que usar o GKE para suas cargas de trabalho da Ray AI?

Melhore a escalonabilidade, a economia, a tolerância a falhas, o isolamento e a portabilidade usando o GKE para cargas de trabalho do Ray.

IA Ray Escala

Saiba mais

Caso de uso

Casos de uso

Como executar IA no GKE totalmente gerenciado, agora com novas opções de computação, preços e reservas de recursos

Ganhe suporte aprimorado, desempenho e preços mais baixos para cargas de trabalho de IA/ML com o Autopilot do GKE.

GPU Autopilot Desempenho

Saiba mais

Caso de uso

Casos de uso

Como a SEEN aumentou a saída em 89 vezes e reduziu os custos da GPU em 66% usando o GKE

A startup escalona a saída de vídeo personalizada com o GKE.

GPU Escalonamento Contêineres

Saiba mais

Caso de uso

Casos de uso

Como a Let's Enhancer usa IA e NVIDIA na edição de fotos com base em IA

IA inovadora para embelezar imagens usando GPUs NVIDIA e GKE.

IA NVIDIA Contêineres

Saiba mais

Caso de uso

Casos de uso

Como o compartilhamento de GPU do GKE ajuda a busca por neutrinos pelos cientistas

O compartilhamento de GPU do GKE ajuda os cientistas a procurar neutrinos.

GPU Escalonamento Contêineres

Saiba mais

Caso de uso

Casos de uso

GPUs de compartilhamento de tempo no GKE

Saiba como o recurso de compartilhamento de tempo da GPU no GKE permite que vários contêineres compartilhem uma única GPU física, melhorando assim a utilização.

Saiba mais

Caso de uso

Casos de uso

GPUs com várias instâncias no GKE

Saiba como as GPUs de várias instâncias no GKE ajudam a gerar mais valor dos seus investimentos em GPU.

Saiba mais

Caso de uso

Casos de uso

Como a Etsy usa o GKE para reformular a plataforma de machine learning

A Etsy aproveita o aprendizado de máquina para criar experiências personalizadas para milhões de compradores no mundo todo.

GPU Escalonamento Contêineres

Saiba mais

Caso de uso

Casos de uso

Como o Spotify está liberando a inovação em ML com Ray e GKE

Como Ray está transformando o desenvolvimento de ML no Spotify.

ML Ray Contêineres

Saiba mais

Caso de uso

Casos de uso

Como a Ordaōs Bio aproveita a IA generativa no GKE

A Ordaōs Bio, um dos principais aceleradores de IA na pesquisa e descoberta biomédica, está encontrando soluções para novas imunoterapias na oncologia e nas doenças inflamatórias crônicas.

Desempenho TPU Otimização de custos

Saiba mais

Caso de uso

Casos de uso

GKE de uma startup em crescimento com tecnologia de ML

Como a Moloco, uma startup do Vale do Silício, aproveitou o poder do GKE e do Tensor Flow Enterprise para turbinar a infraestrutura de machine learning (ML).

ML Escala Otimização de custos

Saiba mais

Exemplos de código

Ray no GKE

Use este modelo do Terraform para executar o Ray no GKE.

Abrir o GitHub

Exemplos de código

Configurar o Ray no GKE com TPUs

Use esta amostra do Terraform para implantar o Ray em um cluster do GKE com uma topologia 2x2x1.

Abrir o GitHub

Exemplos de código

Cargas de trabalho de treinamento de ML no GKE usando a API JobSet

Execute cargas de trabalho de treinamento de machine learning distribuídas no GKE usando a API JobSet.

Abrir o GitHub

Exemplos de código

"Hello World" do JAX no GKE

Execute um programa JAX simples usando GPUs NVIDIA A100-80GB em um cluster do GKE.

Abrir o GitHub

Comece a usar a inferência de modelos de IA com os recursos de IA generativa do GKE.