Orquestração de IA/ML na documentação do GKE
Execute cargas de trabalho de IA/ML otimizadas com os recursos de orquestração da plataforma do Google Kubernetes Engine (GKE). Com o Google Kubernetes Engine (GKE), é possível implementar uma plataforma de IA/ML robusta e pronta para produção com todos os benefícios do Kubernetes gerenciado e os seguintes recursos:
- Orquestração de infraestrutura compatível com GPUs e TPUs para treinamento e disponibilização de cargas de trabalho em escala.
- Integração flexível com frameworks de processamento de dados e computação distribuída
- Suporte para várias equipes na mesma infraestrutura para maximizar a utilização de recursos
Recursos de documentação
Disponibilizar modelos abertos no GKE
-
NOVO!
Disponibilizar modelos de código aberto usando TPUs no GKE com o TPU Optimum
-
Tutorial
Disponibilizar o Gemma usando GPUs no GKE com o TGI do Hugging Face
-
Tutorial
Disponibilizar o Gemma usando GPUs no GKE com o vLLM
-
Tutorial
Disponibilizar o Gemma usando GPUs no GKE com o NVIDIA Triton e TensorRT-LLM
-
Tutorial
Disponibilizar o Gemma usando TPUs no GKE com o JetStream
-
Tutorial
Guia de início rápido: disponibilizar um modelo com uma única GPU no GKE Autopilot
Orquestrar TPUs e GPUs em grande escala
-
Vídeo
Introdução às Cloud TPUs para machine learning.
-
Vídeo
Crie machine learning em larga escala em Cloud TPUs com o GKE
-
Vídeo
Como exibir modelos de linguagem grandes com o KubeRay em TPUs
-
Blog
Machine learning com JAX no Kubernetes com GPUs NVIDIA
-
Blog
Crie uma plataforma de machine learning (ML) com o Kubeflow e o Ray no GKE
Otimização de custos e orquestração de jobs
-
NOVO!
Arquitetura de referência para uma plataforma de processamento em lote no GKE
-
Blog
Armazenamento de IA/ML de alto desempenho com suporte a SSD local no GKE
-
Blog
Como simplificar MLOps usando pesos e vieses com o Google Kubernetes Engine
-
Prática recomendada
Práticas recomendadas para executar cargas de trabalho em lote no GKE
-
Prática recomendada
Execute aplicativos do Kubernetes com custo otimizado no GKE
-
Prática recomendada
Melhoria do tempo de lançamento da difusão estável no GKE em quatro vezes