Orquestração de IA/ML na documentação do GKE
Execute cargas de trabalho de IA/ML otimizadas com as capacidades de orquestração da plataforma do Google Kubernetes Engine (GKE). Com o Google Kubernetes Engine (GKE), pode implementar uma plataforma de IA/AA robusta e pronta para produção com todas as vantagens do Kubernetes gerido e estas capacidades:
- Orquestração de infraestrutura que suporta GPUs e TPUs para cargas de trabalho de preparação e fornecimento em grande escala.
- Integração flexível com frameworks de computação distribuída e processamento de dados.
- Suporte para várias equipas na mesma infraestrutura para maximizar a utilização de recursos
Inicie a sua prova de conceito com 300 USD de crédito grátis
- Aceda ao Gemini 2.0 Flash Thinking
- Utilização mensal gratuita de produtos populares, incluindo APIs de IA e o BigQuery
- Sem cobranças automáticas nem compromissos
Continue a explorar com mais de 20 produtos sempre gratuitos
Aceda a mais de 20 produtos gratuitos para exemplos de utilização comuns, incluindo APIs de IA, VMs, armazéns de dados e muito mais.
Recursos de documentação
Publique modelos abertos com as capacidades de IA gen do GKE
- Novo!
- Novo!
- Novo!
- Tutorial!
- Tutorial
- Tutorial
- Tutorial
Organize TPUs e GPUs em grande escala
- Novo!
- Novo!
- Novo!
- Vídeo
- Vídeo
- Vídeo
- Blogue
Otimização de custos e orquestração de tarefas
- Tutorial
- Prática recomendada
- Prática recomendada
- Blogue
- Blogue
- Prática recomendada
- Prática recomendada
- Prática recomendada
Recursos relacionados
Implemente uma aplicação de IA baseada em agentes no GKE com o Agent Development Kit (ADK) e a Vertex AI
Saiba como implementar e gerir uma aplicação de IA baseada em agentes contentorizada no GKE, usando o Agent Development Kit (ADK) e a Vertex AI para inferência escalável com o Gemini 2.0 Flash.
Publique modelos de código aberto com TPUs no GKE com o Optimum TPU
Saiba como implementar MDIs com Tensor Processing Units (TPUs) no GKE com a estrutura de fornecimento de TPUs Optimum da Hugging Face.
Crie e use um volume suportado por uma instância do Parallelstore no GKE
Saiba como criar armazenamento suportado por instâncias do Parallelstore totalmente geridas e aceder a elas como volumes. O controlador CSI está otimizado para cargas de trabalho de preparação de IA/ML que envolvem tamanhos de ficheiros mais pequenos e leituras aleatórias.
Acelere o carregamento de dados de IA/ML com o Hyperdisk ML
Saiba como simplificar e acelerar o carregamento de ponderações de modelos de IA/AA no GKE com o Hyperdisk ML.
Publique um LLM com TPUs no GKE com o JetStream e o PyTorch
Saiba como publicar um MDG com unidades de processamento tensor (TPUs) no GKE com o JetStream através do PyTorch.
Práticas recomendadas para otimizar a inferência de LLMs com GPUs no GKE
Conheça as práticas recomendadas para otimizar o desempenho da inferência de MDIs com GPUs no GKE através das estruturas de fornecimento vLLM e Text Generation Inference (TGI).
Faça a gestão da pilha de GPUs com o operador de GPUs da NVIDIA no GKE
Saiba quando usar o operador de GPU da NVIDIA e como ativar o operador de GPU da NVIDIA no GKE.
Configure a escala automática para cargas de trabalho de MDIs em TPUs
Saiba como configurar a sua infraestrutura de escalamento automático através do GKE Horizontal Pod Autoscaler (HPA) para implementar o LLM Gemma com o JetStream de anfitrião único.
Ajuste os modelos abertos Gemma com várias GPUs no GKE
Saiba como otimizar o MDG Gemma com GPUs no GKE com a biblioteca Hugging Face Transformers.
Implemente uma aplicação Ray Serve com um modelo Stable Diffusion no GKE com TPUs
Saiba como implementar e publicar um modelo do Stable Diffusion no GKE através de TPUs, do Ray Serve e do suplemento do operador do Ray.
Configure a escala automática para cargas de trabalho de MDIs em GPUs com o GKE
Saiba como configurar a sua infraestrutura de dimensionamento automático através do GKE Horizontal Pod Autoscaler (HPA) para implementar o LLM Gemma com a framework de serviço da Hugging Face Text Generation Interface (TGI).
Forme o Llama2 com o Megatron-LM em máquinas virtuais A3 Mega
Saiba como executar uma carga de trabalho do PyTorch baseada em contentores do Megatron-LM no A3 Mega.
Implemente cargas de trabalho de GPU no Autopilot
Saiba como pedir aceleradores de hardware (GPUs) nas suas cargas de trabalho do GKE Autopilot.
Implemente um MDG com várias GPUs no GKE
Saiba como publicar o Llama 2 70B ou o Falcon 40B com várias GPUs NVIDIA L4 com o GKE.
Começar a usar o Ray no GKE
Saiba como começar a usar facilmente o Ray no GKE executando uma carga de trabalho num cluster do Ray.
Publique um MDG em GPUs L4 com o Ray
Saiba como publicar o Falcon 7b, o Llama2 7b, o Falcon 40b ou o Llama2 70b através da framework Ray no GKE.
Orquestre cargas de trabalho de vários fragmentos de TPU com o JobSet e o Kueue
Saiba como orquestrar uma carga de trabalho Jax em várias fatias de TPU no GKE usando o JobSet e o Kueue.
Monitorização de cargas de trabalho de GPU no GKE com o NVIDIA Data Center GPU Manager (DCGM)
Saiba como observar cargas de trabalho de GPU no GKE com o NVIDIA Data Center GPU Manager (DCGM).
Início rápido: prepare um modelo com GPUs em clusters padrão do GKE
Este início rápido mostra como implementar um modelo de preparação com GPUs no GKE e armazenar as previsões no Cloud Storage.
Executar aprendizagem automática em grande escala no GKE
Este vídeo mostra como o GKE ajuda a resolver desafios comuns da preparação de grandes modelos de IA em grande escala, bem como as práticas recomendadas para preparar e publicar modelos de aprendizagem automática em grande escala no GKE.
TensorFlow no GKE Autopilot com aceleração de GPU
Esta publicação no blogue é um guia passo a passo para a criação, a execução e a desativação de um bloco de notas do Jupiter com o TensorFlow ativado.
Implemente um sistema de filas de tarefas com partilha de quotas entre espaços de nomes no GKE
Este tutorial usa o Kueue para mostrar como implementar um sistema de colocação em fila de tarefas e configurar a partilha de recursos e quotas de cargas de trabalho entre diferentes espaços de nomes no GKE.
Crie um chatbot RAG com o GKE e o Cloud Storage
Este tutorial mostra como integrar uma aplicação de modelo de linguagem grande baseada na geração aumentada de obtenção com ficheiros PDF que carrega para um contentor do Cloud Storage.
Analise dados no GKE com o BigQuery, o Cloud Run e o Gemma
Este tutorial mostra-lhe como analisar grandes conjuntos de dados no GKE tirando partido do BigQuery para o armazenamento e o processamento de dados, do Cloud Run para o processamento de pedidos e de um MDG Gemma para a análise de dados e as previsões.
Pré-processamento de dados distribuído com o GKE e o Ray: escalabilidade para a empresa
Saiba como tirar partido do GKE e do Ray para pré-processar de forma eficiente grandes conjuntos de dados para aprendizagem automática.
Práticas recomendadas de carregamento de dados para inferência de IA/ML no GKE
Saiba como acelerar os tempos de carregamento de dados para as suas aplicações de aprendizagem automática no Google Kubernetes Engine.
Poupe em GPUs: escala automática mais inteligente para as suas cargas de trabalho de inferência do GKE
Saiba como otimizar os custos de inferência da GPU ajustando o Horizontal Pod Autoscaler do GKE para máxima eficiência.
Forneça de forma eficiente modelos de IA otimizados com microsserviços NVIDIA NIM no GKE
Saiba como implementar microsserviços NVIDIA NIM no GKE com facilidade e acelerar as suas cargas de trabalho de IA.
Acelere o Ray na produção com o novo operador do Ray no GKE
Saiba como o operador Ray no GKE simplifica as implementações de produção de IA/ML, aumentando o desempenho e a escalabilidade.
Maximize o débito da publicação de MDIs para GPUs no GKE: um guia prático
Saiba como maximizar o débito de fornecimento de grandes modelos de linguagem (GMLs) para GPUs no GKE, incluindo decisões de infraestrutura e otimizações do servidor de modelos.
Motores de pesquisa simplificados: uma abordagem de pouco código com o GKE e o Vertex AI Agent Builder
Como criar um motor de pesquisa com o Google Cloud, usando o Vertex AI Agent Builder, o Vertex AI Search e o GKE.
A LiveX AI reduz os custos do apoio ao cliente com agentes de IA preparados e fornecidos no GKE e na IA da NVIDIA
Como a LiveX AI usa o GKE para criar agentes de IA que melhoram a satisfação do cliente e reduzem os custos.
Infraestrutura para uma aplicação de IA generativa com capacidade de RAG que usa o GKE e o Cloud SQL
Arquitetura de referência para executar uma aplicação de IA generativa com geração aumentada por recuperação (RAG) usando o GKE, o Cloud SQL, o Ray, o Hugging Face e o LangChain.
Inovar na pesquisa de patentes: como a IPRally tira partido da IA com o GKE e o Ray
Como a IPRally usa o GKE e o Ray para criar uma plataforma de AA escalável e eficiente para pesquisas de patentes mais rápidas com melhor precisão.
Análise detalhada do desempenho do Gemma no Google Cloud
Tire partido do Gemma nas Cloud GPUs e Cloud TPUs para inferência e eficiência de preparação no GKE.
Análise detalhada do Gemma no GKE: novas inovações para disponibilizar modelos de IA generativa abertos
Use os melhores modelos abertos Gemma para criar aplicações de IA portáteis e personalizáveis, e implementá-las no GKE.
Agendamento avançado para IA/ML com o Ray e o Kueue
Orquestre aplicações Ray no GKE com o KubeRay e o Kueue.
Como proteger o Ray no Google Kubernetes Engine
Aplique estatísticas de segurança e técnicas de reforço para preparar cargas de trabalho de IA/AA com o Ray no GKE.
Crie armazenamento para cargas de trabalho de IA e ML no Google Cloud
Selecione a melhor combinação de opções de armazenamento para cargas de trabalho de IA e ML no Google Cloud.
A instalação automática de controladores simplifica a utilização de GPUs NVIDIA no GKE
Instale automaticamente os controladores de GPU Nvidia no GKE.
Acelere o seu percurso de IA generativa com a framework NVIDIA NeMo no GKEE
Prepare modelos de IA generativa com o GKE e a framework NVIDIA NeMo.
Por que motivo deve usar o GKE para as suas cargas de trabalho de IA do Ray?
Melhore a escalabilidade, a rentabilidade, a tolerância a falhas, o isolamento e a portabilidade usando o GKE para cargas de trabalho do Ray.
Executar IA no GKE totalmente gerido, agora com novas opções de computação, preços e reservas de recursos
Obtenha um suporte de GPU melhorado, um desempenho superior e preços mais baixos para cargas de trabalho de IA/ML com o GKE Autopilot.
Como a SEEN aumentou a produção 89 vezes e reduziu os custos da GPU em 66% com o GKE
A startup dimensiona a saída de vídeo personalizada com o GKE.
Como o Spotify está a libertar a inovação de ML com o Ray e o GKE
Como o Ray está a transformar o desenvolvimento de ML no Spotify.
Como a Ordaōs Bio tira partido da IA generativa no GKE
A Ordaōs Bio, um dos principais aceleradores de IA para investigação e descoberta biomédica, está a encontrar soluções para novas imunoterapias em oncologia e doenças inflamatórias crónicas.
GKE de uma startup em crescimento com tecnologia de ML
Como a Moloco, uma startup do Vale do Silício, aproveitou o poder do GKE e do Tensor Flow Enterprise para otimizar a sua infraestrutura de aprendizagem automática (ML).
Exemplos do Google Kubernetes Engine (GKE)
Veja exemplos de aplicações usadas nos tutoriais oficiais do produto GKE.
Exemplos do GKE AI Labs
Veja exemplos experimentais para tirar partido do GKE e acelerar as suas iniciativas de IA/ML.
GKE Accelerated Platforms
Veja arquiteturas de referência e soluções para implementar cargas de trabalho aceleradas no GKE.