Comece a usar a inferência do modelo de IA com as capacidades de IA gen do GKE!

Esta página foi traduzida pela API Cloud Translation.

Orquestração de IA/ML na documentação do GKE

Execute cargas de trabalho de IA/ML otimizadas com as capacidades de orquestração da plataforma do Google Kubernetes Engine (GKE). Com o Google Kubernetes Engine (GKE), pode implementar uma plataforma de IA/AA robusta e pronta para produção com todas as vantagens do Kubernetes gerido e estas capacidades:

Orquestração de infraestrutura que suporta GPUs e TPUs para cargas de trabalho de preparação e fornecimento em grande escala.
Integração flexível com frameworks de computação distribuída e processamento de dados.
Suporte para várias equipas na mesma infraestrutura para maximizar a utilização de recursos

Esta página oferece uma vista geral das capacidades de IA/AM do GKE e como começar a executar cargas de trabalho de IA/AM otimizadas no GKE com GPUs, TPUs e estruturas como Hugging Face TGI, vLLM e JetStream.

Comece gratuitamente

Inicie a sua prova de conceito com 300 USD de crédito grátis

Aceda ao Gemini 2.0 Flash Thinking
Utilização mensal gratuita de produtos populares, incluindo APIs de IA e o BigQuery
Sem cobranças automáticas nem compromissos

Veja ofertas de produtos gratuitos

Continue a explorar com mais de 20 produtos sempre gratuitos

Aceda a mais de 20 produtos gratuitos para exemplos de utilização comuns, incluindo APIs de IA, VMs, armazéns de dados e muito mais.

Recursos de documentação

Encontre inícios rápidos e guias, reveja referências importantes e receba ajuda com problemas comuns.

Publique modelos abertos com as capacidades de IA gen do GKE

Organize TPUs e GPUs em grande escala

Otimização de custos e orquestração de tarefas

Tutorial
Publique MDIs no GKE com uma estratégia de aprovisionamento de GPUs de custo otimizado e elevada disponibilidade
Prática recomendada
Arquitetura de referência para uma plataforma de processamento em lote no GKE
Prática recomendada
Otimize a obtenção da GPU com o modo de aprovisionamento de início flexível
Blogue
Armazenamento de IA/ML de alto desempenho através do suporte de SSD local no GKE
Blogue
Simplificar o MLOps com o Weights & Biases e o Google Kubernetes Engine
Prática recomendada
Práticas recomendadas para executar cargas de trabalho em lote no GKE
Prática recomendada
Execute aplicações Kubernetes otimizadas em função dos custos no GKE
Prática recomendada
Melhorar o tempo de lançamento do Stable Diffusion no GKE 4 vezes

Comece a usar a inferência do modelo de IA com as capacidades de IA gen do GKE!

Orquestração de IA/ML na documentação do GKE

Inicie a sua prova de conceito com 300 USD de crédito grátis

Continue a explorar com mais de 20 produtos sempre gratuitos

Publique modelos abertos com as capacidades de IA gen do GKE

Organize TPUs e GPUs em grande escala

Otimização de custos e orquestração de tarefas

Implemente uma aplicação de IA baseada em agentes no GKE com o Agent Development Kit (ADK) e a Vertex AI

Publique modelos de código aberto com TPUs no GKE com o Optimum TPU

Crie e use um volume suportado por uma instância do Parallelstore no GKE

Acelere o carregamento de dados de IA/ML com o Hyperdisk ML

Publique um LLM com TPUs no GKE com o JetStream e o PyTorch

Práticas recomendadas para otimizar a inferência de LLMs com GPUs no GKE

Faça a gestão da pilha de GPUs com o operador de GPUs da NVIDIA no GKE

Configure a escala automática para cargas de trabalho de MDIs em TPUs

Ajuste os modelos abertos Gemma com várias GPUs no GKE

Implemente uma aplicação Ray Serve com um modelo Stable Diffusion no GKE com TPUs

Configure a escala automática para cargas de trabalho de MDIs em GPUs com o GKE

Forme o Llama2 com o Megatron-LM em máquinas virtuais A3 Mega

Implemente cargas de trabalho de GPU no Autopilot

Implemente um MDG com várias GPUs no GKE

Começar a usar o Ray no GKE

Publique um MDG em GPUs L4 com o Ray

Orquestre cargas de trabalho de vários fragmentos de TPU com o JobSet e o Kueue

Monitorização de cargas de trabalho de GPU no GKE com o NVIDIA Data Center GPU Manager (DCGM)

Início rápido: prepare um modelo com GPUs em clusters padrão do GKE

Executar aprendizagem automática em grande escala no GKE

TensorFlow no GKE Autopilot com aceleração de GPU

Implemente um sistema de filas de tarefas com partilha de quotas entre espaços de nomes no GKE

Crie um chatbot RAG com o GKE e o Cloud Storage

Analise dados no GKE com o BigQuery, o Cloud Run e o Gemma

Pré-processamento de dados distribuído com o GKE e o Ray: escalabilidade para a empresa

Práticas recomendadas de carregamento de dados para inferência de IA/ML no GKE

Poupe em GPUs: escala automática mais inteligente para as suas cargas de trabalho de inferência do GKE

Forneça de forma eficiente modelos de IA otimizados com microsserviços NVIDIA NIM no GKE

Acelere o Ray na produção com o novo operador do Ray no GKE

Maximize o débito da publicação de MDIs para GPUs no GKE: um guia prático

Motores de pesquisa simplificados: uma abordagem de pouco código com o GKE e o Vertex AI Agent Builder

A LiveX AI reduz os custos do apoio ao cliente com agentes de IA preparados e fornecidos no GKE e na IA da NVIDIA

Infraestrutura para uma aplicação de IA generativa com capacidade de RAG que usa o GKE e o Cloud SQL

Inovar na pesquisa de patentes: como a IPRally tira partido da IA com o GKE e o Ray

Análise detalhada do desempenho do Gemma no Google Cloud

Análise detalhada do Gemma no GKE: novas inovações para disponibilizar modelos de IA generativa abertos

Agendamento avançado para IA/ML com o Ray e o Kueue

Como proteger o Ray no Google Kubernetes Engine

Crie armazenamento para cargas de trabalho de IA e ML no Google Cloud

A instalação automática de controladores simplifica a utilização de GPUs NVIDIA no GKE

Acelere o seu percurso de IA generativa com a framework NVIDIA NeMo no GKEE

Por que motivo deve usar o GKE para as suas cargas de trabalho de IA do Ray?

Executar IA no GKE totalmente gerido, agora com novas opções de computação, preços e reservas de recursos

Como a SEEN aumentou a produção 89 vezes e reduziu os custos da GPU em 66% com o GKE

Como o Spotify está a libertar a inovação de ML com o Ray e o GKE

Como a Ordaōs Bio tira partido da IA generativa no GKE

GKE de uma startup em crescimento com tecnologia de ML

Exemplos do Google Kubernetes Engine (GKE)

Exemplos do GKE AI Labs

GKE Accelerated Platforms

Vídeos relacionados