Nesta página, você encontra uma visão geral conceitual do Google Kubernetes Engine (GKE) para cargas de trabalho de IA/ML. O GKE é uma implementação gerenciada pelo Google da plataforma de orquestração de contêineres de código aberto do Kubernetes.
O Google Kubernetes Engine oferece uma plataforma escalonável, flexível e econômica para executar todas as suas cargas de trabalho em contêineres, incluindo aplicativos de inteligência artificial e machine learning (IA/ML). Seja para treinar grandes modelos de base, atender a solicitações de inferência em escala ou criar uma plataforma de IA abrangente, o GKE oferece o controle e o desempenho necessários.
Esta página é destinada a especialistas em dados e IA, arquitetos de nuvem, operadores e desenvolvedores que procuram uma solução escalonável, automatizada e gerenciada do Kubernetes para executar cargas de trabalho de IA/ML. Para saber mais sobre papéis comuns, consulte Tarefas e funções de usuário comuns do GKE.
Começar a usar cargas de trabalho de IA/ML no GKE
Comece a explorar o GKE em minutos usando o nível gratuito do GKE, que permite começar a usar o Kubernetes sem gerar custos de gerenciamento de clusters.
- Confira estes guias de início rápido:
- Inferência no GKE: implante um modelo de linguagem grande (LLM) de IA no GKE para inferência usando uma arquitetura predefinida.
- Treinamento no GKE: implante um modelo de treinamento de IA no GKE e armazene as previsões no Cloud Storage.
- Leia Sobre as opções de consumo de aceleradores para cargas de trabalho de IA/ML, que tem orientações e recursos para planejar e obter aceleradores (GPUs e TPUs) para sua plataforma.
Casos de uso comuns
O GKE oferece uma plataforma unificada que pode oferecer suporte a todas as suas cargas de trabalho de IA.
- Criação de uma plataforma de IA: para equipes de plataforma empresarial, o GKE oferece a flexibilidade de criar uma plataforma padronizada e multitenant que atende a diversas necessidades.
- Serviço on-line de baixa latência: para desenvolvedores que criam aplicativos de IA generativa, o GKE com o Inference Gateway oferece o roteamento e o escalonamento automático otimizados necessários para oferecer uma experiência do usuário responsiva e controlar os custos.
Escolha a plataforma certa para sua carga de trabalho de IA/ML
Google Cloud oferece um espectro de produtos de infraestrutura de IA para apoiar sua jornada de ML, desde totalmente gerenciados até totalmente configuráveis. A escolha da plataforma certa depende das suas necessidades específicas de controle, flexibilidade e nível de gerenciamento.
Escolha o GKE quando precisar de controle total, portabilidade e a capacidade de criar uma plataforma de IA personalizada e de alta performance.
- Controle e flexibilidade da infraestrutura: você precisa de um alto grau de controle sobre sua infraestrutura, usar pipelines personalizados ou fazer personalizações no nível do kernel.
- Treinamento e inferência em grande escala: você quer treinar modelos muito grandes ou disponibilizar modelos com latência mínima usando a escalonabilidade e o alto desempenho do GKE.
- Eficiência de custos em escala: você quer priorizar a otimização de custos usando a integração do GKE com VMs do Spot e VMs de início flexível para gerenciar os custos de maneira eficaz.
- Portabilidade e padrões abertos: você quer evitar a dependência de fornecedores e executar suas cargas de trabalho em qualquer lugar com o Kubernetes, e já tem experiência com o Kubernetes ou uma estratégia multicloud.
Você também pode considerar estas alternativas:
ServiçoGoogle Cloud | Ideal para |
---|---|
Vertex AI | Uma plataforma completa e totalmente gerenciada para acelerar o desenvolvimento e reduzir o gerenciamento da infraestrutura. Funciona bem para equipes focadas em MLOps e retorno rápido do investimento. Para mais informações, assista a Escolher entre o GKE autohospedado e a Vertex AI gerenciada para hospedar modelos de IA. |
Cloud Run | Uma plataforma sem servidor para cargas de trabalho de inferência em contêineres que podem ser escalonadas para zero. Funciona bem para aplicativos orientados a eventos e para disponibilizar modelos menores de maneira econômica. Para uma análise comparativa detalhada, consulte GKE e Cloud Run. |
Como o GKE melhora as cargas de trabalho de IA/ML
O GKE oferece um conjunto de componentes especializados que simplificam e aceleram cada etapa do ciclo de vida de IA/ML, desde o treinamento em grande escala até a inferência de baixa latência.
A tabela a seguir resume os recursos do GKE que oferecem suporte às suas cargas de trabalho de IA/ML ou metas operacionais.
Carga de trabalho ou operação de IA/ML | Como o GKE ajuda você | Principais recursos |
---|---|---|
Inferência e disponibilização | Otimizado para veicular modelos de IA de forma elástica, com baixa latência, alta capacidade de processamento e eficiência de custo. |
|
Treinamento e ajuste refinado | Oferece a escalonabilidade e os recursos de orquestração necessários para treinar modelos muito grandes de maneira eficiente e minimizar os custos. |
|
Desenvolvimento unificado de IA/ML | Suporte gerenciado para o Ray, um framework de código aberto para escalonar aplicativos Python distribuídos. |
|
A seguir
- Para conferir nossas extensas coleções de guias, tutoriais e outros recursos oficiais para executar cargas de trabalho de IA/ML no GKE, acesse o portal de orquestração de IA/ML no GKE.
- Conheça técnicas para conseguir aceleradores de computação, como GPUs ou TPUs, para suas cargas de trabalho de IA/ML no GKE.
- Saiba mais sobre a inferência de modelos de IA/ML no GKE.
- Saiba mais sobre o Ray no GKE.
- Confira exemplos experimentais de como usar o GKE para acelerar suas iniciativas de IA/ML no GKE AI Labs.