Esta página oferece uma vista geral conceptual do Google Kubernetes Engine (GKE) para cargas de trabalho de IA/ML. O GKE é uma implementação gerida pela Google da plataforma de orquestração de contentores de código aberto Kubernetes.
O Google Kubernetes Engine oferece uma plataforma escalável, flexível e económica para executar todas as suas cargas de trabalho contentorizadas, incluindo aplicações de inteligência artificial e aprendizagem automática (IA/AA). Quer esteja a preparar modelos de base grandes, a publicar pedidos de inferência em grande escala ou a criar uma plataforma de IA abrangente, o GKE oferece o controlo e o desempenho de que precisa.
Esta página destina-se a especialistas em dados e IA, arquitetos da nuvem, operadores e programadores que procuram uma solução Kubernetes escalável, automatizada e gerida para executar cargas de trabalho de IA/ML. Para saber mais sobre as funções comuns, consulte o artigo Funções e tarefas comuns do utilizador do GKE.
Comece a usar cargas de trabalho de IA/ML no GKE
Pode começar a explorar o GKE em minutos através do nível gratuito do GKE, que lhe permite começar a usar o Kubernetes sem incorrer em custos de gestão de clusters.
- Experimente estes inícios rápidos:
- Inferência no GKE: implemente um modelo de linguagem (conteúdo extenso) (MDI/CE) de IA no GKE para inferência através de uma arquitetura predefinida.
- Preparação no GKE: implemente um modelo de preparação de IA no GKE e armazene as previsões no Cloud Storage.
- Leia o artigo Acerca das opções de consumo de aceleradores para cargas de trabalho de IA/ML, que contém orientações e recursos para planear e obter aceleradores (GPUs e TPUs) para a sua plataforma.
Exemplos de utilização comuns
O GKE oferece uma plataforma unificada que pode suportar todas as suas cargas de trabalho de IA.
- Criar uma plataforma de IA: para equipas de plataformas empresariais, o GKE oferece a flexibilidade para criar uma plataforma multiinquilino padronizada que satisfaça diversas necessidades.
- Serviço online de baixa latência: para os programadores que criam aplicações de IA generativa, o GKE com o Inference Gateway oferece o encaminhamento otimizado e o dimensionamento automático necessários para oferecer uma experiência do utilizador rápida e dinâmica, ao mesmo tempo que controla os custos.
Escolha a plataforma certa para a sua carga de trabalho de IA/AM
Google Cloud oferece um espetro de produtos de infraestrutura de IA para apoiar o seu percurso de ML, desde totalmente geridos a totalmente configuráveis. A escolha da plataforma certa depende das suas necessidades específicas de controlo, flexibilidade e nível de gestão.
Escolha o GKE quando precisar de controlo detalhado, portabilidade e a capacidade de criar uma plataforma de IA personalizada de alto desempenho.
- Flexibilidade e controlo da infraestrutura: precisa de um elevado grau de controlo sobre a sua infraestrutura, usar pipelines personalizados ou necessita de personalizações ao nível do kernel.
- Preparação e inferência em grande escala: quer preparar modelos muito grandes ou publicar modelos com latência mínima, usando a escalabilidade e o alto desempenho do GKE.
- Rentabilidade em grande escala: quer dar prioridade à otimização de custos usando a integração do GKE com VMs de anúncios de TV e VMs de início flexível para gerir os custos de forma eficaz.
- Portabilidade e normas abertas: quer evitar a dependência de fornecedores e executar as suas cargas de trabalho em qualquer lugar com o Kubernetes, e já tem experiência no Kubernetes ou uma estratégia de várias nuvens.
Também pode considerar estas alternativas:
Google Cloud serviço | Ideal para |
---|---|
Vertex AI | Uma plataforma ponto a ponto totalmente gerida para acelerar o desenvolvimento e descarregar a gestão da infraestrutura. Funciona bem para equipas focadas em MLOps e tempo de rentabilização rápido. Para mais informações, veja o vídeo Escolher entre o GKE autoalojado e o Vertex AI gerido para alojar modelos de IA. |
Cloud Run | Uma plataforma sem servidor para cargas de trabalho de inferência contentorizadas que podem ser dimensionadas para zero. Funciona bem para aplicações orientadas por eventos e para publicar modelos mais pequenos de forma rentável. Para uma análise detalhada comparativa, consulte o artigo GKE e Cloud Run. |
Como o GKE alimenta as cargas de trabalho de IA/ML
O GKE oferece um conjunto de componentes especializados que simplificam e aceleram cada fase do ciclo de vida da IA/ML, desde a preparação em grande escala à inferência de baixa latência.
A tabela seguinte resume as funcionalidades do GKE que suportam as suas cargas de trabalho de IA/ML ou objetivos operacionais.
Operação ou carga de trabalho de IA/AA | Como o GKE lhe presta apoio técnico | Funcionalidades principais |
---|---|---|
Inferência e publicação | Otimizado para publicar modelos de IA de forma elástica, com baixa latência, elevado débito e rentabilidade. |
|
Formação e ajuste preciso | Oferece as capacidades de escala e organização necessárias para formar de forma eficiente modelos muito grandes, ao mesmo tempo que minimiza os custos. |
|
Desenvolvimento unificado de IA/ML | Apoio técnico gerido para o Ray, uma framework de código aberto para dimensionar aplicações Python distribuídas. |
|
O que se segue?
- Para explorar as nossas extensas coleções de guias oficiais, tutoriais e outros recursos para executar cargas de trabalho de IA/ML no GKE, visite o portal de orquestração de IA/ML no GKE.
- Saiba mais sobre as técnicas para obter aceleradores de computação, como GPUs ou TPUs, para as suas cargas de trabalho de IA/ML no GKE.
- Saiba mais sobre a inferência do modelo de IA/AM no GKE.
- Saiba mais sobre o Ray no GKE.
- Explore exemplos experimentais para tirar partido do GKE e acelerar as suas iniciativas de IA/ML no GKE AI Labs.