Documentación sobre la orquestación de IA y aprendizaje automático en GKE

Ejecuta cargas de trabajo de IA y aprendizaje automático optimizadas con las funciones de orquestación de la plataforma Google Kubernetes Engine (GKE). Con Google Kubernetes Engine (GKE), puedes implementar una plataforma de IA o de aprendizaje automático estable y lista para producción con todas las ventajas de Kubernetes gestionado y estas funciones:

  • Orquestación de infraestructuras que admiten GPUs y TPUs para entrenar y servir cargas de trabajo a escala.
  • Integración flexible con frameworks de computación distribuida y tratamiento de datos.
  • Asistencia a varios equipos dentro de la misma infraestructura para maximizar el uso de recursos
En esta página se ofrece una descripción general de las funciones de IA y aprendizaje automático de GKE, así como información sobre cómo empezar a ejecutar cargas de trabajo de IA y aprendizaje automático optimizadas en GKE con GPUs, TPUs y frameworks como Hugging Face TGI, vLLM y JetStream.
  • Acceder a Gemini 2.0 Flash Thinking
  • Uso mensual gratuito de productos populares, como las APIs de IA y BigQuery
  • Sin cargos automáticos ni permanencia

Sigue explorando con más de 20 productos Always Free

Accede a más de 20 productos gratuitos para casos prácticos habituales, como APIs de IA, máquinas virtuales, almacenes de datos y más.

Recursos de documentación

Encuentra guías de inicio rápido y manuales, revisa las referencias clave y obtén ayuda con problemas habituales.
Descubre formación a tu ritmo, casos prácticos, arquitecturas de referencia y ejemplos de código sobre cómo usar y conectar Google Cloud servicios.
Formación
Formación y tutoriales

Aprende a desplegar y gestionar una aplicación de IA de agente en contenedores en GKE con Agent Development Kit (ADK) y Vertex AI para realizar inferencias escalables con Gemini 2.0 Flash.

Tutorial Inferencia de IA/ML IA de agente

Formación
Formación y tutoriales

Aprende a desplegar LLMs mediante unidades de procesamiento de tensor (TPUs) en GKE con el framework de servicio Optimum TPU de Hugging Face.

Tutorial Inferencia de IA/ML TPU

Formación
Formación y tutoriales

Aprende a crear almacenamiento respaldado por instancias de Parallelstore totalmente gestionadas y a acceder a ellas como volúmenes. El controlador de CSI está optimizado para cargas de trabajo de entrenamiento de IA o de aprendizaje automático que implican archivos de menor tamaño y lecturas aleatorias.

Tutorial Carga de datos de IA/ML

Formación
Formación y tutoriales

Descubre cómo simplificar y acelerar la carga de pesos de modelos de IA y aprendizaje automático en GKE con Hyperdisk ML.

Tutorial Carga de datos de IA/ML

Formación
Formación y tutoriales

Aprende a servir un LLM mediante unidades de procesamiento de tensor (TPUs) en GKE con JetStream a través de PyTorch.

Tutorial Inferencia de IA/ML TPUs

Formación
Formación y tutoriales

Descubre las prácticas recomendadas para optimizar el rendimiento de la inferencia de LLMs con GPUs en GKE mediante los frameworks de servicio vLLM y Text Generation Inference (TGI).

Tutorial Inferencia de IA/ML GPUs

Formación
Formación y tutoriales

Descubre cuándo usar el operador de GPU NVIDIA y cómo habilitarlo en GKE.

Tutorial GPUs

Formación
Formación y tutoriales

Aprende a configurar tu infraestructura de autoescalado usando el autoescalador horizontal de pods (HPA) de GKE para desplegar el modelo LLM de Gemma con JetStream de un solo host.

Tutorial TPUs

Formación
Formación y tutoriales

Aprende a afinar el LLM Gemma con GPUs en GKE mediante la biblioteca Transformers de Hugging Face.

Tutorial Inferencia de IA/ML GPUs

Formación
Formación y tutoriales

Aprende a desplegar y servir un modelo de Stable Diffusion en GKE con TPUs, Ray Serve y el complemento Ray Operator.

Tutorial Inferencia de IA/AA Ray TPUs

Formación
Formación y tutoriales

Aprende a configurar tu infraestructura de autoescalado usando el autoescalador horizontal de pods (HPA) de GKE para desplegar el LLM Gemma con el framework de servicio de la interfaz de generación de texto (TGI) de Hugging Face.

Tutorial GPUs

Formación
Formación y tutoriales

Consulta cómo ejecutar una carga de trabajo de PyTorch de Megatron-LM basada en contenedores en A3 Mega.

Tutorial Entrenamiento de IA o AA GPUs

Formación
Formación y tutoriales

Descubre cómo solicitar aceleradores por hardware (GPUs) en tus cargas de trabajo de Autopilot de GKE.

Tutorial GPUs

Formación
Formación y tutoriales

Aprende a servir Llama 2 70B o Falcon 40B usando varias GPUs NVIDIA L4 con GKE.

Tutorial Inferencia de IA/ML GPUs

Formación
Formación y tutoriales

Descubre cómo empezar a usar Ray en GKE fácilmente ejecutando una carga de trabajo en un clúster de Ray.

Tutorial Ray

Formación
Formación y tutoriales

Aprende a servir Falcon 7b, Llama2 7b, Falcon 40b o Llama2 70b con el framework Ray en GKE.

Tutorial Inferencia de IA/ML Ray GPUs

Formación
Formación y tutoriales

Aprende a orquestar una carga de trabajo de Jax en varios sectores de TPU en GKE mediante JobSet y Kueue.

Tutorial TPUs

Formación
Formación y tutoriales

Consulta cómo monitorizar cargas de trabajo de GPU en GKE con NVIDIA Data Center GPU Manager (DCGM).

Tutorial Observabilidad basada en IA y aprendizaje automático GPUs

Formación
Formación y tutoriales

En esta guía de inicio rápido se muestra cómo desplegar un modelo de entrenamiento con GPUs en GKE y almacenar las predicciones en Cloud Storage.

Tutorial Entrenamiento de IA o AA GPUs

Formación
Formación y tutoriales

En este vídeo se muestra cómo ayuda GKE a resolver los problemas habituales del entrenamiento de modelos de IA grandes a gran escala y las prácticas recomendadas para entrenar y servir modelos de aprendizaje automático a gran escala en GKE.

Vídeo Entrenamiento de IA/ML Inferencia de IA/ML

Formación
Formación y tutoriales

En esta entrada de blog se explica paso a paso cómo crear, ejecutar y eliminar un cuaderno de Jupiter habilitado para TensorFlow.

Blog Entrenamiento de IA/ML Inferencia de IA/ML GPUs

Formación
Formación y tutoriales

En este tutorial se usa Kueue para mostrarte cómo implementar un sistema de colas de trabajos y configurar el uso compartido de recursos y cuotas de cargas de trabajo entre diferentes espacios de nombres en GKE.

Tutorial Lote de IA o AA

Formación
Formación y tutoriales

En este tutorial se explica cómo integrar una aplicación de modelo de lenguaje extenso basada en la generación aumentada por recuperación con archivos PDF que subas a un segmento de Cloud Storage.

Tutorial Carga de datos de IA/ML

Formación
Formación y tutoriales

En este tutorial se muestra cómo analizar grandes conjuntos de datos en GKE aprovechando BigQuery para el almacenamiento y el procesamiento de datos, Cloud Run para la gestión de solicitudes y un LLM de Gemma para el análisis de datos y las predicciones.

Tutorial Carga de datos de IA/ML

Uso
Casos prácticos

Descubre cómo aprovechar GKE y Ray para preprocesar de forma eficiente grandes conjuntos de datos para el aprendizaje automático.

MLOps Entrenamiento Ray

Uso
Casos prácticos

Descubre cómo acelerar los tiempos de carga de datos de tus aplicaciones de aprendizaje automático en Google Kubernetes Engine.

Inferencia Hyperdisk ML Cloud Storage FUSE

Uso
Casos prácticos

Descubre cómo optimizar los costes de inferencia de la GPU ajustando el escalado automático horizontal de pods de GKE para conseguir la máxima eficiencia.

Inferencia GPU HPA

Uso
Casos prácticos

Descubre cómo desplegar microservicios de NVIDIA NIM de vanguardia en GKE fácilmente y acelerar tus cargas de trabajo de IA.

IA NVIDIA NIM

Uso
Casos prácticos

Descubre cómo Ray Operator en GKE simplifica tus implementaciones de producción de IA y aprendizaje automático, lo que mejora el rendimiento y la escalabilidad.

IA TPU Ray

Uso
Casos prácticos

Descubre cómo maximizar el rendimiento del servicio de modelos de lenguaje extensos (LLMs) para GPUs en GKE, incluidas las decisiones de infraestructura y las optimizaciones del servidor de modelos.

LLM GPU NVIDIA

Uso
Casos prácticos

Cómo crear un buscador con Google Cloud usando Vertex AI Agent Builder, Vertex AI Search y GKE.

Búsqueda Agente Vertex AI

Uso
Casos prácticos

Cómo usa LiveX AI GKE para crear agentes de IA que mejoran la satisfacción de los clientes y reducen los costes.

IA generativa NVIDIA GPU

Uso
Casos prácticos

Arquitectura de referencia para ejecutar una aplicación de IA generativa con generación aumentada por recuperación (RAG) mediante GKE, Cloud SQL, Ray, Hugging Face y LangChain.

IA generativa RAG Ray

Uso
Casos prácticos

Cómo usa IPRally GKE y Ray para crear una plataforma de aprendizaje automático escalable y eficiente que permita realizar búsquedas de patentes más rápidas y precisas.

IA Ray GPU

Uso
Casos prácticos

Aprovecha Gemma en las GPUs y las TPUs de Cloud para mejorar la eficiencia de la inferencia y el entrenamiento en GKE.

IA Gemma Rendimiento

Uso
Casos prácticos

Usa los mejores modelos abiertos de Gemma para crear aplicaciones de IA portátiles y personalizables, y despliégalas en GKE.

IA Gemma Rendimiento

Uso
Casos prácticos

Orquesta aplicaciones de Ray en GKE con KubeRay y Kueue.

Kueue Ray KubeRay

Uso
Casos prácticos

Aplica estadísticas de seguridad y técnicas de protección para entrenar cargas de trabajo de IA y aprendizaje automático con Ray en GKE.

IA Ray Seguridad

Uso
Casos prácticos

Selecciona la mejor combinación de opciones de almacenamiento para cargas de trabajo de IA y aprendizaje automático en Google Cloud.

IA Aprendizaje automático Almacenamiento

Uso
Casos prácticos

Instala automáticamente los controladores de GPU Nvidia en GKE.

GPU NVIDIA Instalación

Uso
Casos prácticos

Entrena modelos de IA generativa con GKE y el framework NVIDIA NeMo.

IA generativa NVIDIA NeMo

Uso
Casos prácticos

Mejora la escalabilidad, la rentabilidad, la tolerancia a fallos, el aislamiento y la portabilidad usando GKE para las cargas de trabajo de Ray.

IA Ray Escala

Uso
Casos prácticos

Mejora la compatibilidad con GPUs, el rendimiento y los precios de las cargas de trabajo de IA y aprendizaje automático con Autopilot de GKE.

GPU Autopilot Rendimiento

Uso
Casos prácticos

Una startup escala la salida de vídeo personalizada con GKE.

GPU Escala Contenedores

Uso
Casos prácticos

Cómo está transformando Ray el desarrollo de aprendizaje automático en Spotify.

Aprendizaje automático Ray Contenedores

Uso
Casos prácticos

Ordaōs Bio, una de las principales aceleradoras de IA para la investigación y el descubrimiento biomédicos, está encontrando soluciones para nuevas inmunoterapias en oncología y enfermedades inflamatorias crónicas.

Rendimiento TPU Optimización de costes

Uso
Casos prácticos

Descubre cómo Moloco, una startup de Silicon Valley, aprovechó la potencia de GKE y TensorFlow Enterprise para optimizar su infraestructura de aprendizaje automático (ML).

Aprendizaje automático Escalabilidad Optimización de costes

Ejemplo de código
Códigos de ejemplo

Consulta las aplicaciones de ejemplo que se usan en los tutoriales oficiales de productos de GKE.

Ejemplo de código
Códigos de ejemplo

Consulta ejemplos experimentales para aprovechar GKE y acelerar tus iniciativas de IA y aprendizaje automático.

Ejemplo de código
Códigos de ejemplo

Consulta arquitecturas de referencia y soluciones para desplegar cargas de trabajo aceleradas en GKE.

Vídeos relacionados