Documentación sobre la orquestación de IA y aprendizaje automático en GKE
Ejecuta cargas de trabajo de IA y aprendizaje automático optimizadas con las funciones de orquestación de la plataforma Google Kubernetes Engine (GKE). Con Google Kubernetes Engine (GKE), puedes implementar una plataforma de IA o de aprendizaje automático estable y lista para producción con todas las ventajas de Kubernetes gestionado y estas funciones:
- Orquestación de infraestructuras que admiten GPUs y TPUs para entrenar y servir cargas de trabajo a escala.
- Integración flexible con frameworks de computación distribuida y tratamiento de datos.
- Asistencia a varios equipos dentro de la misma infraestructura para maximizar el uso de recursos
Empieza tu prueba de concepto con 300 USD en crédito gratis
- Acceder a Gemini 2.0 Flash Thinking
- Uso mensual gratuito de productos populares, como las APIs de IA y BigQuery
- Sin cargos automáticos ni permanencia
Sigue explorando con más de 20 productos Always Free
Accede a más de 20 productos gratuitos para casos prácticos habituales, como APIs de IA, máquinas virtuales, almacenes de datos y más.
Recursos de documentación
Servir modelos abiertos con las funciones de IA generativa de GKE
- ¡Nuevo!
- ¡Nuevo!
- ¡Nuevo!
- Tutorial
- Tutorial
- Tutorial
- Tutorial
Orquestar TPUs y GPUs a gran escala
- ¡Nuevo!
- ¡Nuevo!
- ¡Nuevo!
- Vídeo
- Vídeo
- Vídeo
- Blog
Optimización de costes y orquestación de trabajos
- Tutorial
- Práctica recomendada
- Práctica recomendada
- Blog
- Blog
- Práctica recomendada
- Práctica recomendada
- Práctica recomendada
Recursos relacionados
Desplegar una aplicación de IA basada en agentes en GKE con Agent Development Kit (ADK) y Vertex AI
Aprende a desplegar y gestionar una aplicación de IA de agente en contenedores en GKE con Agent Development Kit (ADK) y Vertex AI para realizar inferencias escalables con Gemini 2.0 Flash.
Servir modelos de código abierto mediante TPUs en GKE con Optimum TPU
Aprende a desplegar LLMs mediante unidades de procesamiento de tensor (TPUs) en GKE con el framework de servicio Optimum TPU de Hugging Face.
Crear y usar un volumen respaldado por una instancia de Parallelstore en GKE
Aprende a crear almacenamiento respaldado por instancias de Parallelstore totalmente gestionadas y a acceder a ellas como volúmenes. El controlador de CSI está optimizado para cargas de trabajo de entrenamiento de IA o de aprendizaje automático que implican archivos de menor tamaño y lecturas aleatorias.
Acelerar la carga de datos de IA y aprendizaje automático con Hyperdisk ML
Descubre cómo simplificar y acelerar la carga de pesos de modelos de IA y aprendizaje automático en GKE con Hyperdisk ML.
Servir un LLM mediante TPUs en GKE con JetStream y PyTorch
Aprende a servir un LLM mediante unidades de procesamiento de tensor (TPUs) en GKE con JetStream a través de PyTorch.
Prácticas recomendadas para optimizar la inferencia de LLMs con GPUs en GKE
Descubre las prácticas recomendadas para optimizar el rendimiento de la inferencia de LLMs con GPUs en GKE mediante los frameworks de servicio vLLM y Text Generation Inference (TGI).
Gestionar la pila de GPU con el operador de GPU NVIDIA en GKE
Descubre cuándo usar el operador de GPU NVIDIA y cómo habilitarlo en GKE.
Configurar el autoescalado de cargas de trabajo de LLM en TPUs
Aprende a configurar tu infraestructura de autoescalado usando el autoescalador horizontal de pods (HPA) de GKE para desplegar el modelo LLM de Gemma con JetStream de un solo host.
Ajustar modelos abiertos de Gemma con varias GPUs en GKE
Aprende a afinar el LLM Gemma con GPUs en GKE mediante la biblioteca Transformers de Hugging Face.
Desplegar una aplicación de Ray Serve con un modelo de Stable Diffusion en GKE con TPUs
Aprende a desplegar y servir un modelo de Stable Diffusion en GKE con TPUs, Ray Serve y el complemento Ray Operator.
Configurar el autoescalado de cargas de trabajo de LLMs en GPUs con GKE
Aprende a configurar tu infraestructura de autoescalado usando el autoescalador horizontal de pods (HPA) de GKE para desplegar el LLM Gemma con el framework de servicio de la interfaz de generación de texto (TGI) de Hugging Face.
Entrenar Llama 2 con Megatron-LM en máquinas virtuales A3 Mega
Consulta cómo ejecutar una carga de trabajo de PyTorch de Megatron-LM basada en contenedores en A3 Mega.
Desplegar cargas de trabajo de GPU en Autopilot
Descubre cómo solicitar aceleradores por hardware (GPUs) en tus cargas de trabajo de Autopilot de GKE.
Servir un LLM con varias GPUs en GKE
Aprende a servir Llama 2 70B o Falcon 40B usando varias GPUs NVIDIA L4 con GKE.
Empezar a usar Ray en GKE
Descubre cómo empezar a usar Ray en GKE fácilmente ejecutando una carga de trabajo en un clúster de Ray.
Servir un LLM en GPUs L4 con Ray
Aprende a servir Falcon 7b, Llama2 7b, Falcon 40b o Llama2 70b con el framework Ray en GKE.
Orquesta cargas de trabajo de varios sectores de TPUs con JobSet y Kueue
Aprende a orquestar una carga de trabajo de Jax en varios sectores de TPU en GKE mediante JobSet y Kueue.
Monitorizar cargas de trabajo de GPU en GKE con NVIDIA Data Center GPU Manager (DCGM)
Consulta cómo monitorizar cargas de trabajo de GPU en GKE con NVIDIA Data Center GPU Manager (DCGM).
Guía de inicio rápido: entrena un modelo con GPUs en clústeres de GKE Standard
En esta guía de inicio rápido se muestra cómo desplegar un modelo de entrenamiento con GPUs en GKE y almacenar las predicciones en Cloud Storage.
Ejecutar aprendizaje automático a gran escala en GKE
En este vídeo se muestra cómo ayuda GKE a resolver los problemas habituales del entrenamiento de modelos de IA grandes a gran escala y las prácticas recomendadas para entrenar y servir modelos de aprendizaje automático a gran escala en GKE.
TensorFlow en Autopilot de GKE con aceleración de GPU
En esta entrada de blog se explica paso a paso cómo crear, ejecutar y eliminar un cuaderno de Jupiter habilitado para TensorFlow.
Implementar un sistema de colas de tareas con cuotas compartidas entre espacios de nombres en GKE
En este tutorial se usa Kueue para mostrarte cómo implementar un sistema de colas de trabajos y configurar el uso compartido de recursos y cuotas de cargas de trabajo entre diferentes espacios de nombres en GKE.
Crear un chatbot RAG con GKE y Cloud Storage
En este tutorial se explica cómo integrar una aplicación de modelo de lenguaje extenso basada en la generación aumentada por recuperación con archivos PDF que subas a un segmento de Cloud Storage.
Analizar datos en GKE con BigQuery, Cloud Run y Gemma
En este tutorial se muestra cómo analizar grandes conjuntos de datos en GKE aprovechando BigQuery para el almacenamiento y el procesamiento de datos, Cloud Run para la gestión de solicitudes y un LLM de Gemma para el análisis de datos y las predicciones.
Preprocesamiento de datos distribuido con GKE y Ray: escalado para empresas
Descubre cómo aprovechar GKE y Ray para preprocesar de forma eficiente grandes conjuntos de datos para el aprendizaje automático.
Prácticas recomendadas para cargar datos en la inferencia de IA y aprendizaje automático en GKE
Descubre cómo acelerar los tiempos de carga de datos de tus aplicaciones de aprendizaje automático en Google Kubernetes Engine.
Ahorra en GPUs: autoescalado más inteligente para tus cargas de trabajo de inferencia de GKE
Descubre cómo optimizar los costes de inferencia de la GPU ajustando el escalado automático horizontal de pods de GKE para conseguir la máxima eficiencia.
Sirve modelos de IA optimizados de forma eficiente con los microservicios de NVIDIA NIM en GKE
Descubre cómo desplegar microservicios de NVIDIA NIM de vanguardia en GKE fácilmente y acelerar tus cargas de trabajo de IA.
Acelera Ray en producción con el nuevo operador de Ray en GKE
Descubre cómo Ray Operator en GKE simplifica tus implementaciones de producción de IA y aprendizaje automático, lo que mejora el rendimiento y la escalabilidad.
Maximizar el rendimiento de servicio de LLMs para GPUs en GKE: guía práctica
Descubre cómo maximizar el rendimiento del servicio de modelos de lenguaje extensos (LLMs) para GPUs en GKE, incluidas las decisiones de infraestructura y las optimizaciones del servidor de modelos.
Buscadores sencillos: un enfoque de poco código con GKE y Vertex AI Agent Builder
Cómo crear un buscador con Google Cloud usando Vertex AI Agent Builder, Vertex AI Search y GKE.
LiveX AI reduce los costes de atención al cliente con agentes de IA entrenados y ofrecidos en GKE y la IA de NVIDIA
Cómo usa LiveX AI GKE para crear agentes de IA que mejoran la satisfacción de los clientes y reducen los costes.
Infraestructura para una aplicación de IA generativa compatible con RAG que use GKE y Cloud SQL
Arquitectura de referencia para ejecutar una aplicación de IA generativa con generación aumentada por recuperación (RAG) mediante GKE, Cloud SQL, Ray, Hugging Face y LangChain.
Innovación en la búsqueda de patentes: cómo IPRally aprovecha la IA con GKE y Ray
Cómo usa IPRally GKE y Ray para crear una plataforma de aprendizaje automático escalable y eficiente que permita realizar búsquedas de patentes más rápidas y precisas.
Análisis detallado del rendimiento de Gemma en Google Cloud
Aprovecha Gemma en las GPUs y las TPUs de Cloud para mejorar la eficiencia de la inferencia y el entrenamiento en GKE.
Información detallada sobre Gemma en GKE: innovaciones para servir modelos abiertos de IA generativa
Usa los mejores modelos abiertos de Gemma para crear aplicaciones de IA portátiles y personalizables, y despliégalas en GKE.
Programación avanzada para IA y aprendizaje automático con Ray y Kueue
Orquesta aplicaciones de Ray en GKE con KubeRay y Kueue.
Cómo proteger Ray en Google Kubernetes Engine
Aplica estadísticas de seguridad y técnicas de protección para entrenar cargas de trabajo de IA y aprendizaje automático con Ray en GKE.
Diseñar el almacenamiento para cargas de trabajo de IA y aprendizaje automático en Google Cloud
Selecciona la mejor combinación de opciones de almacenamiento para cargas de trabajo de IA y aprendizaje automático en Google Cloud.
La instalación automática de controladores simplifica el uso de GPUs NVIDIA en GKE
Instala automáticamente los controladores de GPU Nvidia en GKE.
Acelera tu transición a la IA generativa con el framework NVIDIA NeMo en GKEE
Entrena modelos de IA generativa con GKE y el framework NVIDIA NeMo.
¿Por qué elegir GKE para tus cargas de trabajo de IA de Ray?
Mejora la escalabilidad, la rentabilidad, la tolerancia a fallos, el aislamiento y la portabilidad usando GKE para las cargas de trabajo de Ray.
Ejecutar IA en GKE totalmente gestionado, ahora con nuevas opciones de computación, precios y reservas de recursos
Mejora la compatibilidad con GPUs, el rendimiento y los precios de las cargas de trabajo de IA y aprendizaje automático con Autopilot de GKE.
Cómo multiplicó SEEN por 89 su producción y redujo los costes de GPU en un 66% con GKE
Una startup escala la salida de vídeo personalizada con GKE.
Cómo está impulsando Spotify la innovación en aprendizaje automático con Ray y GKE
Cómo está transformando Ray el desarrollo de aprendizaje automático en Spotify.
Cómo aprovecha Ordaōs Bio la IA generativa en GKE
Ordaōs Bio, una de las principales aceleradoras de IA para la investigación y el descubrimiento biomédicos, está encontrando soluciones para nuevas inmunoterapias en oncología y enfermedades inflamatorias crónicas.
GKE de una startup en crecimiento basada en aprendizaje automático
Descubre cómo Moloco, una startup de Silicon Valley, aprovechó la potencia de GKE y TensorFlow Enterprise para optimizar su infraestructura de aprendizaje automático (ML).
Ejemplos de Google Kubernetes Engine (GKE)
Consulta las aplicaciones de ejemplo que se usan en los tutoriales oficiales de productos de GKE.
Ejemplos de GKE AI Labs
Consulta ejemplos experimentales para aprovechar GKE y acelerar tus iniciativas de IA y aprendizaje automático.
Plataformas aceleradas de GKE
Consulta arquitecturas de referencia y soluciones para desplegar cargas de trabajo aceleradas en GKE.