Introducción a las cargas de trabajo de IA y aprendizaje automático en GKE

En esta página se ofrece una descripción general conceptual de Google Kubernetes Engine (GKE) para cargas de trabajo de IA y aprendizaje automático. GKE es una implementación gestionada por Google de la plataforma de orquestación de contenedores de código abierto Kubernetes.

Google Kubernetes Engine ofrece una plataforma escalable, flexible y rentable para ejecutar todas tus cargas de trabajo en contenedores, incluidas las aplicaciones de inteligencia artificial y aprendizaje automático (IA/AA). Tanto si entrenas modelos fundacionales de gran tamaño como si sirves solicitudes de inferencia a gran escala o creas una plataforma de IA completa, GKE te ofrece el control y el rendimiento que necesitas.

Esta página está dirigida a especialistas en datos e IA, arquitectos de Cloud, operadores y desarrolladores que buscan una solución de Kubernetes escalable, automatizada y gestionada para ejecutar cargas de trabajo de IA y aprendizaje automático. Para obtener más información sobre los roles habituales, consulta Roles y tareas de usuario habituales de GKE.

Empezar a usar cargas de trabajo de IA y aprendizaje automático en GKE

Puedes empezar a explorar GKE en cuestión de minutos usando el nivel gratuito de GKE, que te permite empezar a usar Kubernetes sin incurrir en costes de gestión de clústeres.

  1. Empezar a usar la Google Cloud consola

  2. Prueba estas guías de inicio rápido:
    • Inferencia en GKE: despliega un modelo de lenguaje extenso (LLM) de IA en GKE para la inferencia mediante una arquitectura predefinida.
    • Entrenamiento en GKE: despliega un modelo de entrenamiento de IA en GKE y almacena las predicciones en Cloud Storage.
  3. Consulta el artículo Acerca de las opciones de consumo de aceleradores para cargas de trabajo de IA y aprendizaje automático, que incluye directrices y recursos para planificar y obtener aceleradores (GPUs y TPUs) para tu plataforma.

Casos prácticos habituales

GKE proporciona una plataforma unificada que puede admitir todas tus cargas de trabajo de IA.

  • Crear una plataforma de IA: para los equipos de plataformas empresariales, GKE ofrece la flexibilidad necesaria para crear una plataforma estandarizada y multicliente que satisfaga diversas necesidades.
  • Servicio online de baja latencia: para los desarrolladores que crean aplicaciones de IA generativa, GKE con Inference Gateway proporciona el enrutamiento optimizado y el escalado automático necesarios para ofrecer una experiencia de usuario con capacidad de respuesta y, al mismo tiempo, controlar los costes.

Elegir la plataforma adecuada para tu carga de trabajo de IA o aprendizaje automático

Google Cloud ofrece un espectro de productos de infraestructura de IA para respaldar tu recorrido de aprendizaje automático, desde soluciones totalmente gestionadas hasta totalmente configurables. Elegir la plataforma adecuada depende de tus necesidades específicas de control, flexibilidad y nivel de gestión.

Práctica recomendada:

Elige GKE si necesitas un control exhaustivo, portabilidad y la capacidad de crear una plataforma de IA personalizada y de alto rendimiento.

  • Control y flexibilidad de la infraestructura: necesitas un alto grado de control sobre tu infraestructura, usar flujos de trabajo personalizados o realizar personalizaciones a nivel de kernel.
  • Entrenamiento e inferencia a gran escala: quieres entrenar modelos muy grandes o servir modelos con una latencia mínima mediante la escalabilidad y el alto rendimiento de GKE.
  • Rentabilidad a gran escala: quieres priorizar la optimización de costes mediante la integración de GKE con las VMs de acceso puntual y las VMs de inicio flexible para gestionar los costes de forma eficaz.
  • Portabilidad y estándares abiertos: quieres evitar depender de un proveedor y ejecutar tus cargas de trabajo en cualquier lugar con Kubernetes, y ya tienes experiencia con Kubernetes o una estrategia multinube.

También puedes considerar estas alternativas:

ServicioGoogle Cloud Usos recomendados
Vertex AI Una plataforma integral y totalmente gestionada para acelerar el desarrollo y descargar la gestión de la infraestructura. Es una opción adecuada para los equipos centrados en MLOps y en reducir el tiempo de amortización. Para obtener más información, consulta el vídeo Choosing between self-hosted GKE and managed Vertex AI to host AI models (Elegir entre GKE autogestionado y Vertex AI gestionado para alojar modelos de IA).
Cloud Run Una plataforma sin servidor para cargas de trabajo de inferencia en contenedores que se puede escalar a cero. Funciona bien en aplicaciones basadas en eventos y en el servicio de modelos más pequeños de forma rentable. Para obtener una comparación detallada, consulta GKE y Cloud Run.

Cómo impulsa GKE las cargas de trabajo de IA y aprendizaje automático

GKE ofrece un conjunto de componentes especializados que simplifican y aceleran cada fase del ciclo de vida de la IA y el aprendizaje automático, desde el entrenamiento a gran escala hasta la inferencia de baja latencia.

En el siguiente diagrama, GKE se encuentra en Google Cloud
       y puede usar diferentes opciones de almacenamiento en la nube (como Cloud Storage FUSE y Managed Lustre) y diferentes opciones de infraestructura en la nube
       (como Cloud TPU y Cloud GPUs). GKE también funciona con software y frameworks de código abierto para el aprendizaje profundo (como JAX o TensorFlow), la orquestación de aprendizaje automático (como Jupyter o Ray) y la inferencia de LLMs (como vLLM o NVIDIA Dynamo).
Imagen 1: GKE como plataforma gestionada escalable para cargas de trabajo de IA y aprendizaje automático.

En la siguiente tabla se resumen las funciones de GKE que admiten tus cargas de trabajo de IA o aprendizaje automático, así como tus objetivos operativos.

Carga de trabajo u operación de IA o aprendizaje automático Cómo te ayuda GKE Características principales
Inferencia y publicación Optimizado para servir modelos de IA de forma elástica, con baja latencia, alto rendimiento y rentabilidad.
  • Flexibilidad de los aceleradores: GKE admite tanto GPUs como TPUs para la inferencia.
  • GKE Inference Gateway: una pasarela con reconocimiento de modelos que ofrece enrutamiento inteligente y balanceo de carga específicamente para cargas de trabajo de inferencia de IA.
  • GKE Inference Quickstart: una herramienta para simplificar el análisis del rendimiento y la implementación, que proporciona un conjunto de perfiles de referencia para modelos de IA populares.
  • Autopilot de GKE: un modo operativo de GKE que automatiza las operaciones del clúster y el ajuste del tamaño de la capacidad, lo que reduce la sobrecarga.
Entrenamiento y ajuste Proporciona las funciones de escalado y orquestación necesarias para entrenar de forma eficiente modelos muy grandes y, al mismo tiempo, minimizar los costes.
  • Nodos de inicio más rápidos: una optimización diseñada específicamente para cargas de trabajo de GPU que reduce los tiempos de inicio de los nodos hasta en un 80%.
  • Modo de aprovisionamiento de inicio flexible basado en Dynamic Workload Scheduler: mejora tu capacidad para proteger los aceleradores de GPU y TPU escasos para cargas de trabajo de entrenamiento de corta duración.
  • Kueue: un sistema de colas de trabajos nativo de Kubernetes que gestiona la asignación de recursos, la programación, la gestión de cuotas y la priorización de las cargas de trabajo por lotes.
  • Multislice de TPU: una arquitectura de hardware y de redes que permite que varios slices de TPU se comuniquen entre sí a través de la red del centro de datos (DCN) para conseguir un entrenamiento a gran escala.
Desarrollo unificado de IA y aprendizaje automático Asistencia gestionada para Ray, un framework de código abierto para escalar aplicaciones Python distribuidas.
  • Complemento Ray en GKE: abstrae la infraestructura de Kubernetes, lo que te permite escalar cargas de trabajo, como el preprocesamiento de datos a gran escala, el entrenamiento distribuido y el servicio online, con cambios mínimos en el código.

Siguientes pasos