Introducción a las cargas de trabajo de IA/AA en GKE

En esta página, se proporciona una descripción general conceptual de Google Kubernetes Engine (GKE) para cargas de trabajo de IA/ML. GKE es una implementación administrada por Google de la plataforma de organización de contenedores de código abierto de Kubernetes.

Google Kubernetes Engine proporciona una plataforma escalable, flexible y rentable para ejecutar todas tus cargas de trabajo alojadas en contenedores, incluidas las aplicaciones de inteligencia artificial y aprendizaje automático (IA/AA). Ya sea que entrenes modelos básicos grandes, entregues solicitudes de inferencia a gran escala o compiles una plataforma de IA integral, GKE ofrece el control y el rendimiento que necesitas.

Esta página está dirigida a especialistas en IA y datos, arquitectos de Cloud, operadores y desarrolladores que buscan una solución de Kubernetes escalable, automatizada y administrada para ejecutar cargas de trabajo de IA/AA. Para obtener más información sobre los roles comunes, consulta Roles y tareas comunes de los usuarios de GKE.

Comienza a usar cargas de trabajo de IA/AA en GKE

Puedes comenzar a explorar GKE en minutos con el nivel gratuito de GKE, que te permite comenzar a usar Kubernetes sin incurrir en costos por la administración de clústeres.

  1. Comienza a usar la Google Cloud consola

  2. Prueba estas guías de inicio rápido:
    • Inferencia en GKE: Implementa un modelo de lenguaje grande (LLM) de IA en GKE para la inferencia con una arquitectura predefinida.
    • Entrenamiento en GKE: Implementa un modelo de entrenamiento de IA en GKE y almacena las predicciones en Cloud Storage.
  3. Lee Acerca de las opciones de consumo de aceleradores para cargas de trabajo de IA/AA, que tiene orientación y recursos para planificar y obtener aceleradores (GPUs y TPUs) para tu plataforma.

Casos de uso habituales

GKE proporciona una plataforma unificada que puede admitir todas tus cargas de trabajo de IA.

  • Compilación de una plataforma de IA: Para los equipos de plataformas empresariales, GKE proporciona la flexibilidad necesaria para compilar una plataforma estandarizada de múltiples usuarios que satisfaga diversas necesidades.
  • Publicación en línea de baja latencia: Para los desarrolladores que crean aplicaciones de IA generativa, GKE con Inference Gateway proporciona el enrutamiento optimizado y el ajuste de escala automático necesarios para ofrecer una experiencia del usuario responsiva y, al mismo tiempo, controlar los costos.

Elige la plataforma adecuada para tu carga de trabajo de IA/AA

Google Cloud ofrece un espectro de productos de infraestructura de IA para respaldar tu recorrido de AA, desde completamente administrados hasta completamente configurables. Elegir la plataforma adecuada depende de tus necesidades específicas de control, flexibilidad y nivel de administración.

Práctica recomendada:

Elige GKE cuando necesites un control profundo, portabilidad y la capacidad de compilar una plataforma de IA personalizada y de alto rendimiento.

  • Control y flexibilidad de la infraestructura: Necesitas un alto grado de control sobre tu infraestructura, usar canalizaciones personalizadas o realizar personalizaciones a nivel del kernel.
  • Entrenamiento e inferencia a gran escala: Deseas entrenar modelos muy grandes o entregar modelos con una latencia mínima, para lo cual usas el escalamiento y el alto rendimiento de GKE.
  • Rentabilidad a gran escala: Deseas priorizar la optimización de costos usando la integración de GKE con las VMs Spot y las VMs Flex-start para administrar los costos de manera eficaz.
  • Portabilidad y estándares abiertos: Deseas evitar compromisos con un solo proveedor y ejecutar tus cargas de trabajo en cualquier lugar con Kubernetes, y ya tienes experiencia en Kubernetes o una estrategia de múltiples nubes.

También puedes considerar estas alternativas:

Servicio deGoogle Cloud Ideal para
Vertex AI Una plataforma de extremo a extremo completamente administrada para acelerar el desarrollo y descargar la administración de la infraestructura. Funciona bien para los equipos que se enfocan en el MLOps y en obtener valor rápidamente. Para obtener más información, mira Cómo elegir entre GKE autohospedado y Vertex AI administrado para alojar modelos de IA.
Cloud Run Es una plataforma sin servidores para cargas de trabajo de inferencia alojadas en contenedores que se pueden reducir a cero. Funciona bien para las aplicaciones controladas por eventos y para entregar modelos más pequeños de forma rentable. Para obtener una comparación detallada, consulta GKE y Cloud Run.

Cómo GKE potencia las cargas de trabajo de IA/AA

GKE ofrece un paquete de componentes especializados que simplifican y aceleran cada etapa del ciclo de vida de la IA/AA, desde el entrenamiento a gran escala hasta la inferencia de baja latencia.

En el siguiente diagrama, GKE se encuentra dentro de Google Cloudy puede usar diferentes opciones de almacenamiento en la nube (como Cloud Storage FUSE y Lustre administrado) y diferentes opciones de infraestructura de nube (como Cloud TPU y Cloud GPUs). GKE también funciona con software y frameworks de código abierto para el aprendizaje profundo (como JAX o TensorFlow), la orquestación de AA (como Jupyter o Ray) y la inferencia de LLM (como vLLM o NVIDIA Dynamo).
Figura 1: GKE como una plataforma administrada y escalable para cargas de trabajo de IA/AA.

En la siguiente tabla, se resumen las funciones de GKE que admiten tus cargas de trabajo de IA/AA o tus objetivos operativos.

Carga de trabajo o operación de IA/AA Cómo te ayuda GKE Características clave
Inferencia y publicación Está optimizada para entregar modelos de IA de forma elástica, con baja latencia, alta capacidad de procesamiento y rentabilidad.
  • Flexibilidad del acelerador: GKE admite tanto GPU como TPU para la inferencia.
  • Puerta de enlace de inferencia de GKE: Es una puerta de enlace que reconoce el modelo y proporciona un enrutamiento inteligente y un balanceo de cargas específicamente para las cargas de trabajo de inferencia de IA.
  • GKE Inference Quickstart: Es una herramienta para simplificar el análisis del rendimiento y la implementación, ya que proporciona un conjunto de perfiles comparativos para modelos de IA populares.
  • GKE Autopilot: Es un modo operativo de GKE que automatiza las operaciones del clúster y el ajuste de la capacidad, lo que reduce la sobrecarga.
Entrenamiento y ajuste Proporciona las capacidades de escala y orquestación necesarias para entrenar de manera eficiente modelos muy grandes y, al mismo tiempo, minimizar los costos.
  • Nodos de inicio más rápidos: Es una optimización diseñada específicamente para cargas de trabajo de GPU que reduce los tiempos de inicio de los nodos hasta en un 80%.
  • Modo de aprovisionamiento de inicio flexible con tecnología del programador dinámico de cargas de trabajo: Mejora tu capacidad para proteger los escasos aceleradores de GPU y TPU para cargas de trabajo de entrenamiento de corta duración.
  • Kueue: Es un sistema de filas de trabajos nativo de Kubernetes que administra la asignación de recursos, la programación, la administración de cuotas y la priorización de cargas de trabajo por lotes.
  • TPU multislice: Es una arquitectura de hardware y redes que permite que varias porciones de TPU se comuniquen entre sí a través de la red del centro de datos (DCN) para lograr un entrenamiento a gran escala.
Desarrollo unificado de IA/AA Compatibilidad administrada con Ray, un framework de código abierto para escalar aplicaciones distribuidas de Python.
  • Complemento de Ray en GKE: Abstrae la infraestructura de Kubernetes, lo que te permite escalar cargas de trabajo, como el preprocesamiento de datos a gran escala, el entrenamiento distribuido y la entrega en línea con cambios mínimos en el código.

¿Qué sigue?