Ejecuta cargas de trabajo de IA/AA optimizadas con las funciones de organización de la plataforma Google Kubernetes Engine (GKE). Una plataforma de IA/AA sólida considera las siguientes capas:
- Organización de la infraestructura que admite GPU para el entrenamiento y la entrega de cargas de trabajo a gran escala
- Integración flexible en frameworks de procesamiento distribuido y procesamiento de datos
- Compatibilidad con varios equipos en la misma infraestructura a fin de maximizar el uso de los recursos
Entrenamiento de IA/AA a gran escala
-
Blog
Almacenamiento de IA/AA de alto rendimiento mediante la compatibilidad con SSD locales en GKE
Usa SSD locales para aplicaciones que necesiten descargar y procesar con rapidez IA/AA, estadísticas, lotes y cachés en memoria.
- Blog
Compila una plataforma de aprendizaje automático (AA) con Kubeflow y Ray en GKE
Aprende a implementar Kubeflow y Kuberay en GKE.
-
Video
Compila aprendizaje automático a gran escala en Cloud TPU con GKE
Obtén información sobre cómo las empresas usan Cloud TPU para entrenar sus modelos generativos a gran escala y cómo con las Cloud TPU en GKE puedes obtener una infraestructura de vanguardia para todo el ciclo de vida del aprendizaje automático.
- Video
Entrega modelos de lenguaje grande con KubeRay en TPU
Mira esta demostración para ver cómo con la integración de KubeRay con GKE TPU puedes crear una plataforma eficiente para entregar LLM.
Frameworks de procesamiento distribuido
-
Blog
Comienza a usar Ray en GKE
Aprende a comenzar a usar Ray en GKE fácilmente mediante la ejecución de una carga de trabajo en un clúster de Ray.
-
Blog
Aprendizaje automático con JAX en Kubernetes con GPU de NVIDIA
Aprende a ejecutar aplicaciones de varios nodos de GPU de JAX en GKE mediante la serie de máquinas A2 ultra, con la tecnología de las GPU NVIDIA A100 Tensor Core de 80 GB.
- Blog
Supervisa cargas de trabajo de GPU en GKE con el administrador de GPU de centro de datos (DCGM) de NVIDIA
Aprende a observar las cargas de trabajo de GPU en GKE con el administrador de GPU del centro de datos de NVIDIA (DCGM).
Optimización de costos y organización de trabajos
- Práctica recomendada
Prácticas recomendadas para ejecutar cargas de trabajo por lotes en GKE
Consulta las prácticas recomendadas para compilar una plataforma de procesamiento por lotes completa con GKE.
- Práctica recomendada
Ejecuta aplicaciones de Kubernetes con optimización de costos en GKE
Consulta las prácticas recomendadas para ejecutar aplicaciones con optimización de costos en GKE a fin de aprovechar la flexibilidad que proporciona Google Cloud.
-
Blog
GPU de tiempo compartido en GKE
Obtén información sobre las GPU de tiempo compartido en GKE.
-
Blog
GPU de varias instancias en GKE
Obtén información sobre las GPU de varias instancias en GKE.
Instructivos y entrenamiento
Prueba los instructivos, los cursos y la capacitación de autoaprendizaje de GKE para comprender los conceptos clave mediante ejemplos reales.
Casos de uso
Explora casos de uso, arquitecturas de referencia, informes, prácticas recomendadas y soluciones del sector.
Muestras
Explora las apps de muestra de IA/AA y descubre las capacidades de organización de GKE en acción.