Google Cloud se centra en ofrecer una infraestructura de inteligencia artificial (IA) de primer nivel para potenciar tus cargas de trabajo aceleradas por GPU más exigentes en una amplia gama de segmentos. Puedes usar GPUs en Google Cloud para ejecutar aplicaciones de IA, aprendizaje automático, científicas, analíticas, de ingeniería, de consumo y empresariales.
Gracias a nuestra colaboración con NVIDIA, Google Cloud ofrece las GPUs más recientes y optimiza la pila de software con una amplia gama de opciones de almacenamiento y redes. Para ver una lista completa de las GPUs disponibles, consulta Plataformas de GPU.
En las siguientes secciones se describen las ventajas de las GPUs en Google Cloud.
Máquinas virtuales aceleradas por GPU
En Google Cloud, puedes acceder a las GPUs y aprovisionarlas de la forma que mejor se adapte a tus necesidades. Hay disponible una familia de máquinas optimizadas para aceleradores especializada, con GPUs y funciones de redes preconectadas que son ideales para maximizar el rendimiento. Están disponibles en las series de máquinas A4X, A4, A3, A2 y G2.
Varias opciones de aprovisionamiento
Puedes aprovisionar clústeres con la familia de máquinas optimizada para aceleradores con cualquiera de los siguientes productos de código abierto o Google Cloud .
Vertex AI
Vertex AI es una plataforma de aprendizaje automático (ML) totalmente gestionada que puedes usar para entrenar y desplegar modelos de ML y aplicaciones de IA. En las aplicaciones de Vertex AI, puedes usar VMs aceleradas por GPU para mejorar el rendimiento de las siguientes formas:
- Usa VMs con GPU en grupos de trabajadores de GKE de entrenamiento personalizado.
- Usa modelos LLM de código abierto de Vertex AI Model Garden.
- Reducir la latencia de las predicciones.
- Mejora el rendimiento del código de los cuadernos de Vertex AI Workbench.
- Mejorar el rendimiento de un entorno de ejecución de Colab Enterprise.
Director de clúster
Cluster Director (antes conocido como clúster de hipercomputación) es un conjunto de funciones y servicios diseñados para permitirte desplegar y gestionar un gran número (hasta decenas de miles) de recursos de aceleración y de redes que funcionan como una sola unidad homogénea. Esta opción es ideal para crear una infraestructura densamente asignada y optimizada para el rendimiento que tenga integraciones para Google Kubernetes Engine (GKE) y los programadores de Slurm. Cluster Director te ayuda a crear una infraestructura diseñada específicamente para ejecutar cargas de trabajo de IA, aprendizaje automático y HPC. Para obtener más información, consulta Cluster Director.
Para empezar a usar Cluster Director, consulta Elegir una estrategia de despliegue.
Compute Engine
También puedes crear y gestionar máquinas virtuales individuales o pequeños clústeres de máquinas virtuales con GPUs conectadas en Compute Engine. Este método se usa principalmente para ejecutar cargas de trabajo con muchos gráficos, cargas de trabajo de simulación o entrenamiento de modelos de aprendizaje automático a pequeña escala.
En la siguiente tabla se muestran los métodos que puedes usar para crear VMs que tengan GPUs conectadas:
Opción de implementación |
Guías de implementación |
Crear una VM para cargas de trabajo de servicio y de un solo nodo |
|
Crear grupos de instancias gestionados (MIGs) |
|
Crear VMs en bloque |
|
Crear una sola VM |
|
Crear estaciones de trabajo virtuales |
Cloud Run
Puedes configurar GPUs para tus instancias de Cloud Run. Las GPUs son ideales para ejecutar cargas de trabajo de inferencia de IA con modelos de lenguaje de gran tamaño en Cloud Run.
En Cloud Run, consulta estos recursos para ejecutar cargas de trabajo de IA en GPUs:
- Configurar GPUs para un servicio de Cloud Run
- Cargar modelos de aprendizaje automático grandes en Cloud Run con GPUs
- Tutorial: Ejecutar la inferencia de LLM en GPUs de Cloud Run con Ollama