Google Cloud se enfoca en ofrecer una infraestructura de inteligencia artificial (IA) de primer nivel para potenciar tus cargas de trabajo más exigentes aceleradas por GPU en una amplia variedad de segmentos. Puedes usar GPUs en Google Cloud para ejecutar aplicaciones de IA, aprendizaje automático (AA), científicas, de análisis, de ingeniería, para consumidores y empresariales.
A través de nuestra asociación con NVIDIA, Google Cloud ofrece las GPUs más recientes y, al mismo tiempo, optimiza la pila de software con una amplia variedad de opciones de almacenamiento y redes. Para obtener una lista completa de las GPUs disponibles, consulta Plataformas de GPU.
En las siguientes secciones, se describen los beneficios de las GPUs en Google Cloud.
VMs con aceleración de GPU
En Google Cloud, puedes acceder a las GPUs y aprovisionarlas de la manera que mejor se adapte a tus necesidades. Hay disponible una familia de máquinas optimizadas para aceleradores especializada, con GPUs preconectadas y capacidades de red ideales para maximizar el rendimiento. Están disponibles en las series de máquinas A3, A2 y G2.
Varias opciones de aprovisionamiento
Puedes aprovisionar clústeres con la familia de máquinas optimizadas para aceleradores con cualquiera de los siguientes productos Google Cloud o de código abierto.
Vertex AI
Vertex AI es una plataforma de aprendizaje automático (AA) completamente administrada que puedes usar para entrenar e implementar modelos de AA y aplicaciones de IA. En las aplicaciones de Vertex AI, puedes usar VMs aceleradas por GPU para mejorar el rendimiento de las siguientes maneras:
- Usa VMs habilitadas para GPU en grupos de trabajadores de GKE de entrenamiento personalizados.
- Usa modelos de LLM de código abierto de Vertex AI Model Garden.
- Reduce la latencia de la predicción.
- Mejora el rendimiento del código de notebook de Vertex AI Workbench.
- Mejora el rendimiento de un entorno de ejecución de Colab Enterprise.
Clúster de hipercomputación
Hypercompute Cluster es un elemento básico de la infraestructura que te permite crear un clúster de VMs aceleradas por GPU que se implementan y mantienen como una sola unidad homogénea. Esta opción es ideal para aprovisionar una infraestructura con una asignación densa y optimizada para el rendimiento que tenga integraciones para Google Kubernetes Engine (GKE) y programadores de Slurm. Hypercompute Cluster proporciona una infraestructura diseñada específicamente para ejecutar cargas de trabajo de IA, AA y HPC. Para obtener más información, consulta Clúster de hipercomputación.
Para comenzar a usar Hypercompute Cluster, consulta Elige una estrategia de implementación.
Compute Engine
También puedes crear y administrar VMs individuales o pequeños clústeres de VMs con GPUs adjuntas en Compute Engine. Este método se usa principalmente para ejecutar cargas de trabajo intensivas en gráficos, cargas de trabajo de simulación o el entrenamiento de modelos de AA a pequeña escala.
Opción de implementación |
Guías de implementación |
Crea una VM para cargas de trabajo de entrega y de nodo único |
|
Crear grupos de instancias administrados (MIG) |
|
Crea VMs de forma masiva |
|
Crea una sola VM |
Crea una sola VM de GPU (VM estándar o Spot) |
Crea estaciones de trabajo virtuales |
Cloud Run
Puedes configurar GPUs para tu servicio de Cloud Run. Las GPUs son ideales para ejecutar cargas de trabajo de inferencia de IA con modelos de lenguaje grandes en Cloud Run.
En Cloud Run, consulta estos recursos para ejecutar cargas de trabajo de IA en GPUs:
- Configura GPUs para un servicio de Cloud Run
- Carga modelos de AA grandes en Cloud Run con GPUs
- Instructivo: Ejecuta la inferencia de LLM en GPUs de Cloud Run con Ollama