Google Cloud se concentre sur la fourniture d'une infrastructure d'intelligence artificielle (IA) de premier ordre pour alimenter vos charges de travail accélérées par GPU les plus exigeantes dans un large éventail de segments. Vous pouvez utiliser des GPU sur Google Cloud pour exécuter des applications d'IA, de machine learning, scientifiques, d'analyse, d'ingénierie, grand public et d'entreprise.
Grâce à notre partenariat avec NVIDIA, Google Cloud propose les GPU les plus récents tout en optimisant la pile logicielle avec un large éventail d'options de stockage et de mise en réseau. Pour obtenir la liste complète des GPU disponibles, consultez la section Plateformes GPU.
Les sections suivantes décrivent les avantages des GPU sur Google Cloud.
VM accélérées par GPU
Sur Google Cloud, vous pouvez accéder aux GPU et les provisionner de la façon la plus adaptée à vos besoins. Une famille de machines spécialisées optimisées pour les accélérateurs est disponible, avec des GPU préinstallés et des capacités de mise en réseau idéales pour maximiser les performances. Ces machines sont disponibles parmi les séries A3, A2 et G2.
Options de provisionnement multiples
Vous pouvez provisionner des clusters en utilisant la famille de machines optimisées pour les accélérateurs avec l'un des produits Open Source ou Google Cloud suivants.
Vertex AI
Vertex AI est une plateforme de machine learning (ML) entièrement gérée que vous pouvez utiliser pour entraîner et déployer des modèles de ML et des applications d'IA. Dans les applications Vertex AI, vous pouvez utiliser des VM accélérées par GPU pour améliorer les performances de plusieurs façons :
- Utiliser des VM compatibles GPU dans des pools de nœuds de calcul GKE d'entraînement personnalisé.
- Utiliser des modèles LLM Open Source issus de Vertex AI Model Garden.
- Réduire la latence de prédiction.
- Améliorer les performances du code de notebook Vertex AI Workbench.
- Améliorer les performances d'un environnement d'exécution Colab Enterprise.
GKE et Slurm
Les plates-formes d'orchestration à grande échelle, telles que GKE, sont idéales pour provisionner de grands clusters pouvant être utilisés pour entraîner et affiner des modèles de ML à grande échelle. Les modèles de ML à grande échelle sont ceux qui utilisent de grandes quantités de données.
Les plate-formes d'orchestration suivantes sont disponibles sur Google Cloud.
Google Kubernetes Engine (GKE) : un service que vous pouvez utiliser pour déployer et exploiter des applications conteneurisées à grande échelle à l'aide de l'infrastructure de Google.
Slurm : un outil Open Source de gestion de clusters et de planification de tâches. Sur Google Cloud, vous pouvez déployer des clusters Slurm à l'aide de Cluster Toolkit.
Entraînement et affinage de modèles à grande échelle
Pour entraîner ou affiner des modèles à grande échelle, nous vous recommandons d'utiliser un cluster de machines a3-megagpu-8g
et de le déployer avec un programmeur tel que GKE ou Slurm.
Options de déploiement |
Guides de déploiement |
Slurm |
|
GKE |
Entraînement et affinage de modèles traditionnels
Pour l'entraînement et l'affinage de modèles traditionnels, nous recommandons d'utiliser la machine standard a3-highgpu-8g
, ou tout autre type de machine A2 ou G2, et de la déployer avec un programmeur tel que GKE ou Slurm.
Options de déploiement |
Guides de déploiement |
Charges de travail |
GKE |
Inférence : Servir des modèles sur GKE Entraînement : Entraîner un modèle sur GKE |
|
Slurm |
Compute Engine
Vous pouvez également créer et gérer des VM uniques ou des clusters de VM plus petits avec des GPU associés sur Compute Engine. Cette méthode est idéale pour exécuter des charges de travail nécessitant d'importantes ressources graphiques.
Options de déploiement |
Guides de déploiement |
Créer des groupes d'instances gérés (MIG) |
|
Créer des VM de manière groupée |
|
Créer une VM unique |
|
Créer des stations de travail virtuelles |
Cloud Run
Vous pouvez configurer des GPU pour votre service Cloud Run. Les GPU sont idéaux pour exécuter des charges de travail d'inférence d'IA à l'aide de grands modèles de langage sur Cloud Run.
Sur Cloud Run, consultez ces ressources pour exécuter des charges de travail d'IA sur des GPU :
- Configurer le chiffrement CMEK pour un service Cloud Run
- Charger de grands modèles de ML sur Cloud Run avec des GPU
- Tutoriel : Exécuter l'inférence LLM sur les GPU Cloud Run avec Ollama