À propos des GPU sur Google Cloud


Google Cloud se concentre sur la fourniture d'une infrastructure d'intelligence artificielle (IA) de premier ordre pour alimenter vos charges de travail accélérées par GPU les plus exigeantes dans un large éventail de segments. Vous pouvez utiliser des GPU sur Google Cloud pour exécuter des applications d'IA, de machine learning, scientifiques, d'analyse, d'ingénierie, grand public et d'entreprise.

Grâce à notre partenariat avec NVIDIA, Google Cloud propose les GPU les plus récents tout en optimisant la pile logicielle avec un large éventail d'options de stockage et de mise en réseau. Pour obtenir la liste complète des GPU disponibles, consultez la section Plateformes GPU.

Les sections suivantes décrivent les avantages des GPU sur Google Cloud.

VM accélérées par GPU

Sur Google Cloud, vous pouvez accéder aux GPU et les provisionner de la façon la plus adaptée à vos besoins. Une famille de machines spécialisées optimisées pour les accélérateurs est disponible, avec des GPU préinstallés et des capacités de mise en réseau idéales pour maximiser les performances. Ces machines sont disponibles parmi les séries A3, A2 et G2.

Options de provisionnement multiples

Vous pouvez provisionner des clusters en utilisant la famille de machines optimisées pour les accélérateurs avec l'un des produits Open Source ou Google Cloud suivants.

Vertex AI

Vertex AI est une plateforme de machine learning (ML) entièrement gérée que vous pouvez utiliser pour entraîner et déployer des modèles de ML et des applications d'IA. Dans les applications Vertex AI, vous pouvez utiliser des VM accélérées par GPU pour améliorer les performances de plusieurs façons :

GKE et Slurm

Les plates-formes d'orchestration à grande échelle, telles que GKE, sont idéales pour provisionner de grands clusters pouvant être utilisés pour entraîner et affiner des modèles de ML à grande échelle. Les modèles de ML à grande échelle sont ceux qui utilisent de grandes quantités de données.

Les plate-formes d'orchestration suivantes sont disponibles sur Google Cloud.

  • Google Kubernetes Engine (GKE) : un service que vous pouvez utiliser pour déployer et exploiter des applications conteneurisées à grande échelle à l'aide de l'infrastructure de Google.

  • Slurm : un outil Open Source de gestion de clusters et de planification de tâches. Sur Google Cloud, vous pouvez déployer des clusters Slurm à l'aide de Cluster Toolkit.

Entraînement et affinage de modèles à grande échelle

Pour entraîner ou affiner des modèles à grande échelle, nous vous recommandons d'utiliser un cluster de machines a3-megagpu-8g et de le déployer avec un programmeur tel que GKE ou Slurm.

Options de déploiement

Guides de déploiement

Slurm

Déployer un cluster Slurm A3 Mega

GKE

Déployer un cluster A3 Mega avec GKE

Entraînement et affinage de modèles traditionnels

Pour l'entraînement et l'affinage de modèles traditionnels, nous recommandons d'utiliser la machine standard a3-highgpu-8g, ou tout autre type de machine A2 ou G2, et de la déployer avec un programmeur tel que GKE ou Slurm.

Options de déploiement

Guides de déploiement

Charges de travail

GKE

Déployer des pools de nœuds Autopilot ou Standard

Inférence : Servir des modèles sur GKE

Entraînement : Entraîner un modèle sur GKE

Slurm

Affinage Llama-2 sur un cluster Slurm G2

Compute Engine

Vous pouvez également créer et gérer des VM uniques ou des clusters de VM plus petits avec des GPU associés sur Compute Engine. Cette méthode est idéale pour exécuter des charges de travail nécessitant d'importantes ressources graphiques.

Options de déploiement

Guides de déploiement

Créer des groupes d'instances gérés (MIG)

Créer un MIG comprenant des VM avec GPU

Créer des VM de manière groupée

Créer un groupe de VM avec GPU de manière groupée

Créer une VM unique

Créer une VM avec GPU unique

Créer des stations de travail virtuelles

Créer une station de travail virtuelle accélérée par GPU

Cloud Run

Vous pouvez configurer des GPU pour votre service Cloud Run. Les GPU sont idéaux pour exécuter des charges de travail d'inférence d'IA à l'aide de grands modèles de langage sur Cloud Run.

Sur Cloud Run, consultez ces ressources pour exécuter des charges de travail d'IA sur des GPU :