Cette page décrit les techniques disponibles que vous pouvez utiliser pour obtenir des accélérateurs de calcul, tels que des GPU ou des TPU, en fonction des exigences de vos charges de travail d'IA/ML. Ces techniques sont appelées options de consommation d'accélérateur dans GKE. Comprendre les différentes options de consommation vous aide à optimiser l'utilisation des ressources pour éviter de les sous-utiliser, à augmenter la probabilité d'obtenir des ressources et à équilibrer les coûts et les performances.
Cette page est destinée aux administrateurs et opérateurs de plate-forme qui collaborent avec des ingénieurs en machine learning (ML) pour obtenir les ressources nécessaires au déploiement réussi des charges de travail d'IA/ML.
Pour en savoir plus sur les rôles courants et les exemples de tâches que nous citons dans le contenu Google Cloud , consultez Rôles utilisateur et tâches courantes de GKE.
Comprendre les options de consommation
Vous pouvez sélectionner l'une des options suivantes pour utiliser des accélérateurs sur GKE :
- À la demande : vous consommez des TPU ou des GPU sur GKE sans organiser la capacité à l'avance. Avant de demander des ressources, vous devez disposer d'un quota à la demande suffisant pour le type et la quantité d'accélérateurs spécifiques. L'option à la demande est la plus flexible, mais il n'est pas garanti que suffisamment de ressources à la demande seront disponibles pour répondre à votre demande.
- Réservations : vous réservez des ressources pour une période définie. Une réservation peut correspondre à l'un des éléments suivants :
- Réservations futures : vous réservez des ressources pour des durées généralement plus longues à une date future spécifique. Vous disposez d'un accès exclusif à vos ressources réservées pendant cette période. Les réservations futures nécessitent l'intervention d'un responsable de compte technique (TAM). Pour en savoir plus, consultez les conseils concernant les TPU et les GPU.
- Réservations futures jusqu'à 90 jours (en mode calendrier) : vous demandez de la capacité pour une période spécifique, et un conseiller du calendrier vous suggère les dates disponibles. Les réservations futures jusqu'à 90 jours (en mode calendrier) offrent plus de flexibilité pour les durées plus courtes et la recherche de capacité en libre-service. Pour en savoir plus, consultez Demandes de réservations futures en mode Agenda.
- Réservations à la demande : vous pouvez demander à ce qu'une réservation à la demande soit provisionnée dès que la capacité est disponible, comme pour l'option à la demande. Tant que la réservation est active, vous payez les ressources, que vous les utilisiez ou non.
- Démarrage flexible : vous sécurisez des ressources à allocation dense pour les charges de travail de courte durée sans réservation. Vous demandez un nombre spécifique de GPU ou de TPU, et Compute Engine les provisionne lorsque la capacité devient disponible. Les GPU ou TPU s'exécutent sans interruption pendant sept jours maximum. Pour en savoir plus, consultez Provisionnement à démarrage flexible.
- Spot : vous provisionnez des VM Spot, ce qui vous permet de bénéficier de remises importantes. Toutefois, les VM Spot peuvent être préemptées à tout moment, avec un avertissement de 30 secondes. Pour en savoir plus, consultez VM Spot.
Comprendre le quota d'accélérateurs dans GKE
Les quotas et les limites du système restreignent votre utilisation des ressources Google Cloud afin de garantir leur disponibilité pour tous les utilisateurs Google Cloud . Les quotas ont des valeurs par défaut, mais vous pouvez généralement demander des ajustements. Les limites système sont des valeurs fixes qui ne peuvent pas être modifiées. Par défaut, les projets ne sont généralement pas associés à un quota d'accélérateur important. Vous devez demander et obtenir l'approbation d'un quota pour des types d'accélérateurs et des régions spécifiques.
Tenez compte des caractéristiques suivantes lorsque vous gérez les quotas dont vos charges de travail ont besoin :
Vous devez demander le quota nécessaire pour chaque option de consommation. Pour identifier le quota requis pour chaque option de consommation, consultez les paramètres de quota correspondants listés dans le tableau Choisir une option de consommation. Si le quota est insuffisant, les tentatives de création de clusters ou de pools de nœuds, ou de déploiement de charges de travail nécessitant des accélérateurs échoueront et généreront une erreur
Quota exceeded
.Vous devez demander un quota lorsque vous utilisez des classes de calcul personnalisées dans Autopilot. Les nœuds provisionnés pour répondre aux exigences de la classe de calcul consomment toujours le quota de votre projet pour les accélérateurs spécifiés.
Google Cloud Les comptes en essai gratuit sont soumis à des limites concernant les demandes d'augmentation de quota pour les ressources à forte valeur ajoutée, comme les GPU et les TPU. Pour accéder au quota d'accélérateur, passez à un compte payant.
Pour vérifier et demander un quota, accédez à la page Quotas dans la console Google Cloud . Vous pouvez filtrer les quotas d'accélérateurs et demander des augmentations.
Choisir une option de consommation
Tenez compte des points suivants pour choisir la meilleure option de consommation pour votre charge de travail d'IA/ML :
- Type de charge de travail : réfléchissez au type de charge de travail que vous souhaitez implémenter.
Les exigences GKE varient selon que vous exécutez une charge de travail d'entraînement ou d'inférence :
- L'entraînement nécessite des ressources hautes performances avec une mémoire importante. Les charges de travail d'entraînement ont généralement une durée de vie bien définie. Ces charges de travail sont généralement plus faciles à planifier, car elles sont moins sujettes à des pics soudains de consommation de ressources.
- L'inférence nécessite généralement des accélérateurs optimisés pour la scalabilité et la réduction des coûts. Les charges de travail d'inférence peuvent nécessiter une quantité importante de mémoire d'accélérateur lors de pics soudains de consommation de ressources.
- Durée de vie en fonction de la phase d'implémentation : tenez compte de votre objectif commercial si vous exécutez une démonstration de faisabilité, une évaluation de plate-forme, un développement ou un test d'application, une production ou une optimisation.
- Temps de provisionnement : déterminez si votre charge de travail nécessite une exécution immédiate ou si elle peut être exécutée ultérieurement. Si une exécution future est possible, déterminez la flexibilité de l'heure de début.
- Équilibre entre coût et performances : évaluez les exigences de performances de votre charge de travail et les contraintes budgétaires pour sélectionner l'accélérateur le plus rentable. Réfléchissez au compromis à faire entre le coût des accélérateurs et leurs caractéristiques de performances. N'oubliez pas que les nouveaux accélérateurs peuvent améliorer les ratios coût/performances.
Utilisez le tableau suivant pour choisir une option de consommation :
Type de charge de travail | Temps de provisionnement | Durée de vie | Option de consommation recommandée |
---|---|---|---|
|
Immédiat (avec réservation approuvée) | Longue durée (par réservation) | Si vous souhaitez utiliser un GPU (sauf A4X, A4 ou A3 Ultra) ou un TPU, utilisez les réservations à la demande :
|
Si vous souhaitez utiliser des accélérateurs G2, A2, A3 High ou A3 Mega, utilisez les réservations futures :
|
|||
|
Immédiat (avec réservation approuvée) | Jusqu'à 90 jours | Réservations futures jusqu'à 90 jours (en mode calendrier) :
|
|
À la demande (sous réserve de disponibilité) | Jusqu'à sept jours par attribution | Mode de provisionnement à démarrage flexible :
|
|
À la demande (sous réserve de disponibilité) | Variable, peut être préemptée avec un avertissement de 30 secondes | VM Spot :
|
|
Immédiat (sous réserve de disponibilité) | Aucune limite |
Étapes suivantes
- Apprenez-en plus sur les GPU dans GKE.
- Apprenez-en plus sur les TPU dans GKE.
- En savoir plus sur l'inférence d'IA/ML sur GKE