Cette page a été traduite par l'API Cloud Translation.

À propos des options de consommation d'accélérateurs pour les charges de travail d'IA/de ML dans GKE

Cette page décrit les techniques disponibles que vous pouvez utiliser pour obtenir des accélérateurs de calcul, tels que des GPU ou des TPU, en fonction des exigences de vos charges de travail d'IA/ML. Ces techniques sont appelées options de consommation d'accélérateur dans GKE. Comprendre les différentes options de consommation vous aide à optimiser l'utilisation des ressources pour éviter de les sous-utiliser, à augmenter la probabilité d'obtenir des ressources et à équilibrer les coûts et les performances.

Cette page est destinée aux administrateurs et opérateurs de plate-forme qui collaborent avec des ingénieurs en machine learning (ML) pour obtenir les ressources nécessaires au déploiement réussi des charges de travail d'IA/ML.

Pour en savoir plus sur les rôles courants et les exemples de tâches que nous citons dans le contenu Google Cloud , consultez Rôles utilisateur et tâches courantes de GKE.

Comprendre les options de consommation

Vous pouvez sélectionner l'une des options suivantes pour utiliser des accélérateurs sur GKE :

À la demande : vous consommez des TPU ou des GPU sur GKE sans avoir à organiser la capacité à l'avance. Avant de demander des ressources, vous devez disposer d'un quota à la demande suffisant pour le type et la quantité d'accélérateurs spécifiques. L'option à la demande est la plus flexible. Toutefois, il n'est pas garanti que suffisamment de ressources à la demande seront disponibles pour répondre à votre demande.
Réservations : vous réservez des ressources pour une période définie. Une réservation peut correspondre à l'un des éléments suivants :
- Réservations futures : vous réservez des ressources pour des durées généralement plus longues à une date future spécifique. Vous disposez d'un accès exclusif à vos ressources réservées pendant cette période. Les réservations futures nécessitent l'intervention d'un responsable de compte technique (TAM). Pour en savoir plus, consultez les conseils sur les TPU et les GPU.
- Réservations futures pour une durée maximale de 90 jours (en mode Agenda) : vous demandez de la capacité pour une période spécifiée, et un conseiller d'agenda vous suggère les dates disponibles. Les réservations futures pour une durée maximale de 90 jours (en mode Agenda) offrent plus de flexibilité pour les durées plus courtes et la recherche de capacité en libre-service. Pour en savoir plus, consultez Demandes de réservations futures en mode Agenda.
- Réservations à la demande : vous pouvez demander à ce qu'une réservation à la demande soit provisionnée dès que la capacité est disponible, comme pour l'option à la demande. Tant que la réservation est active, vous payez les ressources, que vous les utilisiez ou non.
Démarrage flexible : vous sécurisez des ressources à allocation dense pour les charges de travail de courte durée sans réservation. Vous demandez un nombre spécifique de GPU ou de TPU, et Compute Engine les provisionne lorsque la capacité devient disponible. Les GPU ou TPU s'exécutent sans interruption pendant sept jours maximum. Pour en savoir plus, consultez Provisionnement à démarrage flexible.
Spot : vous provisionnez des VM Spot, ce qui vous permet de bénéficier de remises importantes. Toutefois, les VM Spot peuvent être préemptées à tout moment, avec un avertissement de 30 secondes. Pour en savoir plus, consultez VM Spot.

Comprendre le quota d'accélérateurs dans GKE

Les quotas et les limites du système restreignent votre utilisation des ressources Google Cloud afin de garantir leur disponibilité pour tous les utilisateurs Google Cloud . Les quotas ont des valeurs par défaut, mais vous pouvez généralement demander des ajustements. Les limites système sont des valeurs fixes qui ne peuvent pas être modifiées. Par défaut, les projets ne sont généralement pas associés à un quota d'accélérateur important. Vous devez demander et obtenir l'approbation d'un quota pour des types d'accélérateurs et des régions spécifiques.

Tenez compte des caractéristiques suivantes lorsque vous gérez les quotas dont vos charges de travail ont besoin :

Vous devez demander le quota nécessaire pour chaque option de consommation. Pour identifier le quota requis pour chaque option de consommation, consultez les paramètres de quota correspondants listés dans le tableau Choisir une option de consommation. Si le quota est insuffisant, les tentatives de création de clusters ou de pools de nœuds, ou de déploiement de charges de travail nécessitant des accélérateurs échoueront et généreront une erreur Quota exceeded.
Vous devez demander un quota lorsque vous utilisez des classes de calcul personnalisées dans Autopilot. Les nœuds provisionnés pour répondre aux exigences de la classe de calcul consomment toujours le quota de votre projet pour les accélérateurs spécifiés.
Google Cloud Les comptes en essai gratuit sont soumis à des limites concernant les demandes d'augmentation de quota pour les ressources à forte valeur ajoutée, comme les GPU et les TPU. Pour accéder au quota d'accélérateur, passez à un compte payant.

Pour vérifier et demander un quota, accédez à la page Quotas dans la console Google Cloud . Vous pouvez filtrer les quotas d'accélérateurs et demander des augmentations.

Choisir une option de consommation

Tenez compte des points suivants pour choisir la meilleure option de consommation pour votre charge de travail d'IA/de ML :

Type de charge de travail : réfléchissez au type de charge de travail que vous souhaitez implémenter. Les exigences GKE varient selon que vous exécutez une charge de travail d'entraînement ou d'inférence :
- L'entraînement nécessite des ressources hautes performances avec une mémoire importante. Les charges de travail d'entraînement ont généralement une durée de vie bien définie. Ces charges de travail sont généralement plus faciles à planifier, car elles sont moins sujettes à des pics soudains de consommation de ressources.
- L'inférence nécessite généralement des accélérateurs optimisés pour la scalabilité et la réduction des coûts. Les charges de travail d'inférence peuvent nécessiter une quantité importante de mémoire d'accélérateur lors de pics soudains de consommation de ressources.
Durée de vie en fonction de la phase d'implémentation : tenez compte de votre objectif commercial si vous exécutez une démonstration de faisabilité, une évaluation de plate-forme, un développement ou un test d'application, une production ou une optimisation.
Temps de provisionnement : déterminez si votre charge de travail nécessite une exécution immédiate ou si elle peut être exécutée ultérieurement. Si une exécution future est possible, déterminez la flexibilité de l'heure de début.
Équilibre entre coût et performances : évaluez les exigences de performances de votre charge de travail et les contraintes budgétaires pour sélectionner l'accélérateur le plus rentable. Réfléchissez au compromis à faire entre le coût des accélérateurs et leurs caractéristiques de performances. N'oubliez pas que les nouveaux accélérateurs peuvent améliorer les ratios coût/performances.

Utilisez le tableau suivant pour choisir une option de consommation :

Type de charge de travail	Temps de provisionnement	Durée de vie	Option de consommation recommandée
Charges de travail de longue durée et à grande échelle, comme le pré-entraînement de modèles de fondation ou l'inférence multihôte. Charges de travail de production.	Immédiate (avec réservation approuvée)	Longue durée (par réservation)	Si vous souhaitez utiliser un GPU (sauf A4X, A4 ou A3 Ultra) ou un TPU, utilisez les réservations à la demande : Coût : le montant total de la période de réservation vous est facturé. Quota : le quota est automatiquement augmenté avant que la capacité ne soit fournie.
	Immédiate (avec réservation approuvée)	Longue durée (par réservation)	Si vous souhaitez utiliser des accélérateurs G2, A2, A3 High ou A3 Mega, utilisez les réservations futures : Coût : le montant total de la période de réservation vous est facturé. Quota : le quota est automatiquement augmenté avant que la capacité ne soit fournie.
Charges de travail distribuées de courte durée, comme l'affinage de modèles, les simulations ou l'inférence par lot, pour lesquelles une heure de début précise est requise. Charges de travail pour l'évaluation, le benchmarking ou les tests d'optimisation de la plate-forme.	Immédiate (avec réservation approuvée)	Jusqu'à 90 jours	Réservations futures jusqu'à 90 jours (en mode Agenda) : Coût : réduit (jusqu'à 53 %). La période de réservation vous est facturée. Quota : aucun quota n'est facturé. Accélérateurs compatibles : A4, A3 Ultra, TPU v5e, TPU v5p, TPU Trillium.
Charges de travail par lot telles que l'entraînement de petits modèles, l'affinage ou l'inférence évolutive où l'heure de début est flexible. Charges de travail pour les tests de validation ou d'intégration.	À la demande (sous réserve de disponibilité)	Jusqu'à sept jours par attribution	Mode de provisionnement à démarrage flexible : Coût : réduit (jusqu'à 53 %). Vous payez à l'usage. Le quota GPU préemptif ou TPU préemptif est facturé. Accélérateurs compatibles : toutes les familles de GPU, sauf A4X. Toutes les versions de TPU.
Charges de travail tolérantes aux pannes et de priorité inférieure, comme CI/CD, l'analyse de données ou le calcul hautes performances (HPC). Charges de travail pouvant être interrompues	À la demande (sous réserve de disponibilité)	Variable, peut être préemptée avec un avertissement de 30 secondes	VM Spot : Coût : fortement réduit (60 à 91 %). Vous payez à l'usage. Quota : le quota de GPU préemptifs ou le quota de TPU préemptifs est facturé. Accélérateurs compatibles : toutes les familles de GPU, sauf A4X. Toutes les versions de TPU.
Charges de travail à usage général nécessitant une exécution immédiate.	Immédiat (sous réserve de disponibilité)	Aucune limite	À la demande (GPU ou TPU) : Coût : vous payez à l'usage. Quota : le quota à la demande de GPU ou de TPU est facturé. Accélérateurs compatibles : toutes les familles de GPU, sauf A4X, A4 et A3 Ultra. Toutes les versions de TPU.

Étapes suivantes

Apprenez-en plus sur les GPU dans GKE.
Apprenez-en plus sur les TPU dans GKE.
En savoir plus sur l'inférence d'IA/ML sur GKE