Cette ancienne version d'AI Platform Prediction est obsolète et ne sera plus disponible sur Google Cloud après le 31 janvier 2025. Tous les modèles, les métadonnées associées et les déploiements seront supprimés après le 31 janvier 2025. Migrez vos ressources vers Vertex AI pour obtenir de nouvelles fonctionnalités de machine learning qui ne sont pas disponibles dans AI Platform.

Règles de quotas

AI Platform Prediction impose des limites concernant l'attribution et l'utilisation des ressources, et applique des quotas appropriés pour chaque projet. Les règles spécifiques varient en fonction de la disponibilité des ressources, du profil de l'utilisateur, de l'historique d'utilisation du service et d'autres facteurs. Elles peuvent en outre être modifiées sans préavis.

Les limites de quota actuelles du système sont décrites ci-dessous.

Limites concernant les requêtes de service

Le nombre de requêtes d'API individuelles que vous pouvez effectuer par intervalle de 60 secondes est limité. Chaque limite s'applique à une API particulière ou à un groupe d'API, tel que décrit dans les sections suivantes.

Vous pouvez consulter les quotas de requêtes de votre projet dans le gestionnaire d'API pour AI Platform Prediction de Google Cloud Console. Pour demander une augmentation du quota, cliquez sur l'icône de modification située à côté de la limite de quota, puis sur Demander un quota supérieur.

Requêtes de tâche

Les limites suivantes s'appliquent aux requêtes projects.jobs.create (tâches cumulées d'entraînement et de prédiction par lot) :

Durée	Limite
60 secondes	60

Requêtes de prédiction en ligne

Les limites suivantes s'appliquent aux requêtes projects.predict :

Durée	Limite
60 secondes	600 000

Requêtes de gestion de ressources

Les limites suivantes s'appliquent au total cumulé de toutes les requêtes acceptées qui sont indiquées dans cette liste :

Requêtes list pour projects.jobs, projects.models, projects.models.versions et projects.operations
Requêtes get pour projects.jobs, projects.models, projects.models.versions et projects.operations
Requêtes delete pour projects.models et projects.models.versions
Requêtes create pour projects.models et projects.models.versions
Requêtes cancel pour projects.jobs et projects.operations
Requêtes envoyées à projects.models.versions.setDefault

Durée	Limite
60 secondes	300

Toutes les requêtes delete indiquées ci-dessus et toutes les requêtes create de versions sont également limitées à un total cumulé de 10 requêtes simultanées.

Quotas de ressources

En plus des limites sur les requêtes au fil du temps, l'utilisation des ressources est également limitée comme indiqué dans la liste suivante :

Nombre maximal de modèles : 100
Nombre maximal de versions : 200. La limite de versions s'applique au nombre total de versions de votre projet. Celles-ci peuvent être réparties comme vous le souhaitez entre vos modèles actifs.

Limites de taille des modèles

Lorsque vous créez une version de modèle, la taille totale du fichier de votre répertoire de modèle doit être inférieure ou égale à 500 Mo si vous utilisez un ancien type de machine (MLS1), ou inférieure ou égale à 10 Go si vous utilisez un type de machine Compute Engine (N1). En savoir plus sur les types de machines pour la prédiction en ligne

Vous ne pouvez pas demander d'augmentation pour ces limites de taille des modèles.

Limites concernant l'utilisation simultanée de machines virtuelles

L'utilisation par votre projet des ressources de traitement Google Cloud est mesurée selon le nombre de machines virtuelles utilisées. Cette section décrit les limites applicables à l'utilisation simultanée de ces ressources dans le cadre de votre projet.

Limites concernant l'utilisation simultanée de nœuds pour la prédiction par lot

Lors de la première utilisation d'AI Platform Prediction, le nombre de nœuds pouvant être utilisés simultanément pour une prédiction par lot est limité pour un projet type :

Nombre de nœuds de prédiction simultanés : 72

Utilisation des nœuds pour la prédiction en ligne

AI Platform Prediction n'applique aucun quota sur l'utilisation de nœuds à des fins de prédiction en ligne. Suivez ce lien pour en savoir plus sur les nœuds de prédiction et l'attribution de ressources.

Limites concernant l'utilisation simultanée de plusieurs processeurs virtuels pour la prédiction en ligne

Pour un projet type, lors de la première utilisation d'AI Platform Prediction avec des types de machines Compute Engine (N1), le nombre de processeurs virtuels pouvant être utilisés simultanément sur chaque point de terminaison régional est limité comme indiqué ci-dessous. Chaque point de terminaison régional peut disposer d'un quota spécifique, et les quotas alloués à votre projet peuvent évoluer au fil du temps.

Nombre total de processeurs virtuels pouvant être utilisés simultanément sur chaque point de terminaison régional :

us-central1 : 450
us-east1 : 450
us-east4 : 20
us-west1 : 450
northamerica-northeast1 : 20
europe-west1 : 450
europe-west2 : 20
europe-west3 : 20
europe-west4 : 450
asia-east1 : 450
asia-northeast1 : 20
asia-southeast1 : 450
australia-southeast1 : 20

Les quotas indiqués ici correspondent aux quotas par défaut. Vous pouvez demander des augmentations de quota.

Limites concernant l'utilisation simultanée de plusieurs GPU pour la prédiction en ligne

Pour un projet type, lors de la première utilisation d'AI Platform Prediction, le nombre de GPU pouvant être utilisés simultanément sur chaque point de terminaison régional est limité comme indiqué ci-dessous. Chaque point de terminaison régional peut disposer d'un quota spécifique, et les quotas alloués à votre projet peuvent évoluer au fil du temps.

Nombre total de GPU utilisés simultanément : il s'agit du nombre maximal de GPU utilisés en même temps, par type et par point de terminaison régional. Par exemple :

Nombre de GPU Tesla K80 simultanés:
- us-central1 : 30
- us-east1 : 30
- europe-west1 : 30
- asia-east1 : 30
Nombre de GPU Tesla P4 simultanés:
- us-central1 : 2
- us-east4 : 2
- northamerica-northeast1 : 2
- europe-west4 : 2
- asia-southeast1 : 2
- australia-southeast1 : 2
Nombre de GPU Tesla P100 simultanés:
- us-central1 : 30
- us-east1 : 30
- us-west1 : 30
- europe-west1 : 30
- asia-southeast1 : 30
Nombre de GPU Tesla T4 simultanés:
- us-central1 : 6
- us-east1 : 6
- us-west1 : 6
- europe-west2 : 2
- europe-west4 : 6
- asia-northeast1 : 2
- asia-southeast1 : 6
Nombre de GPU Tesla V100 simultanés:
- us-central1 : 2
- us-west1 : 2
- europe-west4 : 2

Les quotas indiqués ici correspondent aux quotas par défaut. Vous pouvez demander des augmentations de quota.

Les GPU que vous utilisez dans le cadre d'une prédiction ne sont pas considérés comme des GPU Compute Engine, et le quota fixé pour AI Platform Prediction ne vous permet pas d'accéder aux VM Compute Engine à l'aide des GPU. Pour lancer une VM Compute Engine utilisant un GPU, vous devez faire une demande de quota de GPU Compute Engine en suivant la procédure indiquée dans la documentation Compute Engine.

Pour en savoir plus, découvrez comment utiliser des GPU pour la prédiction en ligne.

Demander une augmentation de quota

Les quotas indiqués sur cette page sont attribués par projet, et ils peuvent augmenter au fil du temps selon l'utilisation. Si vous avez besoin de davantage de capacité de traitement, vous pouvez demander une augmentation du quota de l'une des manières suivantes :

Utilisez Google Cloud Console pour effectuer des demandes d'augmentation pour les quotas répertoriés dans le gestionnaire d'API pour AI Platform Prediction :
1. Accédez à la section du quota que vous souhaitez augmenter.
2. Cliquez sur l'icône en forme de crayon à côté de la valeur du quota en bas du graphique d'utilisation de ce quota.
3. Saisissez le chiffre correspondant à l'augmentation demandée :
  - Si la valeur souhaitée est comprise dans la plage affichée dans la boîte de dialogue de la limite du quota, saisissez votre nouvelle valeur et cliquez sur Enregistrer.
  - Si vous souhaitez augmenter le quota au-delà du maximum affiché, cliquez sur Demander un quota supérieur et suivez les instructions de la seconde méthode ci-dessous pour demander une augmentation.
Si vous souhaitez augmenter un quota qui n'est pas répertorié dans la console Google Cloud (par exemple des quotas de GPU), remplissez le formulaire de demande de quota AI Platform pour demander une augmentation de quota. Ces requêtes sont traitées de la manière la plus optimale possible, ce qui signifie qu'aucun contrat de niveau de service ni aucun objectif de niveau de service (SLO) n'est impliqué dans l'examen de ces requêtes.

Règles de quotas

Limites concernant les requêtes de service

Requêtes de tâche

Requêtes de prédiction en ligne

Requêtes de gestion de ressources

Quotas de ressources

Limites de taille des modèles

Limites concernant l'utilisation simultanée de machines virtuelles

Limites concernant l'utilisation simultanée de nœuds pour la prédiction par lot

Utilisation des nœuds pour la prédiction en ligne

Limites concernant l'utilisation simultanée de plusieurs processeurs virtuels pour la prédiction en ligne

Limites concernant l'utilisation simultanée de plusieurs GPU pour la prédiction en ligne

Demander une augmentation de quota

Étapes suivantes