Quotas Dataproc

Cette page répertorie les limites de quota de l'API Dataproc, qui sont appliquées au niveau de chaque projet et de chaque région. Les quotas sont réinitialisés toutes les soixante secondes (chaque minute).

Pour découvrir des stratégies d'optimisation des clusters qui vous aideront à éviter les problèmes de quota et de disponibilité des ressources, consultez Disponibilité des ressources et stratégies de zone.

Le tableau suivant présente les types de quotas d'API Dataproc par défaut ou spécifiques appliqués à chaque projet, ainsi que les limites de ces quotas et les méthodes auxquelles ils s'appliquent.

Type de quota Limite Méthodes API applicables
AutoscalingOperationRequestsPerMinutePerProjectPerRegion 400 CreateAutoscalingPolicy, GetAutoscalingPolicy, ListAutoscalingPolicies, UpdateAutoscalingPolicy, DeleteAutoscalingPolicy
ClusterOperationRequestsPerMinutePerProjectPerRegion 200 CreateCluster, DeleteCluster, UpdateCluster, StopCluster, StartCluster, DiagnoseCluster, RepairCluster
NodeGroupOperationRequestsPerMinutePerProjectPerRegion 600 CreateNodeGroup, DeleteNodeGroup, ResizeNodeGroup, RepairNodeGroup, UpdateLabelsNodeGroup, StartNodeGroup, StopNodeGroup
GetJobRequestsPerMinutePerProjectPerRegion 7 500 GetJob
JobOperationRequestsPerMinutePerProjectPerRegion 400 SubmitJob, UpdateJob, CancelJob, DeleteJob
WorkflowOperationRequestsPerMinutePerProjectPerRegion 400 CreateWorkflowTemplate, InstantiateWorkflowTemplate, InstantiateInlineWorkflowTemplate, UpdateWorkflowTemplate, DeleteWorkflowTemplate
DefaultRequestsPerMinutePerProjectPerRegion 7 500 Toutes les autres opérations (principalement des opérations Get)

Le tableau suivant liste les limites supplémentaires concernant le nombre total d'opérations et de jobs actifs au niveau du projet et de la région.

Type de quota Limite Description
ActiveOperationsPerProjectPerRegion 5000 Limite du nombre total d'opérations actives simultanées de tous types dans une même base de données régionale d'un même projet
ActiveJobsPerProjectPerRegion 5000 Limite du nombre total de jobs actifs à l'état NON_TERMINAL dans un même projet et une même base de données régionale

Autres quotas Google Cloud

Les clusters Dataproc utilisent d'autres produits Google Cloud . Ces produits ont des quotas qui s'appliquent au niveau de chaque projet, y compris des quotas associés à l'utilisation de Dataproc. Certains services, tels que Compute Engine et Cloud Storage, sont requis pour l'utilisation de Dataproc. Pour d'autres, comme BigQuery et Bigtable, l'utilisation de Dataproc est optionnelle.

Services de cluster requis

Les services suivants, qui font appliquer des limites de quota, sont requis pour créer des clusters Dataproc.

Compute Engine

Les clusters Dataproc utilisent des machines virtuelles Compute Engine. Les quotas Compute Engine sont divisés en quotas régionaux ou mondiaux. et les limites de ces quotas s'appliquent aux clusters que vous créez. Par exemple, la création d'un cluster avec un nœud n1-standard-4 -m et deux nœuds n1-standard-4 -w utilise 12 processeurs virtuels (4 * 3). Cette utilisation du cluster est déduite de la limite de quota régionale de 24 processeurs virtuels.

Ressources des clusters par défaut

Lorsque vous créez un cluster Dataproc avec les paramètres par défaut, les ressources Compute Engine suivantes sont utilisées.

Ressource Utilisation
Processeurs virtuels 12
Instances de machines virtuelles (VM) 3
Disque persistant 1 500 Go

Cloud Logging

Dataproc enregistre les résultats fournis par les pilotes et les journaux de clusters dans Cloud Logging. Le quota Logging s'applique aux clusters Dataproc.

Services de cluster facultatifs

Vous pouvez éventuellement utiliser les services suivants, soumis à des limites de quota, avec les clusters Dataproc.

BigQuery

Lorsque vous lisez ou écrivez des données dans BigQuery, le quota BigQuery s'applique.

Bigtable

Lorsque vous lisez ou écrivez des données dans Bigtable, le quota Bigtable s'applique.

Disponibilité des ressources et stratégies de zone

Pour optimiser les clusters en fonction de la disponibilité des ressources et limiter les risques d'erreurs de rupture de stock, envisagez les stratégies suivantes :

  • Sélection de zone automatique : lorsque vous créez des clusters, utilisez la sélection de zone automatique. Cela permet à Dataproc de sélectionner une zone optimale dans la région que vous avez spécifiée, ce qui augmente les chances de créer un cluster.

  • Quotas régionaux : vérifiez que vos quotas Compute Engine régionaux sont suffisants, car ils peuvent être épuisés même avec le placement automatique dans une zone si la capacité régionale totale est insuffisante pour vos demandes.

  • Flexibilité du type de machine : si vous rencontrez des ruptures de stock persistantes avec un type de machine spécifique, utilisez un autre type de machine plus facilement disponible pour votre cluster.