Quotas et limites

Quotas

Le service géré Dataflow possède les limites de quota suivantes :

  • Chaque utilisateur peut générer jusqu'à 3 000 000 de requêtes par minute.
  • Chaque tâche Dataflow peut utiliser au maximum 1 000 instances Compute Engine.
  • Chaque projet Google Cloud peut exécuter 100 tâches Dataflow simultanées.
  • Si vous choisissez d'utiliser les quotas d'organisation, chaque organisation peut exécuter 125 tâches Dataflow simultanées.
  • Chaque utilisateur peut générer jusqu'à 15 000 requêtes de surveillance par minute.
  • Chaque projet Google Cloud dispose de 160 emplacements Shuffle pour mélanger environ 100 To de données simultanément.
  • Chaque projet Google Cloud se voit attribuer 60 Go par minute et par région cloud de débit Streaming Engine pour l'envoi de données entre les instances Compute Engine et Streaming Engine.

Vous pouvez vérifier votre utilisation actuelle du quota spécifique à Dataflow :

  1. Dans Google Cloud Console, accédez à la page APIs & services (API et services).
    Accéder à APIs & services (API et services)
  2. Cliquez sur Tableau de bord.
  3. Cliquez sur Dataflow API (API Dataflow).
  4. Cliquez sur Quotas.
    Par exemple, pour consulter votre utilisation actuelle du quota d'emplacements Shuffle, recherchez le tableau Shuffle slots (Emplacements Shuffle) sur la page Quotas.
    Shuffle slots (Emplacements Shuffle) dans la page Quotas

Le service Dataflow utilise différents composants de Google Cloud, tels que BigQuery, Cloud Storage, Pub/Sub et Compute Engine. Ces services (et d'autres services Google Cloud) utilisent des quotas pour limiter la quantité maximale de ressources que vous pouvez utiliser au sein d'un projet. Lorsque vous utiliserez Dataflow, vous devrez peut-être ajuster vos paramètres de quota pour ces services.

Quotas de Compute Engine

Lorsque vous exécutez votre pipeline sur le service Dataflow, Dataflow crée des instances Compute Engine pour exécuter le code associé.

Le quota de Compute Engine est spécifié par région. Passez en revue le quota Compute Engine de votre projet, et demandez les ajustements suivants, si nécessaire :

  • Processeurs : Les types de machine par défaut pour Dataflow sont n1-standard-1 pour les lots et n1-standard-4 pour le streaming. FlexRS utilise par défaut des machines n1-standard-2. Pendant la période de disponibilité en version bêta, FlexRS utilise 90 % de VM préemptives et 10 % de VM standards. Compute Engine calcule le nombre de processeurs en additionnant le nombre total de processeurs de chaque instance. Par exemple, l'exécution de 10 instances n1-standard-4 équivaut à 40 processeurs. Consultez la rubrique Types de machine Compute Engine pour une mise en correspondance des types de machine avec le nombre de processeurs.
  • Adresses IP en cours d'utilisation : Le nombre d'adresses IP en cours d'utilisation dans votre projet doit être suffisant pour accueillir le nombre d'instances de votre choix. Pour utiliser 10 instances Compute Engine, vous aurez besoin de 10 adresses IP en cours d'utilisation.
  • Disque persistant : Dataflow associe un disque persistant à chaque instance.
    • La taille de disque par défaut est de 250 Go pour les lots et de 420 Go pour le streaming. Pour 10 instances, vous aurez besoin par défaut de 2 500 Go de disque persistant pour une tâche par lots.
    • La taille de disque par défaut est de 25 Go pour les pipelines par lots Dataflow Shuffle.
    • La taille de disque par défaut est de 30 Go pour les pipelines de streaming Streaming Engine.
  • Groupes d'instances gérés : Dataflow déploie vos instances de Compute Engine en tant que groupe d'instances géré. Vous devez vous assurer que le quota associé suivant est disponible :
    • Un groupe d'instances par tâche Dataflow
    • Un groupe d'instances géré par tâche Dataflow
    • Un modèle d'instance par tâche Dataflow

Quotas supplémentaires

Suivant les sources et récepteurs que vous utilisez, vous aurez peut-être également besoin de quotas supplémentaires.

  1. Pub/Sub : Si vous utilisez Pub/Sub, vous aurez peut-être besoin d'un quota supplémentaire. Lors de la planification d'un quota, notez que le traitement d'un message provenant de Pub/Sub implique trois opérations. Si vous utilisez des horodatages personnalisés, vous devez doubler le nombre d'opérations prévues, car Dataflow créera un abonnement distinct pour suivre les horodatages personnalisés.
  2. BigQuery : Si vous utilisez l'API de streaming pour BigQuery, des limites de quota et autres restrictions s'appliquent.

Limites

Cette section décrit les limites de production pratiques pour Dataflow.

Limite Montant
Nombre maximum de nœuds de calcul par pipeline. 1 000
Taille maximale pour une demande de création de tâche. Les descriptions de pipeline comportant de nombreuses étapes et des noms très détaillés peuvent atteindre cette limite. 10 Mo
Nombre maximum de fragments d'entrées secondaires. 20 000
Taille maximale pour une valeur d'élément unique dans Streaming Engine. 100 Mo
Cette page vous a-t-elle été utile ? Évaluez-la :

Envoyer des commentaires concernant…

Besoin d'aide ? Consultez notre page d'assistance.