Quotas et limites

Quotas

Le service géré Dataflow est soumis aux limites de quota suivantes :

  • Chaque utilisateur peut générer jusqu'à 3 000 000 de requêtes par minute.
  • Chaque tâche Dataflow peut utiliser au maximum 1 000 instances Compute Engine.
  • Chaque projet Google Cloud peut exécuter au moins 25 tâches Dataflow simultanées.
  • Si vous choisissez d'utiliser les quotas d'organisation, chaque organisation peut exécuter au moins 125 tâches Dataflow simultanées.
  • Chaque utilisateur peut générer jusqu'à 15 000 requêtes de surveillance par minute.
  • Voici le nombre d'emplacements de brassage dont dispose chaque projet Google Cloud dans les différentes régions :
    • asia-east1 : 48 emplacements
    • asia-northeast1 : 24 emplacements
    • europe-west1 : 160 emplacements
    • europe-west3 : 24 emplacements
    • europe-west4 : 128 emplacements
    • northamerica-northeast1 : 24 emplacements
    • us-central1 : 160 emplacements
    • us-east1 : 48 emplacements
    • us-west1 : 96 emplacements
    • Autres régions : 16 emplacements
    160 emplacements permettent le brassage simultané d'environ 100 To de données.
  • Chaque projet Google Cloud se voit attribuer 60 Go par minute et par région cloud de débit Streaming Engine pour l'envoi de données entre les instances Compute Engine et Streaming Engine.

Vous pouvez procéder comme suit pour vérifier votre utilisation actuelle du quota spécifique à Dataflow :

  1. Dans Google Cloud Console, accédez à la page APIs & services (API et services).
    Accéder aux API et services
  2. Cliquez sur Tableau de bord.
  3. Cliquez sur Dataflow API (API Dataflow).
  4. Cliquez sur Quotas.
    Par exemple, pour consulter votre utilisation actuelle du quota d'emplacements Shuffle, recherchez le graphique Shuffle slots (Emplacements Shuffle) sur la page "Quotas".
    Shuffle slots (Emplacements Shuffle) dans la page Quotas

Le service Dataflow utilise différents composants de Google Cloud, tels que BigQuery, Cloud Storage, Pub/Sub et Compute Engine. Ces services (et d'autres services Google Cloud) utilisent des quotas pour limiter la quantité maximale de ressources que vous pouvez utiliser au sein d'un projet. Lorsque vous utiliserez Dataflow, vous devrez peut-être ajuster vos paramètres de quota pour ces services.

Quotas de Compute Engine

Lorsque vous exécutez votre pipeline sur le service Dataflow, Dataflow crée des instances Compute Engine pour exécuter le code associé.

Le quota de Compute Engine est spécifié par région. Passez en revue le quota Compute Engine de votre projet, et demandez les ajustements suivants, si nécessaire :

  • Processeurs : les types de machines par défaut pour Dataflow sont n1-standard-1 pour le traitement par lot, n1-standard-2 pour les tâches qui utilisent Streaming Engine et n1-standard-4 pour les tâches qui n'utilisent pas Streaming Engine. FlexRS utilise par défaut des machines n1-standard-2. Pendant la période de disponibilité en version bêta, FlexRS utilise 90 % de VM préemptives et 10 % de VM standards. Compute Engine calcule le nombre de processeurs en additionnant le nombre total de processeurs de chaque instance. Par exemple, l'exécution de 10 instances n1-standard-4 équivaut à 40 processeurs. Consultez la rubrique Types de machines Compute Engine pour une mise en correspondance des types de machines avec le nombre de processeurs.
  • Adresses IP en cours d'utilisation : le nombre d'adresses IP en cours d'utilisation dans votre projet doit être suffisant pour accueillir le nombre d'instances de votre choix. Pour utiliser 10 instances Compute Engine, vous aurez besoin de 10 adresses IP en cours d'utilisation.
  • Disque persistant : Dataflow associe un disque persistant à chaque instance.
    • La taille de disque par défaut est de 250 Go pour les pipelines par lot et de 420 Go pour les pipelines par flux. Pour 10 instances, vous aurez besoin par défaut de 2 500 Go de disque persistant pour une tâche par lot.
    • La taille de disque par défaut est de 25 Go pour les pipelines par lot Dataflow Shuffle.
    • La taille de disque par défaut est de 30 Go pour les pipelines par flux Streaming Engine.
  • Groupes d'instances gérés : Dataflow déploie vos instances Compute Engine en tant que groupe d'instances géré. Vous devez vous assurer que le quota associé suivant est disponible :
    • Un groupe d'instances par tâche Dataflow
    • Un groupe d'instances géré par tâche Dataflow
    • Un modèle d'instance par tâche Dataflow

Quotas supplémentaires

Suivant les sources et récepteurs que vous utilisez, vous aurez peut-être également besoin de quotas supplémentaires.

  1. Pub/Sub : si vous utilisez Pub/Sub, vous aurez peut-être besoin d'un quota supplémentaire. Lors de la planification d'un quota, notez que le traitement d'un message provenant de Pub/Sub implique trois opérations. Si vous utilisez des horodatages personnalisés, vous devez doubler le nombre d'opérations prévues, car Dataflow créera un abonnement distinct pour effectuer le suivi de ces horodatages.
  2. BigQuery : si vous utilisez l'API d'insertion en flux continu de BigQuery, des limites de quota et d'autres restrictions s'appliquent.

Limites

Cette section décrit les limites de production pratiques pour Dataflow.

Limite Volume
Nombre maximum de nœuds de calcul par pipeline. 1 000
Taille maximale pour une demande de création de tâche. Les descriptions de pipeline comportant de nombreuses étapes et des noms très détaillés peuvent atteindre cette limite. 10 Mo
Nombre maximum de segments d'entrées secondaires. 20 000
Taille maximale pour une valeur d'élément unique dans Streaming Engine. 100 Mo
Nombre maximal d'entrées de journal pour une période donnée, par nœud de calcul. 15 000 messages toutes les 30 secondes
Limites de Streaming Engine Volume
Nombre maximal d'octets pour les messages Pub/Sub. 7 Mo
Taille maximale pour une clé volumineuse. Les clés dont la taille dépasse 64 Ko entraînent une baisse des performances. 2 Mo
Longueur maximale pour les tags d'état utilisés par TagValue et TagBag. 64 Ko