Propriétés du provisionneur Dataproc

Le provisionneur Dataproc dans Cloud Data Fusion appelle l'API Dataproc pour créer et supprimer des clusters dans vos Google Cloud projets. Vous pouvez configurer les clusters dans les paramètres du provisionneur.

Pour en savoir plus sur la compatibilité entre les versions de Cloud Data Fusion et les versions de Dataproc, consultez la section Compatibilité des versions.

Propriétés

Valeur Description
ID du projet Le projet Google Cloud dans lequel le cluster Dataproc est créé. L'API Dataproc doit être activée pour le projet.
Clé de compte de service du créateur

La clé de compte de service fournie au provisionneur doit être autorisée à accéder aux API Dataproc et Compute Engine. Étant donné que votre clé de compte est sensible, nous vous recommandons de la fournir à l'aide de Stockage sécurisé.

Une fois la clé sécurisée créée, vous pouvez l'ajouter à un espace de noms ou à un profil de calcul système. Pour un profil de calcul d'espace de noms, cliquez sur le bouclier , puis sélectionnez la clé sécurisée. Pour un profil de calcul système, saisissez le nom de la clé dans le champ Clé de compte sécurisée.

Région Emplacement géographique où vous pouvez héberger vos ressources, telles que les nœuds de calcul du cluster Dataproc.
Zone Zone de déploiement isolée au sein d'une région.
Réseau Réseau VPC de votre Google Cloud projet qui sera utilisé lors de la création d'un cluster Dataproc.
ID du projet hôte du réseau Si le réseau se trouve dans un autre Google Cloud projet, saisissez l'ID de ce projet. Pour un VPC partagé, saisissez l'ID du projet hôte où se trouve le réseau.
Sous-réseau Sous-réseau à utiliser lors de la création de clusters. Il doit se trouver dans le réseau donné et dans la région de la zone. Si vous ne renseignez pas ce champ, un sous-réseau est sélectionné en fonction du réseau et de la zone.
Compte de service Runner Nom du compte de service des machines virtuelles (VM) Dataproc utilisées pour exécuter des programmes. Si vous ne renseignez pas ce champ, le compte de service Compute Engine par défaut est utilisé.
Nombre de masters

Nombre de nœuds maîtres dans le cluster. Ces nœuds contiennent le gestionnaire de ressources YARN, le composant NameNode (nœud de noms) du système de fichiers distribué Hadoop (HDFS) et tous les pilotes. Doit être défini sur 1 ou 3.

La valeur par défaut est 1.

Type de machine maître

Type de machine maître à utiliser. Sélectionnez l'un des types de machines suivants:

  • n1
  • n2
  • n2d
  • e2

Dans Cloud Data Fusion version 6.7.2 et ultérieure, la valeur par défaut est e2.

Dans la version 6.7.1, la valeur par défaut est n2.

Dans les versions 6.7.0 et antérieures, la valeur par défaut est n1.

Cœurs maîtres

Nombre de cœurs virtuels alloués à un nœud maître.

La valeur par défaut est 2.

Mémoire principale (Go)

Quantité de mémoire (en gigaoctets) allouée à un nœud maître.

La valeur par défaut est 8 Go.

Taille du disque maître (Go)

Taille du disque, en gigaoctets, allouée à un nœud maître.

La valeur par défaut est 1 000 Go.

Type de disque maître

Type de disque de démarrage pour un nœud maître:

  • Disque persistant standard
  • Disque persistant SSD

La valeur par défaut est Disque persistant standard.

Type de machine de nœud de calcul

Type de machine de travail à utiliser. Sélectionnez l'un des types de machines suivants:

  • n1
  • n2
  • n2d
  • e2

Dans Cloud Data Fusion version 6.7.2 et ultérieure, la valeur par défaut est e2.

Dans la version 6.7.1, la valeur par défaut est n2.

Dans les versions 6.7.0 et antérieures, la valeur par défaut est n1.

Nœuds de calcul

Nombre de cœurs virtuels alloués à un nœud de calcul.

La valeur par défaut est 2.

Mémoire des nœuds de calcul (Go)

Quantité de mémoire, en gigaoctets, allouée à un nœud de calcul.

La valeur par défaut est 8 Go.

Taille du disque des nœuds de calcul (Go)

Taille du disque, en gigaoctets, allouée à un nœud de calcul.

La valeur par défaut est 1 000 Go.

Type de disque du nœud de calcul

Type de disque de démarrage pour un nœud de calcul:

  • Disque persistant standard
  • Disque persistant SSD

La valeur par défaut est Disque persistant standard.

Utiliser l'autoscaling prédéfini Active l'utilisation de l'autoscaling Dataproc prédéfini.
Nombre de nœuds de calcul primaires

Les nœuds de calcul contiennent un gestionnaire de nœuds YARN et un composant DataNode (nœud de données) HDFS.

La valeur par défaut est 2.

Nombre de nœuds de calcul secondaires Les nœuds de calcul secondaires contiennent un gestionnaire de nœuds YARN, mais pas de nœud de données HDFS. Cette valeur est normalement définie sur zéro, sauf si une règle d'autoscaling l'exige.
Règle d'autoscaling

Chemin de l'ID de la règle d'autoscaling ou de l'URI de la ressource.

Pour plus d'informations sur la configuration et l'utilisation de l'autoscaling Dataproc pour redimensionner automatiquement et dynamiquement les clusters afin de répondre aux exigences de la charge de travail, consultez Quand utiliser l'autoscaling et Autoscaler les clusters Dataproc.

Métadonnées Métadonnées supplémentaires pour les instances exécutées dans votre cluster. Vous pouvez généralement l'utiliser pour suivre la facturation et les rejets de débit. Pour en savoir plus, consultez la section Métadonnées de cluster.
Tags réseau Attribuez des tags réseau pour appliquer des règles de pare-feu aux nœuds spécifiques d'un cluster. Les tags réseau doivent commencer par une lettre minuscule et peuvent contenir des lettres minuscules, des chiffres et des traits d'union. Les tags doivent se terminer par une lettre minuscule ou un chiffre.
Activer le démarrage sécurisé

Active le démarrage sécurisé sur les VM Dataproc.

La valeur par défaut est False.

Activer vTPM

Active le module vTPM (Virtual Trusted Platform Module) sur les VM Dataproc.

La valeur par défaut est False.

Activer la surveillance de l'intégrité

Active la surveillance de l'intégrité virtuelle sur les VM Dataproc.

La valeur par défaut est False.

Version de l'image Version de l'image Dataproc. Si vous ne renseignez pas ce champ, une valeur est automatiquement sélectionnée. Si la propriété URI de l'image personnalisée est laissée vide, elle est ignorée.
URI de l'image personnalisée URI de l'image Dataproc. Si vous ne renseignez pas ce champ, il est déduit à partir de la propriété Version de l'image.
Bucket de préproduction Bucket Cloud Storage utilisé pour préparer les dépendances de tâches et les fichiers de configuration pour l'exécution de pipelines dans Dataproc.
Bucket temporaire

Bucket Cloud Storage utilisé pour stocker des données éphémères associées au cluster et aux tâches, telles que les fichiers d'historique Spark dans Dataproc.

Cette propriété a été introduite dans la version 6.9.2 de Cloud Data Fusion.

Nom de la clé de chiffrement Clé de chiffrement gérée par le client (CMEK) utilisée par Dataproc.
Champs d'application OAuth

Les champs d'application OAuth 2.0 que vous devrez peut-être demander pour accéder aux API Google, en fonction du niveau d'accès dont vous avez besoin. Google Cloud Champ d'application de la plate-forme est toujours inclus.

Cette propriété a été introduite dans la version 6.9.2 de Cloud Data Fusion.

Actions d'initialisation Liste des scripts à exécuter pendant l'initialisation du cluster. Les actions d'initialisation doivent être placées sur Cloud Storage.
Propriétés du cluster Propriétés de cluster remplaçant les propriétés de configuration par défaut des services Hadoop. Pour en savoir plus sur les paires clé-valeur applicables, consultez la section Propriétés du cluster.
Libellés courants

Libellés permettant d'organiser les clusters et les tâches Dataproc en cours de création.

Vous pouvez ajouter un libellé à chaque ressource, puis filtrer les ressources par libellé. Les informations sur les libellés sont transmises au système de facturation afin que les clients puissent consulter le détail des frais apparaissant sur votre facture en fonction des libellés.

Durée maximale d'inactivité

Configurez Dataproc pour qu'il supprime un cluster s'il est inactif pendant plus du nombre de minutes spécifié. Les clusters sont normalement supprimés immédiatement après la fin d'une exécution, mais la suppression peut échouer dans de rares cas. Pour en savoir plus, consultez la section Dépannage de la suppression de clusters.

La valeur par défaut est de 30 minutes.

Ignorer la suppression du cluster

Indique si la suppression du cluster doit être ignorée à la fin d'une exécution. Vous devez supprimer manuellement les clusters. Cette option ne doit être utilisée que pour déboguer une exécution ayant échoué.

La valeur par défaut est False.

Activer l'intégration à Stackdriver Logging

Activez l'intégration de la journalisation Stackdriver.

La valeur par défaut est True.

Activer l'intégration de Stackdriver Monitoring

Activez l'intégration de Stackdriver Monitoring.

La valeur par défaut est True.

Activer la passerelle des composants

Activez la passerelle des composants pour qu'elle puisse accéder aux interfaces du cluster, telles que le gestionnaire de ressources YARN et le serveur d'historique Spark.

La valeur par défaut est False.

Prioriser l'adresse IP externe

Lorsque le système s'exécute sur Google Cloud dans le même réseau que le cluster, il utilise normalement l'adresse IP interne lorsqu'il communique avec le cluster. Pour toujours utiliser l'adresse IP externe, définissez cette valeur sur True.

La valeur par défaut est False.

Créer un délai de sondage

Nombre de secondes d'attente après la création d'un cluster pour commencer à interroger le cluster afin de vérifier s'il a été créé.

La valeur par défaut est de 60 secondes.

Les paramètres de sondage contrôlent la fréquence à laquelle l'état du cluster est interrogé lors de la création et de la suppression de clusters. Si vous avez programmé l'exécution de nombreux pipelines en même temps, vous pouvez modifier ces paramètres.

Créer un jitter de sondage

Quantité maximale de jitter aléatoire, en secondes, à ajouter au délai lors de la création d'un cluster. Vous pouvez utiliser cette propriété pour éviter de nombreux appels d'API simultanés dans Google Cloud lorsque de nombreux pipelines sont planifiés pour s'exécuter exactement au même moment.

La valeur par défaut est de 20 secondes.

Supprimer le délai d'attente active

Nombre de secondes d'attente après la suppression d'un cluster pour commencer à interroger le cluster afin de vérifier s'il a été supprimé.

La valeur par défaut est de 30 secondes.

Intervalle d'interrogation

Nombre de secondes d'attente entre les requêtes d'état du cluster.

La valeur par défaut est 2.

Propriétés de l'interface Web du profil Dataproc mappées sur des propriétés JSON

Nom de la propriété de l'interface utilisateur du profil Dataproc Nom de la propriété JSON du profil Dataproc
Libellé du profil name
Nom du profil label
Description description
ID du projet projectId
Clé de compte de service du créateur accountKey
Région region
Zone zone
Réseau network
ID du projet hôte du réseau networkHostProjectId
Sous-réseau subnet
Compte de service Runner serviceAccount
Nombre de masters masterNumNodes
Type de machine maître masterMachineType
Cœurs maîtres masterCPUs
Mémoire principale (Go) masterMemoryMB
Taille du disque maître (Go) masterDiskGB
Type de disque maître masterDiskType
Nombre de nœuds de calcul primaires workerNumNodes
Nombre de nœuds de calcul secondaires secondaryWorkerNumNodes
Type de machine de nœud de calcul workerMachineType
Nœuds de calcul workerCPUs
Mémoire des nœuds de calcul (Go) workerMemoryMB
Taille du disque des nœuds de calcul (Go) workerDiskGB
Type de disque du nœud de calcul workerDiskType
Métadonnées clusterMetaData
Tags réseau networkTags
Activer le démarrage sécurisé secureBootEnabled
Activer vTPM vTpmEnabled
Activer la surveillance de l'intégrité integrityMonitoringEnabled
Version de l'image imageVersion
URI de l'image personnalisée customImageUri
Bucket Cloud Storage gcsBucket
Nom de la clé de chiffrement encryptionKeyName
Règle d'autoscaling autoScalingPolicy
Actions d'initialisation initActions
Propriétés du cluster clusterProperties
Libellés clusterLabels
Durée maximale d'inactivité idleTTL
Ignorer la suppression du cluster skipDelete
Activer l'intégration à Stackdriver Logging stackdriverLoggingEnabled
Activer l'intégration de Stackdriver Monitoring stackdriverMonitoringEnabled
Activer la passerelle des composants componentGatewayEnabled
Prioriser l'adresse IP externe preferExternalIP
Créer un délai de sondage pollCreateDelay
Créer un jitter de sondage pollCreateJitter
Supprimer le délai d'attente active pollDeleteDelay
Intervalle d'interrogation pollInterval

Bonnes pratiques

Lorsque vous créez un cluster statique pour vos pipelines, consultez les bonnes pratiques de configuration de cluster.

Étape suivante