L'approvisionneur Dataproc dans Cloud Data Fusion appelle l'API Dataproc pour créer et supprimer des clusters dans vos projets Google Cloud. Vous pouvez configurer les clusters dans les paramètres de l'approvisionneur.
Pour en savoir plus sur la compatibilité entre les versions de Cloud Data Fusion et de Dataproc, consultez la section Compatibilité des versions.
Propriétés
Propriété | Description |
---|---|
ID du projet | Le projet Google Cloud dans lequel le cluster Dataproc est créé. L'API Dataproc doit être activée dans le projet. |
Clé du compte de service du créateur | La clé du compte de service fournie à l'approvisionneur doit être autorisée à accéder aux API Dataproc et Compute Engine. Votre clé de compte étant sensible, nous vous recommandons de la fournir via le stockage sécurisé. Après avoir créé la clé sécurisée, vous pouvez l'ajouter à un espace de noms ou à un profil de calcul système. Pour un profil de calcul d'espace de noms, cliquez sur le bouclier , puis sélectionnez la clé sécurisée. Pour un profil de calcul système, saisissez le nom de la clé dans le champ Clé de compte sécurisée. |
Région | Un emplacement géographique où vous pouvez héberger vos ressources, telles que les nœuds de calcul pour le cluster Dataproc. |
Zone | Une zone de déploiement isolée au sein d'une région |
Réseau | Réseau VPC de votre projet Google Cloud, qui sera utilisé lors de la création d'un cluster Dataproc. |
ID du projet hôte du réseau | Si le réseau se trouve dans un autre projet Google Cloud, saisissez l'ID de ce projet. Pour un VPC partagé, saisissez l'ID du projet hôte dans lequel réside le réseau. |
Subnet | Sous-réseau à utiliser lors de la création des clusters. Elle doit faire partie du réseau donné et se trouver dans la région dans laquelle se trouve la zone. Si ce champ n'est pas renseigné, un sous-réseau est sélectionné en fonction du réseau et de la zone. |
Compte de service Runner | Nom du compte de service des machines virtuelles (VM) Dataproc utilisées pour exécuter des programmes. Si ce champ n'est pas renseigné, le compte de service Compute Engine par défaut est utilisé. |
Nombre d'instances maîtres | Nombre de nœuds maîtres dans le cluster. Ces nœuds contiennent le gestionnaire de ressources YARN, le composant NameNode (nœud de noms) HDFS et tous les pilotes. Doit être défini sur 1 ou 3. La valeur par défaut est 1. |
Type de machine maître | Type de machine maître à utiliser. Sélectionnez l'un des types de machines suivants:
Dans Cloud Data Fusion 6.7.2 et versions ultérieures, la valeur par défaut est e2. Dans la version 6.7.1, la valeur par défaut est n2. Dans les versions 6.7.0 et antérieures, la valeur par défaut est n1. |
Cœurs maîtres | Nombre de cœurs virtuels alloués à un nœud maître. La valeur par défaut est 2. |
Mémoire maître (Go) | Quantité de mémoire, en gigaoctets, allouée à un nœud maître. La valeur par défaut est 8 Go. |
Master disk size (GB) (Taille du disque maître (Go)) | Taille de disque, en gigaoctets, allouée à un nœud maître. La valeur par défaut est 1 000 Go. |
Master disk type (Type de disque maître) | Type de disque de démarrage pour un nœud maître:
La valeur par défaut est Standard Persistent Disk. |
Type de machine des nœuds de calcul | Type de machine de nœud de calcul à utiliser. Sélectionnez l'un des types de machines suivants:
Dans Cloud Data Fusion 6.7.2 et versions ultérieures, la valeur par défaut est e2. Dans la version 6.7.1, la valeur par défaut est n2. Dans les versions 6.7.0 et antérieures, la valeur par défaut est n1. |
Cœurs de nœud de calcul | Nombre de cœurs virtuels alloués à un nœud de calcul. La valeur par défaut est 2. |
Mémoire du nœud de calcul (Go) | Quantité de mémoire, en gigaoctets, allouée à un nœud de calcul. La valeur par défaut est 8 Go. |
Taille du disque des nœuds de calcul (Go) | Taille de disque, en gigaoctets, allouée à un nœud de calcul. La valeur par défaut est 1 000 Go. |
Type de disque des nœuds de calcul | Type de disque de démarrage pour un nœud de calcul:
La valeur par défaut est Standard Persistent Disk. |
Utiliser l'autoscaling prédéfini | Permet d'utiliser l'autoscaling Dataproc prédéfini. |
Nombre de nœuds de calcul primaires | Les nœuds de calcul contiennent un gestionnaire de nœuds YARN et un composant DataNode HDFS. La valeur par défaut est 2. |
Nombre de nœuds de calcul secondaires | Les nœuds de calcul secondaires contiennent un gestionnaire de nœuds YARN, mais pas de composant DataNode HDFS. Cette valeur est normalement définie sur zéro, sauf si une règle d'autoscaling exige une valeur plus élevée. |
Règle d'autoscaling | Chemin d'accès à l'ID de la règle d'autoscaling ou à l'URI de la ressource. Pour en savoir plus sur la configuration et l'utilisation de l'autoscaling Dataproc pour redimensionner automatiquement et dynamiquement les clusters en fonction de la charge de travail, consultez les pages Quand utiliser l'autoscaling et Effectuer l'autoscaling des clusters Dataproc. |
Métadonnées | Métadonnées supplémentaires pour les instances exécutées dans votre cluster. Vous pouvez généralement l'utiliser pour suivre la facturation et les rejets de débit. Pour en savoir plus, consultez la section Métadonnées du cluster. |
Tags réseau | Attribuez des tags réseau pour appliquer des règles de pare-feu aux nœuds spécifiques d'un cluster. Les tags réseau doivent commencer par une lettre minuscule et peuvent contenir des lettres minuscules, des chiffres et des traits d'union. Les tags doivent se terminer par une lettre minuscule ou un chiffre. |
Activer le démarrage sécurisé | Il active le démarrage sécurisé sur les VM Dataproc. La valeur par défaut est False. |
Activer vTPM | Il active le vTPM (Virtual Trusted Platform Module) sur les VM Dataproc. La valeur par défaut est False. |
Activer la surveillance de l'intégrité | Active la surveillance de l'intégrité virtuelle sur les VM Dataproc. La valeur par défaut est False. |
Version de l'image | Version de l'image Dataproc. Si ce champ n'est pas renseigné, une règle est automatiquement sélectionnée. Si la propriété URI de l'image personnalisée est laissée vide, cette propriété est ignorée. |
URI de l'image personnalisée | URI de l'image Dataproc. Si vous ne renseignez pas ce champ, elle est déduite de la propriété Version de l'image. |
Bucket de préproduction | Bucket Cloud Storage utilisé pour organiser les dépendances de tâches et les fichiers de configuration pour l'exécution de pipelines dans Dataproc. |
Bucket temporaire | Bucket Cloud Storage utilisé pour stocker des données de cluster et de tâches éphémères, telles que les fichiers d'historique Spark dans Dataproc. Cette propriété a été introduite dans la version 6.9.2 de Cloud Data Fusion. |
Nom de la clé de chiffrement | Clé de chiffrement gérée par le client (CMEK) utilisée par Dataproc. |
Champs d'application OAuth | Champs d'application OAuth 2.0 que vous devrez peut-être demander pour accéder aux API Google, en fonction du niveau d'accès dont vous avez besoin. Le champ d'application Google Cloud Platform est toujours inclus. Cette propriété a été introduite dans la version 6.9.2 de Cloud Data Fusion. |
Actions d'initialisation | Liste des scripts à exécuter pendant l'initialisation du cluster. Les actions d'initialisation doivent être placées sur Cloud Storage. |
Propriétés du cluster | Les propriétés de cluster remplacent les propriétés de configuration par défaut des services Hadoop. Pour en savoir plus sur les paires clé/valeur applicables, consultez la section Propriétés du cluster. |
Libellés courants | Étiquettes permettant d'organiser les clusters Dataproc et les jobs en cours de création. Vous pouvez ajouter une étiquette à chaque ressource, puis filtrer les ressources par étiquette. Les informations sur les étiquettes sont transmises au système de facturation afin que les clients puissent consulter le détail des frais apparaissant sur votre facture en fonction des étiquettes. |
Durée maximale d'inactivité | Configurez Dataproc pour supprimer les clusters inactifs pendant une durée supérieure au nombre de minutes spécifié. Les clusters sont normalement supprimés directement à la fin d'une exécution, mais leur suppression peut échouer dans de rares cas. Pour en savoir plus, consultez la section Résoudre les problèmes de suppression de clusters. La valeur par défaut est 30 minutes. |
Ignorer la suppression du cluster | Permet d'ignorer ou non la suppression du cluster à la fin d'une exécution. Vous devez les supprimer manuellement. Elle ne doit être utilisée que lors du débogage d'une exécution ayant échoué. La valeur par défaut est False. |
Activer l'intégration de Stackdriver Logging | Activer l'intégration de Stackdriver Logging La valeur par défaut est True. |
Activer l'intégration de Stackdriver Monitoring | Activer l'intégration de Stackdriver Monitoring La valeur par défaut est True. |
Activer la passerelle des composants | Autorisez la passerelle des composants à accéder aux interfaces du cluster, telles que le gestionnaire de ressources YARN et le serveur d'historique Spark. La valeur par défaut est False. |
Privilégier l'adresse IP externe | Lorsque le système s'exécute sur Google Cloud sur le même réseau que le cluster, il utilise normalement l'adresse IP interne pour communiquer avec le cluster. Pour toujours utiliser l'adresse IP externe, définissez cette valeur sur True. La valeur par défaut est False. |
Créer un délai de sondage | Nombre de secondes d'attente après la création d'un cluster pour commencer à interroger les données pour voir si le cluster a été créé. La valeur par défaut est 60 secondes. Les paramètres d'interrogation contrôlent la fréquence à laquelle l'état d'un cluster est interrogé lors de sa création et de sa suppression. Si vous avez programmé l'exécution simultanée de plusieurs pipelines, vous pouvez modifier ces paramètres. |
Créer une gigue de sondage | Gigue maximale aléatoire, en secondes, à ajouter au délai lors de la création d'un cluster. Vous pouvez utiliser cette propriété pour empêcher de nombreux appels d'API simultanés dans Google Cloud lorsque de nombreux pipelines sont programmés pour s'exécuter exactement au même moment. La valeur par défaut est 20 secondes. |
Supprimer le délai de sondage | Nombre de secondes d'attente après la suppression d'un cluster pour commencer à interroger les données pour voir si le cluster a été supprimé. La valeur par défaut est 30 secondes. |
Intervalle du sondage | Nombre de secondes d'attente entre les interrogations de l'état du cluster. La valeur par défaut est 2. |
Propriétés de l'interface Web des profils Dataproc mappées avec des propriétés JSON
Nom de la propriété de l'interface utilisateur du profil Dataproc | Nom de la propriété JSON du profil Dataproc |
---|---|
Libellé du profil | name |
Nom du profil | label |
Description | description |
ID du projet | projectId |
Clé du compte de service du créateur | accountKey |
Région | region |
Zone | zone |
Réseau | network |
ID du projet hôte du réseau | networkHostProjectId |
Subnet | subnet |
Compte de service Runner | serviceAccount |
Nombre d'instances maîtres | masterNumNodes |
Type de machine maître | masterMachineType |
Cœurs maîtres | masterCPUs |
Mémoire maître (Go) | masterMemoryMB |
Master disk size (GB) (Taille du disque maître (Go)) | masterDiskGB |
Master disk type (Type de disque maître) | masterDiskType |
Nombre de nœuds de calcul primaires | workerNumNodes |
Nombre de nœuds de calcul secondaires | secondaryWorkerNumNodes |
Type de machine des nœuds de calcul | workerMachineType |
Cœurs de nœud de calcul | workerCPUs |
Mémoire du nœud de calcul (Go) | workerMemoryMB |
Taille du disque des nœuds de calcul (Go) | workerDiskGB |
Type de disque des nœuds de calcul | workerDiskType |
Métadonnées | clusterMetaData |
Tags réseau | networkTags |
Activer le démarrage sécurisé | secureBootEnabled |
Activer vTPM | vTpmEnabled |
Activer la surveillance de l'intégrité | integrityMonitoringEnabled |
Version de l'image | imageVersion |
URI de l'image personnalisée | customImageUri |
Bucket Cloud Storage | gcsBucket |
Nom de la clé de chiffrement | encryptionKeyName |
Règle d'autoscaling | autoScalingPolicy |
Actions d'initialisation | initActions |
Propriétés du cluster | clusterProperties |
Libellés | clusterLabels |
Durée maximale d'inactivité | idleTTL |
Ignorer la suppression du cluster | skipDelete |
Activer l'intégration de Stackdriver Logging | stackdriverLoggingEnabled |
Activer l'intégration de Stackdriver Monitoring | stackdriverMonitoringEnabled |
Activer la passerelle des composants | componentGatewayEnabled |
Privilégier l'adresse IP externe | preferExternalIP |
Créer un délai de sondage | pollCreateDelay |
Créer une gigue de sondage | pollCreateJitter |
Supprimer le délai de sondage | pollDeleteDelay |
Intervalle du sondage | pollInterval |
Bonnes pratiques
Lorsque vous créez un cluster statique pour vos pipelines, consultez les bonnes pratiques de configuration des clusters.
Étapes suivantes
- Découvrez comment gérer les profils de calcul.