Propriétés du cluster

Les composants Open Source installés sur les clusters Dataproc contiennent de nombreux fichiers de configuration. Par exemple, Apache Spark et Apache Hadoop ont plusieurs fichiers de configuration aux formats XML et texte brut. Vous pouvez utiliser l'option ‑‑properties de la commande gcloud dataproc clusters create pour modifier de nombreux fichiers de configuration courants lors de la création d'un cluster.

Mise en forme

L'option gcloud dataproc clusters create --properties accepte le format de chaîne suivant :

file_prefix1:property1=value1,file_prefix2:property2=value2,...
  • file_prefix est mappé sur un fichier de configuration prédéfini, comme indiqué dans le tableau ci-dessous, et property est mappé sur une propriété dans le fichier.

  • Le délimiteur par défaut utilisé pour séparer plusieurs propriétés de cluster est la virgule (,). Toutefois, si une virgule est incluse dans une valeur de propriété, vous devez modifier la valeur délimiteur en spécifiant "^delimiter^" au début de la (voir la section Échappement de sujet gcloud pour en savoir plus).

    • Exemple utilisant un délimiteur "#" :
      --properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
      

Exemples

Commande gcloud

Pour modifier le paramètre spark.master dans le fichier spark-defaults.conf, ajoutez l'option gcloud dataproc clusters create --properties suivante :

--properties 'spark:spark.master=spark://example.com'

Vous pouvez modifier plusieurs propriétés à la fois, dans un ou plusieurs fichiers de configuration, à l'aide d'une virgule en guise de séparateur. Chaque propriété doit être spécifiée au format file_prefix:property=value complet. Par exemple, pour modifier le paramètre spark.master dans le fichier spark-defaults.conf et le paramètre dfs.hosts dans le fichier hdfs-site.xml, utilisez l'option --properties suivante lors de la création d'un cluster :

--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'

API REST

Pour définir spark.executor.memory sur 10g, insérez le paramètre properties suivant dans la section SoftwareConfig de votre requête clusters.create :

"properties": {
  "spark:spark.executor.memory": "10g"
}

Un moyen simple de créer le corps JSON d'une requête REST de clusters dans l'API Dataproc consiste à lancer la commande gcloud équivalente à l'aide de l'option --log-http. Voici un exemple de la commande gcloud dataproc clusters create qui permet de définir les propriétés de cluster avec l'option --properties spark:spark.executor.memory=10g. Le journal stdout affiche le corps de la requête REST obtenu (l'extrait de properties est présenté ci-dessous) :

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=spark:spark.executor.memory=10g \
    --log-http \
    other args ...

Sortie :

...
== body start ==
{"clusterName": "my-cluster", "config": {"gceClusterConfig": ...
"masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},

... == body end == ...

Une fois que le corps JSON est affiché dans la sortie, vous devez annuler la commande si vous ne voulez pas qu'elle soit prise en compte.

Console

Pour modifier le paramètre spark.master dans le fichier spark-defaults.conf, procédez comme suit :

  1. Dans la console Google Cloud, ouvrez Dataproc Créer un cluster . Cliquez sur le panneau "Personnaliser le cluster", puis faites défiler la page jusqu'à la section "Propriétés du cluster". .

  2. Cliquez sur + AJOUTER DES PROPRIÉTÉS. Sélectionnez spark dans la liste "Préfixe", puis ajoutez "spark.master" dans le champ "Clé" et le paramètre dans le champ "Valeur".

Propriétés des clusters et des jobs

Les propriétés préfixées par un nom de fichier, telles que celles pour Apache Hadoop YARN, HDFS et Spark, sont appliquées au niveau du cluster lorsque vous créez un cluster. Ces propriétés ne peuvent pas être appliquées à un cluster après sa création. Toutefois, la plupart de ces propriétés peuvent également être appliquées à des tâches particulières. Lorsque vous appliquez une propriété à une tâche, le préfixe de fichier n'est pas utilisé.

L'exemple suivant définit la mémoire de l'exécuteur Spark sur 4g pour un job Spark (spark: préfixe omis).

gcloud dataproc jobs submit spark \
    --region=REGION \
    --properties=spark.executor.memory=4g \
    other args ...

Les propriétés de tâche peuvent être envoyées dans un fichier à l'aide de l'option gcloud dataproc jobs submit job-type --properties-file (voir, par exemple, la description de l'option --properties-file pour l'envoi d'une tâche Hadoop).

gcloud dataproc jobs submit JOB_TYPE \
    --region=REGION \
    --properties-file=PROPERTIES_FILE \
    other args ...

PROPERTIES_FILE est un ensemble de paires key=value délimitées par ligne. La propriété à définir est key, et la valeur à définir est value. Consultez le java.util.Properties pour obtenir une description détaillée du format de fichier des propriétés.

Voici un exemple de fichier de propriétés qui peut être transmis à l'indicateur --properties-file lors de l'envoi d'une tâche Dataproc.

 dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml
 spark:spark.history.fs.logDirectory=gs://some-bucket
 spark:spark.eventLog.dir=gs://some-bucket
 capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5

Tableau des propriétés préfixées par un nom de fichier

Préfixe de fichier Fichier Objet du fichier
capacity-scheduler capacity-scheduler.xml Configuration du planificateur de capacité Hadoop YARN
core core-site.xml Configuration générale de Hadoop
distcp distcp-default.xml Configuration de Hadoop Distributed Copy
flink flink-conf.yaml Configuration de Flink
flink-log4j log4j.properties Fichier de paramètres Log4j
hadoop-env hadoop-env.sh Variables d'environnement spécifiques à Hadoop
hadoop-log4j log4j.properties Fichier de paramètres Log4j
hbase hbase-site.xml Configuration HBase
hbase-log4j log4j.properties Fichier de paramètres Log4j
hdfs hdfs-site.xml Configuration de Hadoop HDFS
hive hive-site.xml Configuration de Hive
hive-log4j2 hive-log4j2.properties Fichier de paramètres Log4j
Hudi hudi-default.conf Configuration de Hudi
mapred mapred-site.xml Configuration de Hadoop MapReduce
mapred-env mapred-env.sh Variables d'environnement spécifiques à Hadoop MapReduce
pig pig.properties Configuration de Pig
pig-log4j log4j.properties Fichier de paramètres Log4j
presto config.properties Configuration de Presto
presto-jvm jvm.config Configuration JVM spécifique à Presto
spark spark-defaults.conf Configurer Spark
spark-env spark-env.sh Variables d'environnement spécifiques à Spark
spark-log4j log4j.properties Fichier de paramètres Log4j
tez tez-site.xml Configuration de Tez
webcat-log4j webhcat-log4j2.properties Fichier de paramètres Log4j
yarn yarn-site.xml Configuration de Hadoop YARN
yarn-env yarn-env.sh Variables d'environnement spécifiques à Hadoop YARN
zeppelin zeppelin-site.xml Configuration de Zeppelin
zeppelin-env zeppelin-env.sh Variables d'environnement spécifiques à Zeppelin (composant facultatif uniquement)
zeppelin-log4j log4j.properties Fichier de paramètres Log4j
zookeeper zoo.cfg Configuration de Zookeeper
zookeeper-log4j log4j.properties Fichier de paramètres Log4j

Remarques

  • Certaines propriétés sont réservées et ne peuvent pas être remplacées, car elles ont un impact sur les fonctionnalités du cluster Dataproc. Si vous essayez de modifier une propriété réservée, vous recevez un message d'erreur lors de la création du cluster.
  • Vous pouvez spécifier plusieurs modifications en les séparant par une virgule.
  • L'indicateur --properties ne peut pas modifier les fichiers de configuration qui ne sont pas répertoriés ci-dessus.
  • Les modifications apportées aux propriétés sont appliquées avant le démarrage des daemons du cluster.
  • Si la propriété spécifiée existe, elle est mise à jour. Si la propriété spécifiée n'existe pas, elle est ajoutée au fichier de configuration.

Propriétés du service Dataproc

Les propriétés répertoriées dans cette section sont spécifiques à Dataproc. Ces propriétés peuvent servir à affiner la configuration cluster Dataproc.

Mise en forme

L'option gcloud dataproc clusters create --properties accepte le format de chaîne suivant :

property_prefix1:property1=value1,property_prefix2:property2=value2,...
  • Le délimiteur par défaut utilisé pour séparer plusieurs propriétés de cluster est la virgule (,). Toutefois, si une virgule est incluse dans une valeur de propriété, vous devez modifier la valeur délimiteur en spécifiant "^delimiter^" au début de la (voir la section Échappement de sujet gcloud pour en savoir plus).

    • Exemple utilisant un délimiteur "#" :
      --properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
      

Exemple :

Créez un cluster et définissez le mode de flexibilité améliorée sur le brassage de nœuds de calcul principaux pour Spark.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=dataproc:efm.spark.shuffle=primary-worker \
    other args ...

Tableau des propriétés du service Dataproc

Préfixe de la propriété Valeur Values Description
Dataproc agent.process.threads.job.min number Dataproc exécute simultanément les pilotes de tâches utilisateur dans un pool de threads. Cette propriété contrôle le nombre minimal de threads dans le pool de threads pour un démarrage rapide, même lorsqu'aucune tâche n'est en cours d'exécution (par défaut: 10).
Dataproc agent.process.threads.job.max number Dataproc exécute simultanément les pilotes de tâches utilisateur dans un pool de threads. Cette propriété contrôle le nombre maximal de threads dans le pool de threads, limitant ainsi la simultanéité maximale des tâches utilisateur. Augmentez cette valeur pour augmenter la simultanéité (par défaut: 100).
Dataproc am.primary_only true ou false Définissez cette propriété sur true pour empêcher l'application maître de s'exécuter sur des nœuds de calcul préemptifs du cluster Dataproc. Remarque : Cette fonctionnalité est uniquement disponible dans Dataproc 1.2 et versions ultérieures. La valeur par défaut est false.
Dataproc conda.env.config.uri gs://<path> Emplacement dans Cloud Storage du fichier de configuration de l'environnement Conda. Un nouvel environnement Conda sera créé et activé à partir de ce fichier. Pour en savoir plus, consultez la section Utiliser les propriétés de cluster liées à Conda. (par défaut : empty)
Dataproc conda.packages Packages Conda Cette propriété accepte une liste de packages Conda séparés par une virgule avec des versions spécifiques à installer dans l'environnement Conda base. Pour en savoir plus, consultez Utiliser les propriétés de cluster associées à Conda. (par défaut : empty)
Dataproc dataproc.allow.zero.workers true ou false Définissez la propriété SoftwareConfig sur true dans une requête API Dataproc clusters.create pour créer un cluster à nœud unique. Cela permet de modifier le nombre de nœuds de calcul par défaut de 2 à 0, et de placer les composants de nœud de calcul sur l'hôte maître. Vous pouvez également créer un cluster à nœud unique à partir de la console Google Cloud ou de la Google Cloud CLI en définissant le nombre de nœuds de calcul sur 0.
dataproc dataproc.alpha.master.nvdimm.size.gb 1500-6500 La définition d'une valeur crée un nœud maître Dataproc avec la mémoire persistante Intel Optane DC. Remarque : Les VM Optane ne peuvent être créées que dans des zones us-central1-f, avec le type de machine n1-highmem-96-aep et uniquement dans les projets en liste blanche.
dataproc : dataproc.alpha.worker.nvdimm.size.gb 1500-6500 La définition d'une valeur crée un nœud de calcul Dataproc avec la mémoire persistante Intel Optane DC. Remarque : Les VM Optane ne peuvent être créées que dans des zones us-central1-f, avec le type de machine n1-highmem-96-aep et uniquement dans les projets en liste blanche.
dataproc : dataproc.await-new-workers-service-registration true ou false Cette propriété est disponible dans les images 2.0.49 et versions ultérieures. La valeur par défaut est false. Définissez cette propriété sur true pour attendre que les nouveaux nœuds de calcul primaires enregistrent des chefs de service, tels que le composant NameNode HDFS et le gestionnaire de ressources YARN, lors de la création du cluster ou du scaling à la hausse du cluster (seuls les services HDFS et YARN sont surveillés). Lorsque la valeur est true, si un nouveau worker ne parvient pas à s'inscrire à un service, l'état FAILED lui est attribué. Un nœud de calcul défaillant est supprimé si le cluster effectue un scaling à la hausse. Si le cluster est en cours de création, un nœud de calcul en échec est supprimé si l'option gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE ou le champ actionOnFailedPrimaryWorkers=DELETE de l'API a été spécifié dans la commande gcloud ou la requête de création du cluster d'API.
dataproc : dataproc.beta.secure.multi-tenancy.user.mapping user-to-service account mappings Cette propriété prend une liste de mappages entre des utilisateurs et des comptes de service. Les utilisateurs mappés peuvent envoyer des charges de travail interactives au cluster avec des identités d'utilisateur isolées (consultez la section Architecture mutualisée sécurisée basée sur un compte de service Dataproc).
dataproc : dataproc.cluster.caching.enabled true ou false Lorsque la mise en cache du cluster est activée, celui-ci met en cache les données Cloud Storage auxquelles les jobs Spark accèdent, ce qui améliore les performances des jobs sans compromettre la cohérence. (par défaut : false)
dataproc dataproc.cluster-ttl.consider-yarn-activity true ou false Si la valeur est true, la suppression planifiée du cluster prend en compte à la fois l'activité de YARN et de l'API Dataproc Jobs lors du calcul de la durée d'inactivité du cluster. Lorsque ce paramètre est défini sur false, seule l'activité de l'API Dataproc Jobs est prise en compte. (valeur par défaut : true). Pour en savoir plus, consultez la section Calcul du temps d'inactivité du cluster.
dataproc dataproc.conscrypt.provider.enable true ou false Active (true) ou désactive (false) Conscrypt en tant que fournisseur de sécurité Java principal. Remarque : Conscrypt est activé par défaut dans Dataproc 1.2 et versions ultérieures, mais désactivé dans les versions 1.0/1.1.
Dataproc dataproc.cooperative.multi-tenancy.user.mapping user-to-service account mappings Liste de correspondances entre des utilisateurs et des comptes de service, séparées par des virgules. Si un cluster est créé avec cette propriété, lorsqu'un utilisateur envoie une tâche, le cluster tente d'emprunter l'identité du compte de service correspondant pour accéder à Cloud Storage via le connecteur Cloud Storage. Cette fonctionnalité nécessite la version 2.1.4 ou ultérieure du connecteur Cloud Storage. Pour en savoir plus, consultez la page Architecture mutualisée coopérative Dataproc. (par défaut : empty).
dataproc dataproc.control.max.assigned.job.tasks 100 Cette propriété limite le nombre de tâches pouvant être exécutées simultanément sur un nœud maître de cluster. Si le nombre de tâches actives dépasse la limite, les nouveaux jobs sont mis en file d'attente jusqu'à ce que les jobs en cours d'exécution soient terminés et que des ressources soient libérées pour permettre la planification de nouvelles tâches. Remarque:Il n'est pas recommandé de définir une limite de tâches par défaut supérieure à 100 (valeur par défaut), car cela peut entraîner une saturation de la mémoire dans le nœud maître.
dataproc dataproc:hudi.version Version Hudi Définit la version Hudi utilisée avec le composant Dataproc Hudi facultatif. Remarque:Cette version est définie par Dataproc pour être compatible avec la version de l'image de cluster. Si elle est définie par l'utilisateur, la création de cluster peut échouer si la version spécifiée n'est pas compatible avec l'image du cluster.
dataproc dataproc.lineage.enabled true Active la lignée de données dans un cluster Dataproc pour les tâches Spark.
dataproc dataproc.localssd.mount.enable true ou false Permet de monter des disques SSD locaux en tant que répertoires temporaires Hadoop/Spark et répertoires de données HDFS (la valeur par défaut est true).
Dataproc dataproc.logging.stackdriver.enable true ou false Active (true) ou désactive (false) Cloud Logging (valeur par défaut : true). Pour en savoir plus, consultez les tarifs de Cloud Logging.
Dataproc dataproc.logging.stackdriver.job.driver.enable true ou false Active (true) ou désactive (false) les journaux des pilotes de jobs Dataproc dans Cloud Logging. Consultez la section Sortie et journaux des tâches Dataproc (valeur par défaut : false).
dataproc dataproc.logging.stackdriver.job.yarn.container.enable true ou false Active (true) ou désactive (false) les journaux de conteneurs YARN dans Cloud Logging. Consultez la section Options de sortie de la tâche Spark. (par défaut : false).
Dataproc dataproc.master.custom.init.actions.mode RUN_BEFORE_SERVICES ou RUN_AFTER_SERVICES Pour les clusters d'images 2.0 et versions ultérieures, lorsque ce paramètre est défini sur RUN_AFTER_SERVICES, les actions d'initialisation sur le maître s'exécutent après HDFS et tous les services qui dépendent de HDFS sont initialisés. Exemples de services dépendants de HDFS : HBase, Hive Server2, Ranger, Solr, ainsi que les serveurs d'historique Spark et MapReduce. (par défaut : RUN_BEFORE_SERVICES)
Dataproc dataproc.monitoring.stackdriver.enable true ou false Active (true) ou désactive (false) l'agent Monitoring (valeur par défaut : false). Cette propriété est obsolète. Pour activer la collecte de métriques Dataproc OSS dans Monitoring, consultez Activer la collecte de métriques personnalisées.
dataproc dataproc.scheduler.driver-size-mb number L'espace mémoire moyen du pilote, qui détermine le nombre maximal de tâches simultanées qu'un cluster va exécuter. La valeur par défaut est de 1 Go. Une valeur plus faible, telle que 256, peut être appropriée pour les tâches Spark.
dataproc dataproc.scheduler.job-submission-rate number Les tâches sont limitées si ce débit est dépassé. Le débit par défaut est de 1.0 RPS.
dataproc dataproc.scheduler.max-concurrent-jobs number Nombre maximal de jobs simultanés. Si cette valeur n'est pas définie lors de la création du cluster, la limite supérieure des tâches simultanées est calculée comme max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5). masterMemoryMb est déterminé par le type de machine de la VM maître. masterMemoryMbPerJob est 1024 par défaut, mais peut être configuré lors de la création du cluster avec la propriété dataproc:dataproc.scheduler.driver-size-mb.
dataproc dataproc.scheduler.max-memory-used number Quantité maximale de RAM pouvant être utilisée. Si l'utilisation actuelle dépasse ce seuil, vous ne pourrez pas planifier de nouveaux jobs. La valeur par défaut est 0.9 (90 %). Si la valeur est 1.0, le débit des tâches d'utilisation de la mémoire principale est désactivé.
dataproc dataproc.scheduler.min-free-memory.mb number Quantité minimale de mémoire libre en mégaoctets requise par le pilote de tâche Dataproc pour planifier une autre tâche sur le cluster. La valeur par défaut est 256 Mo.
dataproc dataproc.snap.enabled true ou false Active ou désactive le démon Ubuntu Snap. La valeur par défaut est true. Si la valeur est définie sur false, les paquets Snap préinstallés dans l'image ne sont pas affectés, mais l'actualisation automatique est désactivée. S'applique aux images Ubuntu 1.4.71, 1.5.46 et 2.0.20, ainsi qu'aux images Ubuntu plus récentes.
Dataproc dataproc.worker.custom.init.actions.mode RUN_BEFORE_SERVICES Pour les clusters d'images antérieurs à la version 2.0, RUN_BEFORE_SERVICES n'est pas défini, mais peut être défini par l'utilisateur lors de la création du cluster. Pour les clusters d'images 2.0+, RUN_BEFORE_SERVICES est défini, et la propriété ne peut pas être transmise au cluster (elle ne peut pas être modifiée par l'utilisateur). Pour en savoir plus sur l'effet de ce paramètre, consultez la section Considérations et consignes importantes – Traitement de l'initialisation.
dataproc dataproc.yarn.orphaned-app-termination.enable true ou false La valeur par défaut est true. Définissez la valeur sur false pour empêcher Dataproc de mettre fin au statut "orphelin" Applications YARN. Dataproc considère qu'une application YARN est orpheline si le pilote de tâche qui a envoyé l'application YARN a quitté le système. Avertissement : Si vous utilisez le mode de cluster Spark (spark.submit.deployMode=cluster) et que vous définissez spark.yarn.submit.waitAppCompletion=false, le pilote Spark se ferme sans attendre la fin des applications YARN. Dans ce cas, définissez dataproc:dataproc.yarn.orphaned-app-termination.enable=false. Définissez également cette propriété sur false si vous envoyez des tâches Hive.
dataproc efm.spark.shuffle primary-worker Si défini sur primary-worker, les données de brassage Spark sont écrites sur les nœuds de calcul principaux." Pour en savoir plus, consultez la page Mode de flexibilité améliorée de Dataproc.
dataproc job.history.to-gcs.enabled true ou false Permet de conserver les fichiers d'historique MapReduce et Spark dans le bucket temporaire Dataproc (valeur par défaut : true pour les versions d'image 1.5 et ultérieures). Les utilisateurs peuvent remplacer les emplacements de persistance des fichiers d'historique des tâches via les propriétés suivantes: mapreduce.jobhistory.done-dir, mapreduce.jobhistory.intermediate-done-dir, spark.eventLog.dir et spark.history.fs.logDirectory. Consultez la page Serveur d'historique persistant Dataproc pour en savoir plus sur ces propriétés de cluster et sur les autres propriétés de cluster associées à l'historique des tâches et aux fichiers d'événements Dataproc.
Dataproc jobs.file-backed-output.enable true ou false Configure les tâches Dataproc pour diriger leur sortie vers des fichiers temporaires dans le répertoire /var/log/google-dataproc-job. Doit être défini sur true pour activer la journalisation du pilote de tâches dans Cloud Logging (valeur par défaut : true).
Dataproc jupyter.listen.all.interfaces true ou false Pour réduire le risque d'exécution de code à distance sur les API de serveur de notebooks non sécurisées, le paramètre par défaut pour les versions d'images 1.3 et ultérieures est false, ce qui limite les connexions à localhost (127.0.0.1) lorsque Passerelle des composants est activé (l'activation de la passerelle des composants n'est pas requise pour les images 2.0+). Ce paramètre par défaut peut être remplacé en définissant la propriété sur true pour autoriser toutes les connexions.
Dataproc jupyter.notebook.gcs.dir gs://<dir-path> Emplacement dans Cloud Storage qui sert à enregistrer les notebooks Jupyter.
Dataproc kerberos.beta.automatic-config.enable true ou false Lorsqu'il est défini sur true, les utilisateurs n'ont pas besoin de spécifier le mot de passe racine principal Kerberos avec les options --kerberos-root-principal-password et --kerberos-kms-key-uri (par défaut: false). Consultez la section Activer le mode sécurisé Hadoop via Kerberos pour plus d'informations.
Dataproc kerberos.cross-realm-trust.admin-server hostname/address Nom d'hôte/adresse du serveur d'administration distant (souvent identique à celui/celle du serveur KDC).
Dataproc kerberos.cross-realm-trust.kdc hostname/address Nom d'hôte/adresse du serveur KDC distant.
Dataproc kerberos.cross-realm-trust.realm realm name Les noms de domaine peuvent être constitués de n'importe quelle chaîne ASCII en MAJUSCULES. Généralement, le nom de domaine est identique à votre nom de domaine DNS (en MAJUSCULES). Exemple : Si les ordinateurs portent le nom "machine-idexample.west-coast.mycompany.com", le domaine associé peut être désigné par "EXAMPLE.WEST-COAST.MYCOMPANY.COM".
Dataproc kerberos.cross-realm-trust.shared-password.uri gs://<dir-path> Emplacement dans Cloud Storage du mot de passe partagé chiffré KMS.
Dataproc kerberos.kdc.db.key.uri gs://<dir-path> Emplacement dans Cloud Storage du fichier chiffré KMS contenant la clé principale de la base de données KDC.
Dataproc kerberos.key.password.uri gs://<dir-path> Emplacement dans Cloud Storage du fichier chiffré KMS contenant le mot de passe de la clé dans le fichier keystore.
Dataproc kerberos.keystore.password.uri gs://<dir-path> Emplacement dans Cloud Storage du fichier chiffré KMS contenant le mot de passe du fichier keystore.
Dataproc kerberos.keystore.uri1 gs://<dir-path> Emplacement dans Cloud Storage du fichier keystore contenant le certificat générique et la clé privée utilisée par les nœuds du cluster.
Dataproc kerberos.kms.key.uri KMS key URI URI de la clé KMS utilisée pour déchiffrer le mot de passe racine, par exemple projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (voir ID de ressource de la clé).
Dataproc kerberos.root.principal.password.uri gs://<dir-path> Emplacement dans Cloud Storage du mot de passe chiffré KMS pour le compte principal racine Kerberos.
Dataproc kerberos.tgt.lifetime.hours hours Durée de vie maximale du ticket TGT (ticket granting ticket ou ticket d'octroi de ticket).
Dataproc kerberos.truststore.password.uri gs://<dir-path> Emplacement dans Cloud Storage du fichier chiffré KMS contenant le mot de passe du fichier truststore.
Dataproc kerberos.truststore.uri2 gs://<dir-path> Emplacement dans Cloud Storage du fichier truststore chiffré KMS contenant des certificats approuvés.
Dataproc pip.packages Packages Pip Cette propriété accepte une liste de packages Pip séparés par une virgule avec des versions spécifiques, à installer dans l'environnement Conda base. Pour en savoir plus, consultez Propriétés de cluster associées à Conda. (par défaut : empty)
Dataproc ranger.kms.key.uri KMS key URI URI de la clé KMS utilisée pour déchiffrer le mot de passe administrateur Ranger, par exemple projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (voir ID de ressource de la clé).
Dataproc ranger.admin.password.uri gs://<dir-path> Emplacement dans Cloud Storage du mot de passe chiffré KMS pour l'administrateur Ranger.
Dataproc ranger.db.admin.password.uri gs://<dir-path> Emplacement dans Cloud Storage du mot de passe chiffré KMS pour l'administrateur de la base de données Ranger.
Dataproc ranger.cloud-sql.instance.connection.name cloud sql instance connection name Nom de connexion de l'instance Cloud SQL, par exemple project-id:region:name..
Dataproc ranger.cloud-sql.root.password.uri gs://<dir-path> Emplacement dans Cloud Storage du mot de passe chiffré KMS pour l'utilisateur racine de l'instance Cloud SQL.
Dataproc ranger.cloud-sql.use-private-ip true ou false Indique si la communication entre les instances de cluster et l'instance Cloud SQL doit s'effectuer via une adresse IP privée. La valeur par défaut est false.
Dataproc solr.gcs.path gs://<dir-path> Chemin d'accès Cloud Storage pour agir en tant que répertoire d'accueil Solr.
Dataproc startup.component.service-binding-timeout.hadoop-hdfs-namenode seconds Durée pendant laquelle le script de démarrage Dataproc attend que le paramètre hadoop-hdfs-namenode soit associé aux ports avant de décider que son démarrage a réussi. La valeur maximale reconnue est de 1 800 secondes (30 minutes).
Dataproc startup.component.service-binding-timeout.hive-metastore seconds Durée pendant laquelle le script de démarrage Dataproc attend que le service hive-metastore soit associé aux ports avant de décider que son démarrage a réussi. La valeur maximale reconnue est de 1 800 secondes (30 minutes).
Dataproc startup.component.service-binding-timeout.hive-server2 seconds Durée pendant laquelle le script de démarrage Dataproc attend que le paramètre hive-server2 soit associé aux ports avant de décider que son démarrage a réussi. La valeur maximale reconnue est de 1 800 secondes (30 minutes).
Dataproc user-attribution.enabled true ou false Définissez cette propriété sur true pour attribuer une tâche Dataproc à l'identité de l'utilisateur qui l'a envoyée (valeur par défaut : false).
dataproc yarn.docker.enable true ou false Définissez cette valeur sur true pour activer la fonctionnalité Docker Dataproc sur YARN (valeur par défaut : false).
dataproc yarn.docker.image docker image Lorsque vous activez la fonctionnalité Docker Dataproc sur YARN (dataproc:yarn.docker.enable=true), vous pouvez utiliser cette propriété facultative pour spécifier votre image Docker (par exemple, dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1). Si elle est spécifiée, l'image est téléchargée et mise en cache dans tous les nœuds du cluster lors de sa création.
dataproc yarn.log-aggregation.enabled true ou false Permet (true) d'activer l'agrégation de journaux YARN dans l'temp bucket du cluster. Le nom du bucket se présente sous la forme suivante: dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING>. (valeur par défaut : true pour les versions d'image 1.5 et ultérieures) Remarque : Le bucket temporaire du cluster n'est pas supprimé lorsque le cluster est supprimé. Les utilisateurs peuvent également définir l'emplacement des journaux YARN agrégés en écrasant la propriété YARN yarn.nodemanager.remote-app-log-dir.
knox gateway.host ip address Pour réduire le risque d'exécution de code à distance sur les API de serveur de notebooks non sécurisées, le paramètre par défaut pour les versions d'images 1.3 et ultérieures est 127.0.0.1. Il limite les connexions à localhost lorsque Passerelle des composants est activée. Le paramètre par défaut peut être remplacé, par exemple en définissant la propriété sur 0.0.0.0 pour autoriser toutes les connexions.
zeppelin zeppelin.notebook.gcs.dir gs://<dir-path> Emplacement dans Cloud Storage qui sert à enregistrer les notebooks Zeppelin.
zeppelin zeppelin.server.addr ip address Pour réduire le risque d'exécution de code à distance sur les API de serveur de notebooks non sécurisées, le paramètre par défaut pour les versions d'images 1.3 et ultérieures est 127.0.0.1. Il limite les connexions à localhost lorsque Passerelle des composants est activée. Ce paramètre par défaut peut être remplacé, par exemple en définissant la propriété sur 0.0.0.0 pour autoriser toutes les connexions.

1Fichier keystore : le fichier keystore contient le certificat SSL. Il doit être au format Java KeyStore (JKS). Lorsqu'il est copié sur les VM, il est renommé keystore.jks. Le certificat SSL doit être un certificat générique qui s'applique à chaque nœud du cluster.

2Fichier truststore : le fichier truststore doit être au format Java KeyStore (JKS). Lorsqu'il est copié sur les VM, il est renommé truststore.jks.