Propriétés du cluster

Les composants Open Source installés sur les clusters Dataproc contiennent de nombreux fichiers de configuration. Par exemple, Apache Spark et Apache Hadoop ont plusieurs fichiers de configuration aux formats XML et texte brut. Vous pouvez utiliser l'option ‑‑properties de la commande gcloud dataproc clusters create pour modifier de nombreux fichiers de configuration courants lors de la création d'un cluster.

Mise en forme

L'option gcloud dataproc clusters create --properties accepte le format de chaîne suivant :

file_prefix1:property1=value1,file_prefix2:property2=value2,...
  • file_prefix est mappé sur un fichier de configuration prédéfini, comme indiqué dans le tableau ci-dessous, et property est mappé sur une propriété dans le fichier.

  • Le délimiteur par défaut utilisé pour séparer plusieurs propriétés de cluster est la virgule (,). Toutefois, si une virgule est incluse dans une valeur de propriété, vous devez la modifier en spécifiant "^delimiter^" au début de la liste de propriétés (consultez la section gcloud topic escaping pour en savoir plus).

    • Exemple utilisant un délimiteur "#" :
      --properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
      

Examples

Commande gcloud

Pour modifier le paramètre spark.master dans le fichier spark-defaults.conf, ajoutez l'option gcloud dataproc clusters create --properties suivante :

--properties 'spark:spark.master=spark://example.com'

Vous pouvez modifier plusieurs propriétés à la fois, dans un ou plusieurs fichiers de configuration, à l'aide d'une virgule en guise de séparateur. Chaque propriété doit être spécifiée au format file_prefix:property=value complet. Par exemple, pour modifier le paramètre spark.master dans le fichier spark-defaults.conf et le paramètre dfs.hosts dans le fichier hdfs-site.xml, utilisez l'option --properties suivante lors de la création d'un cluster :

--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'

API REST

Pour définir spark.executor.memory sur 10g, insérez le paramètre properties suivant dans la section SoftwareConfig de votre requête clusters.create :

"properties": {
  "spark:spark.executor.memory": "10g"
}

Un moyen simple de créer le corps JSON d'une requête REST de clusters dans l'API Dataproc consiste à lancer la commande gcloud équivalente à l'aide de l'option --log-http. Voici un exemple de la commande gcloud dataproc clusters create qui permet de définir les propriétés de cluster avec l'option --properties spark:spark.executor.memory=10g. Le journal stdout affiche le corps de la requête REST obtenu (l'extrait de properties est présenté ci-dessous) :

gcloud dataproc clusters create my-cluster \
    --region=region \
    --properties=spark:spark.executor.memory=10g \
    --log-http \
    other args ...

Sortie :

...
== body start ==
{"clusterName": "my-cluster", "config": {"gceClusterConfig": ...
"masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},

... == body end == ...

Une fois que le corps JSON est affiché dans la sortie, vous devez annuler la commande si vous ne voulez pas qu'elle soit prise en compte.

Console

Pour modifier le paramètre spark.master dans le fichier spark-defaults.conf, procédez comme suit :

  1. Dans la console Google Cloud, ouvrez la page Dataproc Créer un cluster. Cliquez sur le panneau "Personnaliser le cluster", puis faites défiler la page jusqu'à la section "Propriétés du cluster".

  2. Cliquez sur + AJOUTER DES PROPRIÉTÉS. Sélectionnez spark dans la liste "Préfixe", puis ajoutez "spark.master" dans le champ "Clé" et le paramètre dans le champ "Valeur".

Propriétés du cluster ou des tâches

Les propriétés préfixées par un nom de fichier, telles que celles pour Apache Hadoop YARN, HDFS et Spark, sont appliquées au niveau du cluster lorsque vous créez un cluster. Ces propriétés ne peuvent pas être appliquées à un cluster après sa création. Cependant, nombre de ces propriétés peuvent également s'appliquer à des tâches spécifiques. Lorsque vous appliquez une propriété à une tâche, le préfixe de fichier n'est pas utilisé.

L'exemple suivant définit la mémoire de l'exécuteur Spark sur 4g pour une tâche Spark (préfixe spark: omis).

gcloud dataproc jobs submit spark \
    --region=region \
    --properties=spark.executor.memory=4g \
    ... other args ...

Les propriétés de tâche peuvent être envoyées dans un fichier à l'aide de l'indicateur gcloud dataproc jobs submit job-type --properties-file (voir, par exemple, la description de l'élément --properties-file pour l'envoi d'une tâche Hadoop).

gcloud dataproc jobs submit JOB_TYPE \
    --region=region \
    --properties-file=PROPERTIES_FILE \
    ... other args ...

PROPERTIES_FILE est un ensemble de paires key=value délimitées par des lignes. La propriété à définir est key, et la valeur à définir est value. Consultez la section java.util.Properties pour obtenir une description détaillée du format de fichier des propriétés.

Voici un exemple de fichier de propriétés pouvant être transmis à l'option --properties-file lors de l'envoi d'un job Dataproc.

 dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml
 spark:spark.history.fs.logDirectory=gs://some-bucket
 spark:spark.eventLog.dir=gs://some-bucket
 capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5

Tableau des propriétés préfixées par un nom de fichier

Préfixe de fichier File Objet du fichier
capacity-scheduler capacity-scheduler.xml Configuration du planificateur de capacité Hadoop YARN
core core-site.xml Configuration générale de Hadoop
distcp distcp-default.xml Configuration de Hadoop Distributed Copy
flink flink-conf.yaml Configuration de Flink
flink-log4j log4j.properties Fichier de paramètres Log4j
hadoop-env hadoop-env.sh Variables d'environnement spécifiques à Hadoop
hadoop-log4j log4j.properties Fichier de paramètres Log4j
hbase hbase-site.xml Configuration HBase
hbase-log4j log4j.properties Fichier de paramètres Log4j
hdfs hdfs-site.xml Configuration de Hadoop HDFS
hive hive-site.xml Configuration de Hive
hive-log4j2 hive-log4j2.properties Fichier de paramètres Log4j
hudi hudi-default.conf Configuration Hudi
mapred mapred-site.xml Configuration de Hadoop MapReduce
mapred-env mapred-env.sh Variables d'environnement spécifiques à Hadoop MapReduce
pig pig.properties Configuration de Pig
pig-log4j log4j.properties Fichier de paramètres Log4j
presto config.properties Configuration de Presto
presto-jvm jvm.config Configuration JVM spécifique à Presto
spark spark-defaults.conf Configurer Spark
spark-env spark-env.sh Variables d'environnement spécifiques à Spark
spark-log4j log4j.properties Fichier de paramètres Log4j
tez tez-site.xml Configuration de Tez
webcat-log4j webhcat-log4j2.properties Fichier de paramètres Log4j
yarn yarn-site.xml Configuration de Hadoop YARN
yarn-env yarn-env.sh Variables d'environnement spécifiques à Hadoop YARN
zeppelin zeppelin-site.xml Configuration de Zeppelin
zeppelin-env zeppelin-env.sh Variables d'environnement spécifiques à Zeppelin (composant facultatif uniquement)
zeppelin-log4j log4j.properties Fichier de paramètres Log4j
zookeeper zoo.cfg Configuration de Zookeeper
zookeeper-log4j log4j.properties Fichier de paramètres Log4j

Remarques

  • Certaines propriétés sont réservées et ne peuvent pas être remplacées, car elles ont un impact sur les fonctionnalités du cluster Dataproc. Si vous essayez de modifier une propriété réservée, vous recevez un message d'erreur lors de la création du cluster.
  • Vous pouvez spécifier plusieurs modifications en les séparant par une virgule.
  • L'indicateur --properties ne peut pas modifier les fichiers de configuration qui ne sont pas répertoriés ci-dessus.
  • Les modifications apportées aux propriétés sont appliquées avant le démarrage des daemons du cluster.
  • Si la propriété spécifiée existe, elle est mise à jour. Si la propriété spécifiée n'existe pas, elle est ajoutée au fichier de configuration.

Propriétés du service Dataproc

Les propriétés répertoriées dans cette section sont spécifiques à Dataproc. Ces propriétés peuvent être utilisées pour configurer davantage les fonctionnalités de votre cluster Dataproc.

Mise en forme

L'option gcloud dataproc clusters create --properties accepte le format de chaîne suivant :

property_prefix1:property1=value1,property_prefix2:property2=value2,...
  • Le délimiteur par défaut utilisé pour séparer plusieurs propriétés de cluster est la virgule (,). Toutefois, si une virgule est incluse dans une valeur de propriété, vous devez la modifier en spécifiant "^delimiter^" au début de la liste de propriétés (consultez la section gcloud topic escaping pour en savoir plus).

    • Exemple utilisant un délimiteur "#" :
      --properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
      

Exemple :

Créez un cluster et définissez le mode de flexibilité améliorée sur le brassage de nœuds de calcul principaux pour Spark.

gcloud dataproc jobs submit spark \
    --region=region \
    --properties=dataproc:efm.spark.shuffle=primary-worker \
    ... other args ...

Tableau des propriétés du service Dataproc

Préfixe de la propriété Propriété Values Description
dataproc agent.process.threads.job.min number Dataproc exécute les pilotes de tâches utilisateur simultanément dans un pool de threads. Cette propriété contrôle le nombre minimal de threads dans le pool de threads pour permettre un démarrage rapide, même lorsqu'aucune tâche n'est en cours d'exécution (par défaut: 10).
dataproc agent.process.threads.job.max number Dataproc exécute les pilotes de tâches utilisateur simultanément dans un pool de threads. Cette propriété contrôle le nombre maximal de threads dans le pool de threads, ce qui limite la simultanéité maximale des tâches utilisateur. Augmentez cette valeur pour augmenter la simultanéité (par défaut: 100).
dataproc am.primary_only true ou false Définissez cette propriété sur true pour empêcher l'application maître de s'exécuter sur des nœuds de calcul préemptifs du cluster Dataproc. Remarque : Cette fonctionnalité est uniquement disponible dans Dataproc 1.2 et versions ultérieures. La valeur par défaut est false.
dataproc conda.env.config.uri gs://<path> Emplacement Cloud Storage du fichier de configuration de l'environnement Conda. Un environnement Conda sera créé et activé à partir de ce fichier. Pour en savoir plus, consultez Utiliser les propriétés de cluster liées à Conda. (par défaut : empty)
dataproc conda.packages Forfaits Conda Cette propriété accepte une liste de packages Conda séparés par une virgule avec des versions spécifiques à installer dans l'environnement Conda base. Pour en savoir plus, consultez Utiliser les propriétés de cluster liées à Conda. (par défaut: empty).
dataproc dataproc.allow.zero.workers true ou false Définissez la propriété SoftwareConfig sur true dans une requête API Dataproc clusters.create pour créer un cluster à nœud unique. Cela permet de modifier le nombre de nœuds de calcul par défaut de 2 à 0, et de placer les composants de nœud de calcul sur l'hôte maître. Vous pouvez également créer un cluster à nœud unique à partir de la console Google Cloud ou de la Google Cloud CLI en définissant le nombre de nœuds de calcul sur 0.
dataproc dataproc.alpha.master.nvdimm.size.gb 1500-6500 La définition d'une valeur crée un nœud maître Dataproc avec la mémoire persistante Intel Optane DC. Remarque : Les VM Optane ne peuvent être créées que dans des zones us-central1-f, avec le type de machine n1-highmem-96-aep et uniquement dans les projets en liste blanche.
dataproc: dataproc.alpha.worker.nvdimm.size.gb 1500-6500 La définition d'une valeur crée un nœud de calcul Dataproc avec la mémoire persistante Intel Optane DC. Remarque : Les VM Optane ne peuvent être créées que dans des zones us-central1-f, avec le type de machine n1-highmem-96-aep et uniquement dans les projets en liste blanche.
dataproc: dataproc.await-new-workers-service-registration true ou false Cette propriété est disponible dans les images 2.0.49 et les versions ultérieures. La valeur par défaut est false. Définissez cette propriété sur true pour attendre que de nouveaux nœuds de calcul primaires enregistrent des dirigeants de service, tels que HDFS NameNode et le gestionnaire de ressources YARN, lors de la création ou du scaling à la hausse du cluster (seuls les services HDFS et YARN sont surveillés). Si la valeur est true, si un nouveau nœud de calcul ne parvient pas à s'inscrire à un service, il se voit attribuer un état FAILED. Un nœud de calcul ayant échoué est supprimé si le cluster effectue un scaling à la hausse. Si le cluster est en cours de création, un nœud de calcul ayant échoué est supprimé si l'option gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE ou le champ d'API actionOnFailedPrimaryWorkers=DELETE ont été spécifiés dans le cadre de la commande gcloud ou de la requête de création de cluster de l'API.
dataproc: dataproc.beta.secure.multi-tenancy.user.mapping user-to-service account mappings Cette propriété prend une liste de mappages entre des utilisateurs et des comptes de service. Les utilisateurs mappés peuvent envoyer des charges de travail interactives au cluster avec des identités d'utilisateur isolées (consultez la section Architecture mutualisée sécurisée basée sur un compte de service Dataproc).
dataproc: dataproc.cluster.caching true ou false Lorsque la mise en cache du cluster est activée, celui-ci met en cache les données Cloud Storage auxquelles les tâches Spark ont accès, ce qui améliore les performances des tâches sans compromettre la cohérence. (par défaut : false)
dataproc dataproc.cluster-ttl.consider-yarn-activity true ou false Pour les versions d'image 1.4.64+, 1.5.39+ et 2.0.13+, la valeur par défaut true de cette propriété entraîne la suppression planifiée du cluster en tenant compte de l'activité YARN, en plus de l'activité de l'API Dataproc Jobs pour déterminer le temps d'inactivité du cluster Lorsque ce paramètre est défini sur false pour les versions d'image 1.4.64+, 1.5.39+ et 2.0.13+, ou lorsque vous utilisez des images avec des numéros de version inférieurs, seule l'activité de l'API Dataproc Jobs est prise en compte. La valeur par défaut est true pour les versions d'image 1.4.64+, 1.5.39+ et 2.0.13+.
dataproc dataproc.conscrypt.provider.enable true ou false Active (true) ou désactive (false) Conscrypt en tant que fournisseur de sécurité Java principal. Remarque : Conscrypt est activé par défaut dans Dataproc 1.2 et versions ultérieures, mais désactivé dans les versions 1.0/1.1.
dataproc dataproc.cooperative.multi-tenancy.user.mapping user-to-service account mappings Liste de correspondances entre des utilisateurs et des comptes de service, séparées par des virgules. Si un cluster est créé avec cette propriété, lorsqu'un utilisateur envoie une tâche, le cluster tente d'emprunter l'identité du compte de service correspondant pour accéder à Cloud Storage via le connecteur Cloud Storage. Cette fonctionnalité nécessite la version 2.1.4 ou ultérieure du connecteur Cloud Storage. Pour en savoir plus, consultez la page Architecture mutualisée coopérative Dataproc. (par défaut : empty).
dataproc dataproc:hudi.version Version Hudi Définit la version Hudi utilisée avec le composant Dataproc Hudi facultatif. Remarque:Cette version est définie par Dataproc de manière à être compatible avec la version de l'image du cluster. Si elle est définie par l'utilisateur, la création du cluster peut échouer si la version spécifiée n'est pas compatible avec l'image du cluster.
dataproc dataproc.lineage.enabled true Active la traçabilité des données dans un cluster Dataproc pour les jobs Spark.
dataproc dataproc.localssd.mount.enable true ou false Permet de monter des disques SSD locaux en tant que répertoires temporaires Hadoop/Spark et répertoires de données HDFS (la valeur par défaut est true).
dataproc dataproc.logging.stackdriver.enable true ou false Active (true) ou désactive (false) Cloud Logging (valeur par défaut : true). Pour en savoir plus, consultez les tarifs de Cloud Logging.
dataproc dataproc.logging.stackdriver.job.driver.enable true ou false Active (true) ou désactive (false) les journaux du pilote de tâches Dataproc dans Cloud Logging. Consultez Résultats et journaux des jobs Dataproc (par défaut: false).
dataproc dataproc.logging.stackdriver.job.yarn.container.enable true ou false Active (true) ou désactive (false) les journaux de conteneurs YARN dans Cloud Logging. Consultez la section Options de sortie des jobs Spark. (par défaut : false).
dataproc dataproc.master.custom.init.actions.mode RUN_BEFORE_SERVICES ou RUN_AFTER_SERVICES Pour les clusters d'images 2.0 et versions ultérieures, lorsque ce paramètre est défini sur RUN_AFTER_SERVICES, les actions d'initialisation sur le maître s'exécutent après HDFS et tous les services qui dépendent de HDFS sont initialisés. Exemples de services dépendants de HDFS : HBase, Hive Server2, Ranger, Solr, ainsi que les serveurs d'historique Spark et MapReduce. (par défaut : RUN_BEFORE_SERVICES)
dataproc dataproc.monitoring.stackdriver.enable true ou false Active (true) ou désactive (false) l'agent Monitoring (par défaut: false). Cette propriété est obsolète. Consultez Activer la collecte de métriques personnalisées pour activer la collecte de métriques Dataproc OSS dans Monitoring.
dataproc dataproc.scheduler.driver-size-mb number L'espace mémoire moyen du pilote, qui détermine le nombre maximal de tâches simultanées qu'un cluster va exécuter. La valeur par défaut est de 1 Go. Une valeur plus faible, telle que 256, peut être appropriée pour les tâches Spark.
dataproc dataproc.scheduler.job-submission-rate number Les tâches sont limitées si ce taux est dépassé. Le taux par défaut est de 1.0 RPS.
dataproc dataproc.scheduler.max-concurrent-jobs number Nombre maximal de jobs simultanés. Si cette valeur n'est pas définie lors de la création du cluster, la limite supérieure des jobs simultanés est calculée comme suit : max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5). La valeur masterMemoryMb est déterminée par le type de machine de la VM maître. masterMemoryMbPerJob est défini sur 1024 par défaut, mais il peut être configuré lors de la création du cluster avec la propriété de cluster dataproc:dataproc.scheduler.driver-size-mb.
dataproc dataproc.scheduler.max-memory-used number Quantité maximale de RAM pouvant être utilisée. Si l'utilisation actuelle dépasse ce seuil, les nouveaux jobs ne peuvent pas être planifiés. La valeur par défaut est 0.9 (90%). Si la valeur est 1.0, la limitation du job "master-memory-utilization" est désactivée.
dataproc dataproc.scheduler.min-free-memory.mb number Quantité minimale de mémoire disponible, en mégaoctets, requise par le pilote de jobs Dataproc pour planifier un autre job sur le cluster. La valeur par défaut est de 256 Mo.
dataproc dataproc.snap.enabled true ou false Active ou désactive le daemon Snap Ubuntu. La valeur par défaut est true. Si cette règle est définie sur false, les packages Snap préinstallés dans l'image ne sont pas affectés, mais l'actualisation automatique est désactivée. S'applique aux images Ubuntu 1.4.71, 1.5.46, 2.0.20 et plus récentes.
dataproc dataproc.worker.custom.init.actions.mode RUN_BEFORE_SERVICES Pour les clusters d'images antérieurs à la version 2.0, RUN_BEFORE_SERVICES n'est pas défini, mais peut être défini par l'utilisateur lors de la création du cluster. Pour les clusters d'images 2.0+, RUN_BEFORE_SERVICES est défini, et la propriété ne peut pas être transmise au cluster (elle ne peut pas être modifiée par l'utilisateur). Pour en savoir plus sur l'effet de ce paramètre, consultez la section Considérations et consignes importantes – Traitement de l'initialisation.
dataproc dataproc.yarn.orphaned-app-termination.enable true ou false La valeur par défaut est true. Définissez la valeur sur false pour empêcher Dataproc d'arrêter les applications YARN "orphelines". Dataproc considère une application YARN comme orpheline si le pilote de tâches qui a envoyé l'application YARN s'est fermé. Avertissement:Si vous utilisez le mode de cluster Spark (spark.submit.deployMode=cluster) et que vous définissez spark.yarn.submit.waitAppCompletion=false, le pilote Spark se ferme sans attendre que les applications YAML se terminent. Dans ce cas, définissez dataproc:dataproc.yarn.orphaned-app-termination.enable=false. Définissez également cette propriété sur false si vous envoyez des tâches Hive.
dataproc efm.spark.shuffle primary-worker Si la valeur est primary-worker, les données de brassage Spark sont écrites sur les nœuds de calcul primaires. Pour en savoir plus, consultez la page Mode de flexibilité améliorée de Dataproc.
dataproc job.history.to-gcs.enabled true ou false Permet de conserver les fichiers d'historique MapReduce et Spark dans le bucket temporaire Dataproc (valeur par défaut : true pour les versions d'image 1.5 et ultérieures). Les utilisateurs peuvent remplacer les emplacements de persistance des fichiers d'historique des tâches via les propriétés suivantes: mapreduce.jobhistory.done-dir, mapreduce.jobhistory.intermediate-done-dir, spark.eventLog.dir et spark.history.fs.logDirectory. Consultez la page Serveur d'historique persistant Dataproc pour en savoir plus sur ces propriétés de cluster et sur les autres propriétés de cluster associées à l'historique des tâches et aux fichiers d'événements Dataproc.
dataproc jobs.file-backed-output.enable true ou false Configure les tâches Dataproc pour diriger leur sortie vers des fichiers temporaires dans le répertoire /var/log/google-dataproc-job. Doit être défini sur true pour activer la journalisation du pilote de tâches dans Cloud Logging (valeur par défaut : true).
dataproc jupyter.listen.all.interfaces true ou false Pour réduire le risque d'exécution de code à distance sur les API de serveur de notebooks non sécurisées, le paramètre par défaut pour les versions d'images 1.3 et ultérieures est false, ce qui limite les connexions à localhost (127.0.0.1) lorsque Passerelle des composants est activé (l'activation de la passerelle des composants n'est pas requise pour les images 2.0+). Ce paramètre par défaut peut être remplacé en définissant la propriété sur true pour autoriser toutes les connexions.
dataproc jupyter.notebook.gcs.dir gs://<dir-path> Emplacement dans Cloud Storage qui sert à enregistrer les notebooks Jupyter.
dataproc kerberos.beta.automatic-config.enable true ou false Lorsqu'il est défini sur true, les utilisateurs n'ont pas besoin de spécifier le mot de passe racine principal Kerberos avec les options --kerberos-root-principal-password et --kerberos-kms-key-uri (par défaut: false). Consultez la section Activer le mode sécurisé Hadoop via Kerberos pour plus d'informations.
dataproc kerberos.cross-realm-trust.admin-server hostname/address Nom d'hôte/adresse du serveur d'administration distant (souvent identique à celui/celle du serveur KDC).
dataproc kerberos.cross-realm-trust.kdc hostname/address Nom d'hôte/adresse du serveur KDC distant.
dataproc kerberos.cross-realm-trust.realm realm name Les noms de domaine peuvent être constitués de n'importe quelle chaîne ASCII en MAJUSCULES. Généralement, le nom de domaine est identique à votre nom de domaine DNS (en MAJUSCULES). Exemple : Si les ordinateurs portent le nom "machine-idexample.west-coast.mycompany.com", le domaine associé peut être désigné par "EXAMPLE.WEST-COAST.MYCOMPANY.COM".
dataproc kerberos.cross-realm-trust.shared-password.uri gs://<dir-path> Emplacement dans Cloud Storage du mot de passe partagé chiffré KMS.
dataproc kerberos.kdc.db.key.uri gs://<dir-path> Emplacement dans Cloud Storage du fichier chiffré KMS contenant la clé principale de la base de données KDC.
dataproc kerberos.key.password.uri gs://<dir-path> Emplacement dans Cloud Storage du fichier chiffré KMS contenant le mot de passe de la clé dans le fichier keystore.
dataproc kerberos.keystore.password.uri gs://<dir-path> Emplacement dans Cloud Storage du fichier chiffré KMS contenant le mot de passe du fichier keystore.
dataproc kerberos.keystore.uri1 gs://<dir-path> Emplacement dans Cloud Storage du fichier keystore contenant le certificat générique et la clé privée utilisée par les nœuds du cluster.
dataproc kerberos.kms.key.uri KMS key URI URI de la clé KMS utilisée pour déchiffrer le mot de passe racine, par exemple projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (voir ID de ressource de la clé).
dataproc kerberos.root.principal.password.uri gs://<dir-path> Emplacement dans Cloud Storage du mot de passe chiffré KMS pour le compte principal racine Kerberos.
dataproc kerberos.tgt.lifetime.hours hours Durée de vie maximale du ticket TGT (ticket granting ticket ou ticket d'octroi de ticket).
dataproc kerberos.truststore.password.uri gs://<dir-path> Emplacement dans Cloud Storage du fichier chiffré KMS contenant le mot de passe du fichier truststore.
dataproc kerberos.truststore.uri2 gs://<dir-path> Emplacement dans Cloud Storage du fichier truststore chiffré KMS contenant des certificats approuvés.
dataproc pip.packages Packages Pip Cette propriété accepte une liste de packages Pip séparés par une virgule avec des versions spécifiques à installer dans l'environnement Conda base. Pour en savoir plus, consultez Propriétés des clusters associés à Conda. (par défaut: empty).
dataproc ranger.kms.key.uri KMS key URI URI de la clé KMS utilisée pour déchiffrer le mot de passe administrateur Ranger, par exemple projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (voir ID de ressource de la clé).
dataproc ranger.admin.password.uri gs://<dir-path> Emplacement dans Cloud Storage du mot de passe chiffré KMS pour l'administrateur Ranger.
dataproc ranger.db.admin.password.uri gs://<dir-path> Emplacement dans Cloud Storage du mot de passe chiffré KMS pour l'administrateur de la base de données Ranger.
dataproc ranger.cloud-sql.instance.connection.name cloud sql instance connection name Nom de connexion de l'instance Cloud SQL, par exemple project-id:region:name..
dataproc ranger.cloud-sql.root.password.uri gs://<dir-path> Emplacement dans Cloud Storage du mot de passe chiffré KMS pour l'utilisateur racine de l'instance Cloud SQL.
dataproc ranger.cloud-sql.use-private-ip true ou false Indique si la communication entre les instances de cluster et l'instance Cloud SQL doit s'effectuer via une adresse IP privée. La valeur par défaut est false.
dataproc solr.gcs.path gs://<dir-path> Chemin d'accès Cloud Storage pour agir en tant que répertoire d'accueil Solr.
dataproc startup.component.service-binding-timeout.hadoop-hdfs-namenode seconds Durée pendant laquelle le script de démarrage Dataproc attend que le paramètre hadoop-hdfs-namenode soit associé aux ports avant de décider que son démarrage a réussi. La valeur maximale reconnue est de 1 800 secondes (30 minutes).
dataproc startup.component.service-binding-timeout.hive-metastore seconds Durée pendant laquelle le script de démarrage Dataproc attend que le service hive-metastore soit associé aux ports avant de décider que son démarrage a réussi. La valeur maximale reconnue est de 1 800 secondes (30 minutes).
dataproc startup.component.service-binding-timeout.hive-server2 seconds Durée pendant laquelle le script de démarrage Dataproc attend que le paramètre hive-server2 soit associé aux ports avant de décider que son démarrage a réussi. La valeur maximale reconnue est de 1 800 secondes (30 minutes).
dataproc user-attribution.enabled true ou false Définissez cette propriété sur true pour attribuer une tâche Dataproc à l'identité de l'utilisateur qui l'a envoyée (la valeur par défaut est false).
dataproc yarn.docker.enable true ou false Définissez la valeur sur true pour activer la fonctionnalité Docker sur Dataproc Docker (la valeur par défaut est false).
dataproc yarn.docker.image docker image Lorsque vous activez la fonctionnalité Dataproc Docker sur YAML (dataproc:yarn.docker.enable=true), vous pouvez utiliser cette propriété facultative pour spécifier votre image Docker (par exemple, dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1). Si vous spécifiez une image, celle-ci est téléchargée et mise en cache dans tous les nœuds du cluster lors de la création du cluster.
dataproc yarn.log-aggregation.enabled true ou false Permet à (true) d'activer l'agrégation des journaux YAML sur le temp bucket du cluster. Le nom du bucket se présente sous la forme suivante: dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING>. (par défaut: true pour les versions d'image 1.5 et ultérieures). Remarque:Le bucket temporaire du cluster n'est pas supprimé en même temps que le cluster. Les utilisateurs peuvent également définir l'emplacement des journaux YARN agrégés en écrasant la propriété YARN yarn.nodemanager.remote-app-log-dir.
knox gateway.host ip address Pour réduire le risque d'exécution de code à distance sur les API de serveur de notebooks non sécurisées, le paramètre par défaut pour les versions d'images 1.3 et ultérieures est 127.0.0.1. Il limite les connexions à localhost lorsque Passerelle des composants est activée. Le paramètre par défaut peut être remplacé, par exemple en définissant la propriété sur 0.0.0.0 pour autoriser toutes les connexions.
zeppelin zeppelin.notebook.gcs.dir gs://<dir-path> Emplacement dans Cloud Storage qui sert à enregistrer les notebooks Zeppelin.
zeppelin zeppelin.server.addr ip address Pour réduire le risque d'exécution de code à distance sur les API de serveur de notebooks non sécurisées, le paramètre par défaut pour les versions d'images 1.3 et ultérieures est 127.0.0.1. Il limite les connexions à localhost lorsque Passerelle des composants est activée. Ce paramètre par défaut peut être remplacé, par exemple en définissant la propriété sur 0.0.0.0 pour autoriser toutes les connexions.

1Fichier keystore : le fichier keystore contient le certificat SSL. Il doit être au format Java KeyStore (JKS). Lorsqu'il est copié sur les VM, il est renommé keystore.jks. Le certificat SSL doit être un certificat générique qui s'applique à chaque nœud du cluster.

2Fichier truststore : le fichier truststore doit être au format Java KeyStore (JKS). Lorsqu'il est copié sur les VM, il est renommé truststore.jks.