Cette page a été traduite par l'API Cloud Translation.

Propriétés du cluster

Apache Hadoop YARN, HDFS, Spark et autres propriétés associées

Les composants Open Source installés sur les clusters Dataproc contiennent de nombreux fichiers de configuration. Par exemple, Apache Spark et Apache Hadoop ont plusieurs fichiers de configuration aux formats XML et texte brut. Vous pouvez utiliser l'option ‑‑properties de la commande gcloud dataproc clusters create pour modifier de nombreux fichiers de configuration courants lors de la création d'un cluster.

Mise en forme

L'option gcloud dataproc clusters create --properties accepte le format de chaîne suivant :

file_prefix1:property1=value1,file_prefix2:property2=value2,...

file_prefix est mappé sur un fichier de configuration prédéfini, comme indiqué dans le tableau ci-dessous, et property est mappé sur une propriété dans le fichier.
Le délimiteur par défaut utilisé pour séparer plusieurs propriétés de cluster est la virgule (,). Toutefois, si une virgule est incluse dans une valeur de propriété, vous devez modifier le délimiteur en spécifiant "^delimiter^" au début de la liste des propriétés (pour en savoir plus, consultez la section sur gcloud topic escaping).
- Exemple utilisant un délimiteur "#" :
```
--properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
```

Exemples

Commande gcloud

Pour modifier le paramètre spark.master dans le fichier spark-defaults.conf, ajoutez l'option gcloud dataproc clusters create --properties suivante :

--properties 'spark:spark.master=spark://example.com'

Vous pouvez modifier plusieurs propriétés à la fois, dans un ou plusieurs fichiers de configuration, à l'aide d'une virgule en guise de séparateur. Chaque propriété doit être spécifiée au format file_prefix:property=value complet. Par exemple, pour modifier le paramètre spark.master dans le fichier spark-defaults.conf et le paramètre dfs.hosts dans le fichier hdfs-site.xml, utilisez l'option --properties suivante lors de la création d'un cluster :

--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'

API REST

Pour définir spark.executor.memory sur 10g, insérez le paramètre properties suivant dans la section SoftwareConfig de votre requête clusters.create :

"properties": {
  "spark:spark.executor.memory": "10g"
}

Un moyen simple de créer le corps JSON d'une requête REST de clusters dans l'API Dataproc consiste à lancer la commande gcloud équivalente à l'aide de l'option --log-http. Voici un exemple de la commande gcloud dataproc clusters create qui permet de définir les propriétés de cluster avec l'option --properties spark:spark.executor.memory=10g. Le journal stdout affiche le corps de la requête REST obtenu (l'extrait de properties est présenté ci-dessous) :

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=spark:spark.executor.memory=10g \
    --log-http \
    other args ...

Sortie :

...
== body start ==
{"clusterName": "my-cluster", "config": {"gceClusterConfig": ...
"masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},

...
== body end ==
...

Une fois que le corps JSON est affiché dans la sortie, vous devez annuler la commande si vous ne voulez pas qu'elle soit prise en compte.

Console

Pour modifier le paramètre spark.master dans le fichier spark-defaults.conf, procédez comme suit :

Dans la console Google Cloud , ouvrez la page Dataproc Créer un cluster. Cliquez sur le panneau "Personnaliser le cluster", puis faites défiler la page jusqu'à la section "Propriétés du cluster".
Cliquez sur + AJOUTER DES PROPRIÉTÉS. Sélectionnez spark dans la liste "Préfixe", puis ajoutez "spark.master" dans le champ "Clé" et le paramètre dans le champ "Valeur".

Propriétés des clusters et des jobs

Les propriétés préfixées par un nom de fichier, telles que celles pour Apache Hadoop YARN, HDFS et Spark, sont appliquées au niveau du cluster lorsque vous créez un cluster. Ces propriétés ne peuvent pas être appliquées à un cluster après sa création. Toutefois, la plupart de ces propriétés peuvent également être appliquées à des tâches spécifiques. Lorsque vous appliquez une propriété à une tâche, le préfixe du fichier ne doit pas être spécifié.

L'exemple suivant définit la mémoire de l'exécuteur Spark sur 4g pour une tâche Spark (préfixe spark: omis).

gcloud dataproc jobs submit spark \
    --region=REGION \
    --properties=spark.executor.memory=4g \
    other args ...

Les propriétés de la tâche peuvent être envoyées dans un fichier à l'aide de l'option gcloud dataproc jobs submit job-type --properties-file (consultez, par exemple, la description de l'option --properties-file pour l'envoi d'une tâche Hadoop).

gcloud dataproc jobs submit JOB_TYPE \
    --region=REGION \
    --properties-file=PROPERTIES_FILE \
    other args ...

PROPERTIES_FILE est un ensemble de paires key=value délimitées par des lignes. La propriété à définir est key, et la valeur à définir pour la propriété est value. Pour obtenir une description détaillée du format du fichier de propriétés, consultez la classe java.util.Properties.

Vous trouverez ci-dessous un exemple de fichier de propriétés pouvant être transmis à l'indicateur --properties-file lors de l'envoi d'un job Dataproc.

 dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml
 spark:spark.history.fs.logDirectory=gs://some-bucket
 spark:spark.eventLog.dir=gs://some-bucket
 capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5

Tableau des propriétés préfixées par un nom de fichier

Préfixe de fichier	Fichier	Objet du fichier
capacity-scheduler	capacity-scheduler.xml	Configuration du planificateur de capacité Hadoop YARN
core	core-site.xml	Configuration générale de Hadoop
distcp	distcp-default.xml	Configuration de Hadoop Distributed Copy
flink	flink-conf.yaml	Configuration de Flink
flink-log4j	log4j.properties	Fichier de paramètres Log4j
hadoop-env	hadoop-env.sh	Variables d'environnement spécifiques à Hadoop
hadoop-log4j	log4j.properties	Fichier de paramètres Log4j
hbase	hbase-site.xml	Configuration HBase
hbase-log4j	log4j.properties	Fichier de paramètres Log4j
hdfs	hdfs-site.xml	Configuration de Hadoop HDFS
hive	hive-site.xml	Configuration de Hive
hive-log4j2	hive-log4j2.properties	Fichier de paramètres Log4j
hudi	hudi-default.conf	Configuration de Hudi
mapred	mapred-site.xml	Configuration de Hadoop MapReduce
mapred-env	mapred-env.sh	Variables d'environnement spécifiques à Hadoop MapReduce
pig	pig.properties	Configuration de Pig
pig-log4j	log4j.properties	Fichier de paramètres Log4j
presto	config.properties	Configuration de Presto
presto-jvm	jvm.config	Configuration JVM spécifique à Presto
spark	spark-defaults.conf	Configurer Spark
spark-env	spark-env.sh	Variables d'environnement spécifiques à Spark
spark-log4j	log4j.properties	Fichier de paramètres Log4j
tez	tez-site.xml	Configuration de Tez
webcat-log4j	webhcat-log4j2.properties	Fichier de paramètres Log4j
yarn	yarn-site.xml	Configuration de Hadoop YARN
yarn-env	yarn-env.sh	Variables d'environnement spécifiques à Hadoop YARN
zeppelin	zeppelin-site.xml	Configuration de Zeppelin
zeppelin-env	zeppelin-env.sh	Variables d'environnement spécifiques à Zeppelin (composant facultatif uniquement)
zeppelin-log4j	log4j.properties	Fichier de paramètres Log4j
zookeeper	zoo.cfg	Configuration de Zookeeper
zookeeper-log4j	log4j.properties	Fichier de paramètres Log4j

Remarques

Certaines propriétés sont réservées et ne peuvent pas être remplacées, car elles ont un impact sur les fonctionnalités du cluster Dataproc. Si vous essayez de modifier une propriété réservée, vous recevez un message d'erreur lors de la création du cluster.
Vous pouvez spécifier plusieurs modifications en les séparant par une virgule.
L'indicateur --properties ne peut pas modifier les fichiers de configuration qui ne sont pas répertoriés ci-dessus.
Les modifications apportées aux propriétés sont appliquées avant le démarrage des daemons du cluster.
Si la propriété spécifiée existe, elle est mise à jour. Si la propriété spécifiée n'existe pas, elle est ajoutée au fichier de configuration.

Propriétés du service Dataproc

Les propriétés listées dans cette section sont spécifiques à Dataproc. Ces propriétés peuvent être utilisées pour configurer les fonctionnalités de votre cluster Dataproc.

Mise en forme

L'option gcloud dataproc clusters create --properties accepte le format de chaîne suivant :

property_prefix1:property1=value1,property_prefix2:property2=value2,...

Le délimiteur par défaut utilisé pour séparer plusieurs propriétés de cluster est la virgule (,). Toutefois, si une virgule est incluse dans une valeur de propriété, vous devez modifier le délimiteur en spécifiant "^delimiter^" au début de la liste des propriétés (pour en savoir plus, consultez la section sur gcloud topic escaping).
- Exemple utilisant un délimiteur "#" :
```
--properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
```

Exemple :

Créez un cluster et définissez le mode de flexibilité améliorée sur le brassage de nœuds de calcul principaux pour Spark.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=dataproc:efm.spark.shuffle=primary-worker \
    other args ...

Tableau des propriétés du service Dataproc

Préfixe de la propriété	Valeur	Values	Description
Dataproc	agent.process.threads.job.min	`number`	Dataproc exécute les pilotes de job utilisateur simultanément dans un pool de threads. Cette propriété contrôle le nombre minimal de threads dans le pool de threads pour un démarrage rapide, même lorsqu'aucun job n'est en cours d'exécution (par défaut : 10).
Dataproc	agent.process.threads.job.max	`number`	Dataproc exécute les pilotes de job utilisateur simultanément dans un pool de threads. Cette propriété contrôle le nombre maximal de threads dans le pool de threads, ce qui limite la concurrence maximale des jobs utilisateur. Augmentez cette valeur pour une simultanéité plus élevée (par défaut : 100).
Dataproc	am.primary_only	`true` ou `false`	Définissez cette propriété sur `true` pour empêcher l'application maître de s'exécuter sur des nœuds de calcul préemptifs du cluster Dataproc. Remarque : Cette fonctionnalité est uniquement disponible dans Dataproc 1.2 et versions ultérieures. La valeur par défaut est `false`.
Dataproc	conda.env.config.uri	`gs://<path>`	Emplacement dans Cloud Storage du fichier de configuration de l'environnement Conda. Un nouvel environnement Conda sera créé et activé à partir de ce fichier. Pour en savoir plus, consultez Utiliser les propriétés de cluster liées à Conda. (par défaut : `empty`)
Dataproc	conda.packages	Packages Conda	Cette propriété accepte une liste de packages Conda séparés par une virgule, avec des versions spécifiques à installer dans l'environnement Conda `base`. Pour en savoir plus, consultez Utiliser les propriétés de cluster liées à Conda. (par défaut : `empty`).
Dataproc	dataproc.allow.zero.workers	`true` ou `false`	Définissez la propriété SoftwareConfig sur `true` dans une requête API Dataproc `clusters.create` pour créer un cluster à nœud unique. Cela permet de modifier le nombre de nœuds de calcul par défaut de 2 à 0, et de placer les composants de nœud de calcul sur l'hôte maître. Un cluster à nœud unique peut également être créé à partir de la console Google Cloud ou de la Google Cloud CLI en définissant le nombre de nœuds de calcul sur `0`.
dataproc	dataproc.alpha.master.nvdimm.size.gb	1500-6500	La définition d'une valeur crée un nœud maître Dataproc avec la mémoire persistante Intel Optane DC. Remarque : Les VM Optane ne peuvent être créées que dans des zones `us-central1-f`, avec le type de machine `n1-highmem-96-aep` et uniquement dans les projets en liste blanche.
dataproc :	dataproc.alpha.worker.nvdimm.size.gb	1500-6500	La définition d'une valeur crée un nœud de calcul Dataproc avec la mémoire persistante Intel Optane DC. Remarque : Les VM Optane ne peuvent être créées que dans des zones `us-central1-f`, avec le type de machine `n1-highmem-96-aep` et uniquement dans les projets en liste blanche.
dataproc :	dataproc.await-new-workers-service-registration	`true` ou `false`	Cette propriété est disponible dans les images 2.0.49 et versions ultérieures. La valeur par défaut est `false`. Définissez cette propriété sur `true` pour attendre que les nouveaux nœuds de calcul principaux enregistrent les responsables de service, tels que HDFS NameNode et YARN ResourceManager, lors de la création ou de l'augmentation de la taille du cluster (seuls les services HDFS et YARN sont surveillés). Si la valeur est définie sur `true` et qu'un nouveau nœud de calcul ne parvient pas à s'enregistrer auprès d'un service, l'état `FAILED` lui est attribué. Un nœud de calcul défaillant est supprimé si le cluster est en cours d'expansion. Si le cluster est en cours de création, un nœud de calcul défaillant est supprimé si l'indicateur `gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE` ou le champ d'API `actionOnFailedPrimaryWorkers=DELETE` ont été spécifiés dans la commande `gcloud` ou la requête d'API de création de cluster.
dataproc :	dataproc.beta.secure.multi-tenancy.user.mapping	`user-to-service account mappings`	Cette propriété prend une liste de mappages entre des utilisateurs et des comptes de service. Les utilisateurs mappés peuvent envoyer des charges de travail interactives au cluster avec des identités d'utilisateur isolées (consultez la section Architecture mutualisée sécurisée basée sur un compte de service Dataproc).
dataproc :	dataproc.cluster.caching.enabled	`true` ou `false`	Lorsque la mise en cache du cluster est activée, le cluster met en cache les données Cloud Storage auxquelles accèdent les jobs Spark, ce qui améliore les performances des jobs sans compromettre la cohérence. (par défaut : `false`)
dataproc	dataproc.cluster-ttl.consider-yarn-activity	`true` ou `false`	Lorsque la valeur est définie sur `true`, la suppression planifiée du cluster tient compte de l'activité YARN et de l'activité de l'API Dataproc Jobs pour calculer le temps d'inactivité du cluster. Lorsque ce paramètre est défini sur `false`, seule l'activité de l'API Dataproc Jobs est prise en compte. (par défaut : `true`). Pour en savoir plus, consultez Calcul du temps d'inactivité du cluster.
dataproc	dataproc.conscrypt.provider.enable	`true` ou `false`	Active (`true`) ou désactive (`false`) Conscrypt en tant que fournisseur de sécurité Java principal. Remarque : Conscrypt est activé par défaut dans Dataproc 1.2 et versions ultérieures, mais désactivé dans les versions 1.0/1.1.
Dataproc	dataproc.cooperative.multi-tenancy.user.mapping	`user-to-service account mappings`	Liste de correspondances entre des utilisateurs et des comptes de service, séparées par des virgules. Si un cluster est créé avec cette propriété, lorsqu'un utilisateur envoie une tâche, le cluster tente d'emprunter l'identité du compte de service correspondant pour accéder à Cloud Storage via le connecteur Cloud Storage. Cette fonctionnalité nécessite la version `2.1.4` ou ultérieure du connecteur Cloud Storage. Pour en savoir plus, consultez la page Architecture mutualisée coopérative Dataproc. (par défaut : `empty`).
dataproc	dataproc.control.max.assigned.job.tasks	`100`	Cette propriété limite le nombre de tâches pouvant être exécutées simultanément sur un nœud maître de cluster. Si le nombre de tâches actives dépasse la limite de tâches, les nouveaux jobs sont mis en file d'attente jusqu'à ce que les jobs en cours soient terminés et que des ressources soient libérées pour permettre la planification de nouvelles tâches. Remarque : Nous vous déconseillons de définir une limite de tâches par défaut supérieure à `100` (la valeur par défaut), car cela peut entraîner une condition de mémoire insuffisante dans le nœud maître.
dataproc	dataproc:hudi.version	Version Hudi	Définit la version de Hudi utilisée avec le composant Hudi Dataproc facultatif. Remarque : Cette version est définie par Dataproc pour être compatible avec la version de l'image du cluster. Si elle est définie par l'utilisateur, la création du cluster peut échouer si la version spécifiée n'est pas compatible avec l'image du cluster.
dataproc	dataproc.lineage.enabled	`true`	Active le lignage des données dans un cluster Dataproc pour les tâches Spark.
dataproc	dataproc.localssd.mount.enable	`true` ou `false`	Permet de monter des disques SSD locaux en tant que répertoires temporaires Hadoop/Spark et répertoires de données HDFS (la valeur par défaut est `true`).
dataproc	dataproc.logging.extended.enabled	`true` ou `false`	Active (`true`) ou désactive (`false`) les journaux dans Cloud Logging pour les éléments suivants : `knox`, `zeppelin`, `ranger-usersync`, `jupyter_notebook`, `jupyter_kernel_gateway` et `spark-history-server` (valeur par défaut : `true`). Pour en savoir plus, consultez Journaux de cluster Dataproc dans Logging.
dataproc	dataproc.logging.stackdriver.enable	`true` ou `false`	Active (`true`) ou désactive (`false`) Cloud Logging (valeur par défaut : `true`). Pour en savoir plus, consultez les tarifs de Cloud Logging.
Dataproc	dataproc.logging.stackdriver.job.driver.enable	`true` ou `false`	Active (`true`) ou désactive (`false`) les journaux de pilotes de tâches Dataproc dans Cloud Logging. Consultez Sortie et journaux des jobs Dataproc (valeur par défaut : `false`).
dataproc	dataproc.logging.stackdriver.job.yarn.container.enable	`true` ou `false`	Active (`true`) ou désactive (`false`) les journaux de conteneurs YARN dans Cloud Logging. Consultez Options de résultat de la tâche Spark. (par défaut : `false`).
dataproc	dataproc.logging.syslog.enabled	`true` ou `false`	Active (`true`) ou désactive (`false`) les journaux système de VM dans Cloud Logging (valeur par défaut : `true`).
dataproc	dataproc.master.custom.init.actions.mode	`RUN_BEFORE_SERVICES` ou `RUN_AFTER_SERVICES`	Pour les clusters d'images 2.0 et versions ultérieures, lorsque ce paramètre est défini sur `RUN_AFTER_SERVICES`, les actions d'initialisation sur le maître s'exécutent après HDFS et tous les services qui dépendent de HDFS sont initialisés. Exemples de services dépendants de HDFS : HBase, Hive Server2, Ranger, Solr, ainsi que les serveurs d'historique Spark et MapReduce. (par défaut : `RUN_BEFORE_SERVICES`)
Dataproc	dataproc.monitoring.stackdriver.enable	`true` ou `false`	Active (`true`) ou désactive (`false`) l'agent Monitoring (valeur par défaut : `false`). Cette propriété est obsolète. Consultez Activer la collecte de métriques personnalisées pour activer la collecte de métriques Dataproc OSS dans Monitoring.
dataproc	dataproc.scheduler.driver-size-mb	`number`	L'espace mémoire moyen du pilote, qui détermine le nombre maximal de tâches simultanées qu'un cluster va exécuter. La valeur par défaut est de `1` Go. Une valeur plus faible, telle que `256`, peut être appropriée pour les tâches Spark.
dataproc	dataproc.scheduler.job-submission-rate	`number`	Les tâches sont limitées si ce taux est dépassé. Le taux par défaut est de `1.0` RPS.
dataproc	dataproc.scheduler.max-concurrent-jobs	`number`	Nombre maximal de jobs simultanés. Si cette valeur n'est pas définie lors de la création du cluster, la limite supérieure des jobs simultanés est calculée comme suit : `max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5)`. `masterMemoryMb` est déterminé par le type de machine de la VM principale. `masterMemoryMbPerJob` est défini sur `1024` par défaut, mais peut être configuré lors de la création du cluster avec la propriété de cluster `dataproc:dataproc.scheduler.driver-size-mb`.
dataproc	dataproc.scheduler.max-memory-used	`number`	Quantité maximale de RAM pouvant être utilisée. Si l'utilisation actuelle dépasse ce seuil, aucune nouvelle tâche ne peut être planifiée. La valeur par défaut est `0.9` (90 %). Si la valeur est définie sur `1.0`, la limitation des tâches d'utilisation de la mémoire maître est désactivée.
dataproc	dataproc.scheduler.min-free-memory.mb	`number`	Quantité minimale de mémoire libre en mégaoctets dont le pilote de job Dataproc a besoin pour planifier un autre job sur le cluster. La valeur par défaut est de `256` Mo.
dataproc	dataproc.snap.enabled	`true` ou `false`	Active ou désactive le démon Ubuntu Snap. La valeur par défaut est `true`. Si la valeur est définie sur`false`, les packages Snap préinstallés dans l'image ne sont pas affectés, mais l'actualisation automatique est désactivée. S'applique aux images Ubuntu 1.4.71, 1.5.46, 2.0.20 et versions ultérieures.
Dataproc	dataproc.worker.custom.init.actions.mode	`RUN_BEFORE_SERVICES`	Pour les clusters d'images antérieurs à la version 2.0, RUN_BEFORE_SERVICES n'est pas défini, mais peut être défini par l'utilisateur lors de la création du cluster. Pour les clusters d'images 2.0+, RUN_BEFORE_SERVICES est défini, et la propriété ne peut pas être transmise au cluster (elle ne peut pas être modifiée par l'utilisateur). Pour en savoir plus sur l'effet de ce paramètre, consultez la section Considérations et consignes importantes – Traitement de l'initialisation.
dataproc	dataproc.yarn.orphaned-app-termination.enable	`true` ou `false`	La valeur par défaut est `true`. Définissez cette propriété sur `false` pour empêcher Dataproc de mettre fin aux applications YARN "orphelines". Dataproc considère qu'une application YARN est orpheline si le pilote de tâche qui l'a soumise a quitté le programme. Avertissement : Si vous utilisez le mode cluster Spark (`spark.submit.deployMode=cluster`) et que vous définissez `spark.yarn.submit.waitAppCompletion=false`, le pilote Spark quitte sans attendre la fin des applications YARN. Dans ce cas, définissez `dataproc:dataproc.yarn.orphaned-app-termination.enable=false`. Définissez également cette propriété sur `false` si vous envoyez des jobs Hive.
dataproc	diagnostic.capture.enabled	`true` ou `false`	Active la collecte des données de diagnostic des points de contrôle du cluster. (par défaut : `true`)
dataproc	diagnostic.capture.access	`GOOGLE_DATAPROC_DIAGNOSE`	Si la valeur est définie sur `GOOGLE_DATAPROC_DIAGNOSE`, les données de diagnostic des points de contrôle du cluster, qui sont enregistrées dans Cloud Storage, sont partagées avec l'assistance Dataproc. (par défaut : non défini).
dataproc	efm.spark.shuffle	`primary-worker`	Si la valeur est définie sur `primary-worker`, les données de brassage Spark sont écrites sur les nœuds de calcul principaux." Pour en savoir plus, consultez la page Mode de flexibilité améliorée de Dataproc.
dataproc	job.history.to-gcs.enabled	`true` ou `false`	Permet de conserver les fichiers d'historique MapReduce et Spark dans le bucket temporaire Dataproc (valeur par défaut : `true` pour les versions d'image 1.5 et ultérieures). Les utilisateurs peuvent remplacer les emplacements de persistance des fichiers d'historique des tâches via les propriétés suivantes: `mapreduce.jobhistory.done-dir`, `mapreduce.jobhistory.intermediate-done-dir`, `spark.eventLog.dir` et `spark.history.fs.logDirectory`. Consultez la page Serveur d'historique persistant Dataproc pour en savoir plus sur ces propriétés de cluster et sur les autres propriétés de cluster associées à l'historique des tâches et aux fichiers d'événements Dataproc.
Dataproc	jobs.file-backed-output.enable	`true` ou `false`	Configure les tâches Dataproc pour diriger leur sortie vers des fichiers temporaires dans le répertoire `/var/log/google-dataproc-job`. Doit être défini sur `true` pour activer la journalisation du pilote de tâches dans Cloud Logging (valeur par défaut : `true`).
Dataproc	jupyter.listen.all.interfaces	`true` ou `false`	Pour réduire le risque d'exécution de code à distance sur les API de serveur de notebooks non sécurisées, le paramètre par défaut pour les versions d'images 1.3 et ultérieures est `false`, ce qui limite les connexions à `localhost` (`127.0.0.1`) lorsque Passerelle des composants est activé (l'activation de la passerelle des composants n'est pas requise pour les images 2.0+). Ce paramètre par défaut peut être remplacé en définissant la propriété sur `true` pour autoriser toutes les connexions.
Dataproc	jupyter.notebook.gcs.dir	`gs://<dir-path>`	Emplacement dans Cloud Storage qui sert à enregistrer les notebooks Jupyter.
Dataproc	kerberos.beta.automatic-config.enable	`true` ou `false`	Lorsqu'il est défini sur `true`, les utilisateurs n'ont pas besoin de spécifier le mot de passe racine principal Kerberos avec les options `--kerberos-root-principal-password` et `--kerberos-kms-key-uri` (par défaut: `false`). Consultez la section Activer le mode sécurisé Hadoop via Kerberos pour plus d'informations.
Dataproc	kerberos.cross-realm-trust.admin-server	`hostname/address`	Nom d'hôte/adresse du serveur d'administration distant (souvent identique à celui/celle du serveur KDC).
Dataproc	kerberos.cross-realm-trust.kdc	`hostname/address`	Nom d'hôte/adresse du serveur KDC distant.
Dataproc	kerberos.cross-realm-trust.realm	`realm name`	Les noms de domaine peuvent être constitués de n'importe quelle chaîne ASCII en MAJUSCULES. Généralement, le nom de domaine est identique à votre nom de domaine DNS (en MAJUSCULES). Exemple : Si les ordinateurs portent le nom "`machine-id`example.west-coast.mycompany.com", le domaine associé peut être désigné par "EXAMPLE.WEST-COAST.MYCOMPANY.COM".
Dataproc	kerberos.cross-realm-trust.shared-password.uri	`gs://<dir-path>`	Emplacement dans Cloud Storage du mot de passe partagé chiffré KMS.
Dataproc	kerberos.kdc.db.key.uri	`gs://<dir-path>`	Emplacement dans Cloud Storage du fichier chiffré KMS contenant la clé principale de la base de données KDC.
Dataproc	kerberos.key.password.uri	`gs://<dir-path>`	Emplacement dans Cloud Storage du fichier chiffré KMS contenant le mot de passe de la clé dans le fichier keystore.
Dataproc	kerberos.keystore.password.uri	`gs://<dir-path>`	Emplacement dans Cloud Storage du fichier chiffré KMS contenant le mot de passe du fichier keystore.
Dataproc	kerberos.keystore.uri¹	`gs://<dir-path>`	Emplacement dans Cloud Storage du fichier keystore contenant le certificat générique et la clé privée utilisée par les nœuds du cluster.
Dataproc	kerberos.kms.key.uri	`KMS key URI`	URI de la clé KMS utilisée pour déchiffrer le mot de passe racine, par exemple `projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key` (voir ID de ressource de la clé).
Dataproc	kerberos.root.principal.password.uri	`gs://<dir-path>`	Emplacement dans Cloud Storage du mot de passe chiffré KMS pour le compte principal racine Kerberos.
Dataproc	kerberos.tgt.lifetime.hours	`hours`	Durée de vie maximale du ticket TGT (ticket granting ticket ou ticket d'octroi de ticket).
Dataproc	kerberos.truststore.password.uri	`gs://<dir-path>`	Emplacement dans Cloud Storage du fichier chiffré KMS contenant le mot de passe du fichier truststore.
Dataproc	kerberos.truststore.uri²	`gs://<dir-path>`	Emplacement dans Cloud Storage du fichier truststore chiffré KMS contenant des certificats approuvés.
Dataproc	pip.packages	Packages Pip	Cette propriété accepte une liste de packages Pip séparés par une virgule, avec des versions spécifiques à installer dans l'environnement Conda `base`. Pour en savoir plus, consultez Propriétés du cluster liées à Conda. (par défaut : `empty`).
Dataproc	ranger.kms.key.uri	`KMS key URI`	URI de la clé KMS utilisée pour déchiffrer le mot de passe administrateur Ranger, par exemple `projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key` (voir ID de ressource de la clé).
Dataproc	ranger.admin.password.uri	`gs://<dir-path>`	Emplacement dans Cloud Storage du mot de passe chiffré KMS pour l'administrateur Ranger.
Dataproc	ranger.db.admin.password.uri	`gs://<dir-path>`	Emplacement dans Cloud Storage du mot de passe chiffré KMS pour l'administrateur de la base de données Ranger.
Dataproc	ranger.cloud-sql.instance.connection.name	`cloud sql instance connection name`	Nom de connexion de l'instance Cloud SQL, par exemple `project-id:region:name.`.
Dataproc	ranger.cloud-sql.root.password.uri	`gs://<dir-path>`	Emplacement dans Cloud Storage du mot de passe chiffré KMS pour l'utilisateur racine de l'instance Cloud SQL.
Dataproc	ranger.cloud-sql.use-private-ip	`true` ou `false`	Indique si la communication entre les instances de cluster et l'instance Cloud SQL doit s'effectuer via une adresse IP privée. La valeur par défaut est `false`.
Dataproc	solr.gcs.path	`gs://<dir-path>`	Chemin d'accès Cloud Storage pour agir en tant que répertoire d'accueil Solr.
Dataproc	startup.component.service-binding-timeout.hadoop-hdfs-namenode	`seconds`	Durée pendant laquelle le script de démarrage Dataproc attend que le paramètre hadoop-hdfs-namenode soit associé aux ports avant de décider que son démarrage a réussi. La valeur maximale reconnue est de 1 800 secondes (30 minutes).
Dataproc	startup.component.service-binding-timeout.hive-metastore	`seconds`	Durée pendant laquelle le script de démarrage Dataproc attend que le service hive-metastore soit associé aux ports avant de décider que son démarrage a réussi. La valeur maximale reconnue est de 1 800 secondes (30 minutes).
Dataproc	startup.component.service-binding-timeout.hive-server2	`seconds`	Durée pendant laquelle le script de démarrage Dataproc attend que le paramètre hive-server2 soit associé aux ports avant de décider que son démarrage a réussi. La valeur maximale reconnue est de 1 800 secondes (30 minutes).
Dataproc	user-attribution.enabled	`true` ou `false`	Définissez cette propriété sur `true` pour attribuer une tâche Dataproc à l'identité de l'utilisateur qui l'a envoyée (la valeur par défaut est `false`).
dataproc	yarn.docker.enable	`true` ou `false`	Définissez la valeur sur `true` pour activer la fonctionnalité Dataproc Docker sur YARN (la valeur par défaut est `false`).
dataproc	yarn.docker.image	`docker image`	Lorsque vous activez la fonctionnalité Dataproc Docker sur YARN (`dataproc:yarn.docker.enable=true`), vous pouvez utiliser cette propriété facultative pour spécifier votre image Docker (par exemple, `dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1`). Si elle est spécifiée, l'image est téléchargée et mise en cache dans tous les nœuds du cluster lors de la création du cluster.
dataproc	yarn.log-aggregation.enabled	`true` ou `false`	Permet (`true`) d'activer l'agrégation de journaux YARN dans le `temp bucket` du cluster. Le nom du bucket se présente sous la forme suivante : `dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING>`. (par défaut : `true` pour les versions d'image 1.5 et ultérieures). Remarque : Le bucket temporaire du cluster n'est pas supprimé lorsque le cluster est supprimé. Les utilisateurs peuvent également définir l'emplacement des journaux YARN agrégés en écrasant la propriété YARN `yarn.nodemanager.remote-app-log-dir`.
knox	gateway.host	`ip address`	Pour réduire le risque d'exécution de code à distance sur les API de serveur de notebooks non sécurisées, le paramètre par défaut pour les versions d'images 1.3 et ultérieures est `127.0.0.1`. Il limite les connexions à `localhost` lorsque Passerelle des composants est activée. Le paramètre par défaut peut être remplacé, par exemple en définissant la propriété sur `0.0.0.0` pour autoriser toutes les connexions.
zeppelin	zeppelin.notebook.gcs.dir	`gs://<dir-path>`	Emplacement dans Cloud Storage qui sert à enregistrer les notebooks Zeppelin.
zeppelin	zeppelin.server.addr	`ip address`	Pour réduire le risque d'exécution de code à distance sur les API de serveur de notebooks non sécurisées, le paramètre par défaut pour les versions d'images 1.3 et ultérieures est `127.0.0.1`. Il limite les connexions à `localhost` lorsque Passerelle des composants est activée. Ce paramètre par défaut peut être remplacé, par exemple en définissant la propriété sur `0.0.0.0` pour autoriser toutes les connexions.

¹Fichier keystore : le fichier keystore contient le certificat SSL. Il doit être au format Java KeyStore (JKS). Lorsqu'il est copié sur les VM, il est renommé keystore.jks. Le certificat SSL doit être un certificat générique qui s'applique à chaque nœud du cluster.

²Fichier truststore : le fichier truststore doit être au format Java KeyStore (JKS). Lorsqu'il est copié sur les VM, il est renommé truststore.jks.