Cette page a été traduite par l'API Cloud Translation.

Propriétés du cluster

Apache Hadoop YARN, HDFS, Spark et autres propriétés associées

Les composants Open Source installés sur les clusters Dataproc contiennent de nombreux fichiers de configuration. Par exemple, Apache Spark et Apache Hadoop ont plusieurs fichiers de configuration aux formats XML et texte brut. Vous pouvez utiliser l'option ‑‑properties de la commande gcloud dataproc clusters create pour modifier de nombreux fichiers de configuration courants lors de la création d'un cluster.

Mise en forme

L'option gcloud dataproc clusters create --properties accepte le format de chaîne suivant :

file_prefix1:property1=value1,file_prefix2:property2=value2,...

file_prefix est mappé sur un fichier de configuration prédéfini, comme indiqué dans le tableau ci-dessous, et property est mappé sur une propriété dans le fichier.
Le délimiteur par défaut utilisé pour séparer plusieurs propriétés de cluster est la virgule (,). Toutefois, si une virgule est incluse dans une valeur de propriété, vous devez la modifier en spécifiant "^delimiter^" au début de la liste de propriétés (consultez la section gcloud topic escaping pour en savoir plus).
- Exemple utilisant un délimiteur "#" :
```
--properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
```

Examples

Commande gcloud

Pour modifier le paramètre spark.master dans le fichier spark-defaults.conf, ajoutez l'option gcloud dataproc clusters create --properties suivante :

--properties 'spark:spark.master=spark://example.com'

Vous pouvez modifier plusieurs propriétés à la fois, dans un ou plusieurs fichiers de configuration, à l'aide d'une virgule en guise de séparateur. Chaque propriété doit être spécifiée au format file_prefix:property=value complet. Par exemple, pour modifier le paramètre spark.master dans le fichier spark-defaults.conf et le paramètre dfs.hosts dans le fichier hdfs-site.xml, utilisez l'option --properties suivante lors de la création d'un cluster :

--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'

API REST

Pour définir spark.executor.memory sur 10g, insérez le paramètre properties suivant dans la section SoftwareConfig de votre requête clusters.create :

"properties": {
  "spark:spark.executor.memory": "10g"
}

Un moyen simple de créer le corps JSON d'une requête REST de clusters dans l'API Dataproc consiste à lancer la commande gcloud équivalente à l'aide de l'option --log-http. Voici un exemple de la commande gcloud dataproc clusters create qui permet de définir les propriétés de cluster avec l'option --properties spark:spark.executor.memory=10g. Le journal stdout affiche le corps de la requête REST obtenu (l'extrait de properties est présenté ci-dessous) :

gcloud dataproc clusters create my-cluster \
    --region=region \
    --properties=spark:spark.executor.memory=10g \
    --log-http \
    other args ...

Sortie :

...
== body start ==
{"clusterName": "my-cluster", "config": {"gceClusterConfig": ...
"masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},

...
== body end ==
...

Une fois que le corps JSON est affiché dans la sortie, vous devez annuler la commande si vous ne voulez pas qu'elle soit prise en compte.

Console

Pour modifier le paramètre spark.master dans le fichier spark-defaults.conf, procédez comme suit :

Dans la console Google Cloud, ouvrez la page Dataproc Créer un cluster. Cliquez sur le panneau "Personnaliser le cluster", puis faites défiler la page jusqu'à la section "Propriétés du cluster".
Cliquez sur + AJOUTER DES PROPRIÉTÉS. Sélectionnez spark dans la liste "Préfixe", puis ajoutez "spark.master" dans le champ "Clé" et le paramètre dans le champ "Valeur".

Propriétés du cluster ou des tâches

Les propriétés préfixées par un nom de fichier, telles que celles pour Apache Hadoop YARN, HDFS et Spark, sont appliquées au niveau du cluster lorsque vous créez un cluster. Ces propriétés ne peuvent pas être appliquées à un cluster après sa création. Cependant, nombre de ces propriétés peuvent également s'appliquer à des tâches spécifiques. Lorsque vous appliquez une propriété à une tâche, le préfixe de fichier n'est pas utilisé.

L'exemple suivant définit la mémoire de l'exécuteur Spark sur 4g pour une tâche Spark (préfixe spark: omis).

gcloud dataproc jobs submit spark \
    --region=region \
    --properties=spark.executor.memory=4g \
    ... other args ...

Les propriétés de tâche peuvent être envoyées dans un fichier à l'aide de l'indicateur gcloud dataproc jobs submit job-type --properties-file (voir, par exemple, la description de l'élément --properties-file pour l'envoi d'une tâche Hadoop).

gcloud dataproc jobs submit JOB_TYPE \
    --region=region \
    --properties-file=PROPERTIES_FILE \
    ... other args ...

PROPERTIES_FILE est un ensemble de paires key=value délimitées par des lignes. La propriété à définir est key, et la valeur à définir est value. Consultez la section java.util.Properties pour obtenir une description détaillée du format de fichier des propriétés.

Voici un exemple de fichier de propriétés pouvant être transmis à l'option --properties-file lors de l'envoi d'un job Dataproc.

 dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml
 spark:spark.history.fs.logDirectory=gs://some-bucket
 spark:spark.eventLog.dir=gs://some-bucket
 capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5

Tableau des propriétés préfixées par un nom de fichier

Préfixe de fichier	File	Objet du fichier
capacity-scheduler	capacity-scheduler.xml	Configuration du planificateur de capacité Hadoop YARN
core	core-site.xml	Configuration générale de Hadoop
distcp	distcp-default.xml	Configuration de Hadoop Distributed Copy
flink	flink-conf.yaml	Configuration de Flink
flink-log4j	log4j.properties	Fichier de paramètres Log4j
hadoop-env	hadoop-env.sh	Variables d'environnement spécifiques à Hadoop
hadoop-log4j	log4j.properties	Fichier de paramètres Log4j
hbase	hbase-site.xml	Configuration HBase
hbase-log4j	log4j.properties	Fichier de paramètres Log4j
hdfs	hdfs-site.xml	Configuration de Hadoop HDFS
hive	hive-site.xml	Configuration de Hive
hive-log4j2	hive-log4j2.properties	Fichier de paramètres Log4j
hudi	hudi-default.conf	Configuration Hudi
mapred	mapred-site.xml	Configuration de Hadoop MapReduce
mapred-env	mapred-env.sh	Variables d'environnement spécifiques à Hadoop MapReduce
pig	pig.properties	Configuration de Pig
pig-log4j	log4j.properties	Fichier de paramètres Log4j
presto	config.properties	Configuration de Presto
presto-jvm	jvm.config	Configuration JVM spécifique à Presto
spark	spark-defaults.conf	Configurer Spark
spark-env	spark-env.sh	Variables d'environnement spécifiques à Spark
spark-log4j	log4j.properties	Fichier de paramètres Log4j
tez	tez-site.xml	Configuration de Tez
webcat-log4j	webhcat-log4j2.properties	Fichier de paramètres Log4j
yarn	yarn-site.xml	Configuration de Hadoop YARN
yarn-env	yarn-env.sh	Variables d'environnement spécifiques à Hadoop YARN
zeppelin	zeppelin-site.xml	Configuration de Zeppelin
zeppelin-env	zeppelin-env.sh	Variables d'environnement spécifiques à Zeppelin (composant facultatif uniquement)
zeppelin-log4j	log4j.properties	Fichier de paramètres Log4j
zookeeper	zoo.cfg	Configuration de Zookeeper
zookeeper-log4j	log4j.properties	Fichier de paramètres Log4j

Remarques

Certaines propriétés sont réservées et ne peuvent pas être remplacées, car elles ont un impact sur les fonctionnalités du cluster Dataproc. Si vous essayez de modifier une propriété réservée, vous recevez un message d'erreur lors de la création du cluster.
Vous pouvez spécifier plusieurs modifications en les séparant par une virgule.
L'indicateur --properties ne peut pas modifier les fichiers de configuration qui ne sont pas répertoriés ci-dessus.
Les modifications apportées aux propriétés sont appliquées avant le démarrage des daemons du cluster.
Si la propriété spécifiée existe, elle est mise à jour. Si la propriété spécifiée n'existe pas, elle est ajoutée au fichier de configuration.

Propriétés du service Dataproc

Les propriétés répertoriées dans cette section sont spécifiques à Dataproc. Ces propriétés peuvent être utilisées pour configurer davantage les fonctionnalités de votre cluster Dataproc.

Mise en forme

L'option gcloud dataproc clusters create --properties accepte le format de chaîne suivant :

property_prefix1:property1=value1,property_prefix2:property2=value2,...

Le délimiteur par défaut utilisé pour séparer plusieurs propriétés de cluster est la virgule (,). Toutefois, si une virgule est incluse dans une valeur de propriété, vous devez la modifier en spécifiant "^delimiter^" au début de la liste de propriétés (consultez la section gcloud topic escaping pour en savoir plus).
- Exemple utilisant un délimiteur "#" :
```
--properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
```

Exemple :

Créez un cluster et définissez le mode de flexibilité améliorée sur le brassage de nœuds de calcul principaux pour Spark.

gcloud dataproc jobs submit spark \
    --region=region \
    --properties=dataproc:efm.spark.shuffle=primary-worker \
    ... other args ...

Tableau des propriétés du service Dataproc

Préfixe de la propriété	Propriété	Values	Description
dataproc	agent.process.threads.job.min	`number`	Dataproc exécute les pilotes de tâches utilisateur simultanément dans un pool de threads. Cette propriété contrôle le nombre minimal de threads dans le pool de threads pour permettre un démarrage rapide, même lorsqu'aucune tâche n'est en cours d'exécution (par défaut: 10).
dataproc	agent.process.threads.job.max	`number`	Dataproc exécute les pilotes de tâches utilisateur simultanément dans un pool de threads. Cette propriété contrôle le nombre maximal de threads dans le pool de threads, ce qui limite la simultanéité maximale des tâches utilisateur. Augmentez cette valeur pour augmenter la simultanéité (par défaut: 100).
dataproc	am.primary_only	`true` ou `false`	Définissez cette propriété sur `true` pour empêcher l'application maître de s'exécuter sur des nœuds de calcul préemptifs du cluster Dataproc. Remarque : Cette fonctionnalité est uniquement disponible dans Dataproc 1.2 et versions ultérieures. La valeur par défaut est `false`.
dataproc	conda.env.config.uri	`gs://<path>`	Emplacement Cloud Storage du fichier de configuration de l'environnement Conda. Un environnement Conda sera créé et activé à partir de ce fichier. Pour en savoir plus, consultez Utiliser les propriétés de cluster liées à Conda. (par défaut : `empty`)
dataproc	conda.packages	Forfaits Conda	Cette propriété accepte une liste de packages Conda séparés par une virgule avec des versions spécifiques à installer dans l'environnement Conda `base`. Pour en savoir plus, consultez Utiliser les propriétés de cluster liées à Conda. (par défaut: `empty`).
dataproc	dataproc.allow.zero.workers	`true` ou `false`	Définissez la propriété SoftwareConfig sur `true` dans une requête API Dataproc `clusters.create` pour créer un cluster à nœud unique. Cela permet de modifier le nombre de nœuds de calcul par défaut de 2 à 0, et de placer les composants de nœud de calcul sur l'hôte maître. Vous pouvez également créer un cluster à nœud unique à partir de la console Google Cloud ou de la Google Cloud CLI en définissant le nombre de nœuds de calcul sur `0`.
dataproc	dataproc.alpha.master.nvdimm.size.gb	1500-6500	La définition d'une valeur crée un nœud maître Dataproc avec la mémoire persistante Intel Optane DC. Remarque : Les VM Optane ne peuvent être créées que dans des zones `us-central1-f`, avec le type de machine `n1-highmem-96-aep` et uniquement dans les projets en liste blanche.
dataproc:	dataproc.alpha.worker.nvdimm.size.gb	1500-6500	La définition d'une valeur crée un nœud de calcul Dataproc avec la mémoire persistante Intel Optane DC. Remarque : Les VM Optane ne peuvent être créées que dans des zones `us-central1-f`, avec le type de machine `n1-highmem-96-aep` et uniquement dans les projets en liste blanche.
dataproc:	dataproc.await-new-workers-service-registration	`true` ou `false`	Cette propriété est disponible dans les images 2.0.49 et les versions ultérieures. La valeur par défaut est `false`. Définissez cette propriété sur `true` pour attendre que de nouveaux nœuds de calcul primaires enregistrent des dirigeants de service, tels que HDFS NameNode et le gestionnaire de ressources YARN, lors de la création ou du scaling à la hausse du cluster (seuls les services HDFS et YARN sont surveillés). Si la valeur est `true`, si un nouveau nœud de calcul ne parvient pas à s'inscrire à un service, il se voit attribuer un état `FAILED`. Un nœud de calcul ayant échoué est supprimé si le cluster effectue un scaling à la hausse. Si le cluster est en cours de création, un nœud de calcul ayant échoué est supprimé si l'option `gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE` ou le champ d'API `actionOnFailedPrimaryWorkers=DELETE` ont été spécifiés dans le cadre de la commande `gcloud` ou de la requête de création de cluster de l'API.
dataproc:	dataproc.beta.secure.multi-tenancy.user.mapping	`user-to-service account mappings`	Cette propriété prend une liste de mappages entre des utilisateurs et des comptes de service. Les utilisateurs mappés peuvent envoyer des charges de travail interactives au cluster avec des identités d'utilisateur isolées (consultez la section Architecture mutualisée sécurisée basée sur un compte de service Dataproc).
dataproc:	dataproc.cluster.caching	`true` ou `false`	Lorsque la mise en cache du cluster est activée, celui-ci met en cache les données Cloud Storage auxquelles les tâches Spark ont accès, ce qui améliore les performances des tâches sans compromettre la cohérence. (par défaut : `false`)
dataproc	dataproc.cluster-ttl.consider-yarn-activity	`true` ou `false`	Pour les versions d'image 1.4.64+, 1.5.39+ et 2.0.13+, la valeur par défaut `true` de cette propriété entraîne la suppression planifiée du cluster en tenant compte de l'activité YARN, en plus de l'activité de l'API Dataproc Jobs pour déterminer le temps d'inactivité du cluster Lorsque ce paramètre est défini sur `false` pour les versions d'image 1.4.64+, 1.5.39+ et 2.0.13+, ou lorsque vous utilisez des images avec des numéros de version inférieurs, seule l'activité de l'API Dataproc Jobs est prise en compte. La valeur par défaut est `true` pour les versions d'image 1.4.64+, 1.5.39+ et 2.0.13+.
dataproc	dataproc.conscrypt.provider.enable	`true` ou `false`	Active (`true`) ou désactive (`false`) Conscrypt en tant que fournisseur de sécurité Java principal. Remarque : Conscrypt est activé par défaut dans Dataproc 1.2 et versions ultérieures, mais désactivé dans les versions 1.0/1.1.
dataproc	dataproc.cooperative.multi-tenancy.user.mapping	`user-to-service account mappings`	Liste de correspondances entre des utilisateurs et des comptes de service, séparées par des virgules. Si un cluster est créé avec cette propriété, lorsqu'un utilisateur envoie une tâche, le cluster tente d'emprunter l'identité du compte de service correspondant pour accéder à Cloud Storage via le connecteur Cloud Storage. Cette fonctionnalité nécessite la version `2.1.4` ou ultérieure du connecteur Cloud Storage. Pour en savoir plus, consultez la page Architecture mutualisée coopérative Dataproc. (par défaut : `empty`).
dataproc	dataproc:hudi.version	Version Hudi	Définit la version Hudi utilisée avec le composant Dataproc Hudi facultatif. Remarque:Cette version est définie par Dataproc de manière à être compatible avec la version de l'image du cluster. Si elle est définie par l'utilisateur, la création du cluster peut échouer si la version spécifiée n'est pas compatible avec l'image du cluster.
dataproc	dataproc.lineage.enabled	`true`	Active la traçabilité des données dans un cluster Dataproc pour les jobs Spark.
dataproc	dataproc.localssd.mount.enable	`true` ou `false`	Permet de monter des disques SSD locaux en tant que répertoires temporaires Hadoop/Spark et répertoires de données HDFS (la valeur par défaut est `true`).
dataproc	dataproc.logging.stackdriver.enable	`true` ou `false`	Active (`true`) ou désactive (`false`) Cloud Logging (valeur par défaut : `true`). Pour en savoir plus, consultez les tarifs de Cloud Logging.
dataproc	dataproc.logging.stackdriver.job.driver.enable	`true` ou `false`	Active (`true`) ou désactive (`false`) les journaux du pilote de tâches Dataproc dans Cloud Logging. Consultez Résultats et journaux des jobs Dataproc (par défaut: `false`).
dataproc	dataproc.logging.stackdriver.job.yarn.container.enable	`true` ou `false`	Active (`true`) ou désactive (`false`) les journaux de conteneurs YARN dans Cloud Logging. Consultez la section Options de sortie des jobs Spark. (par défaut : `false`).
dataproc	dataproc.master.custom.init.actions.mode	`RUN_BEFORE_SERVICES` ou `RUN_AFTER_SERVICES`	Pour les clusters d'images 2.0 et versions ultérieures, lorsque ce paramètre est défini sur `RUN_AFTER_SERVICES`, les actions d'initialisation sur le maître s'exécutent après HDFS et tous les services qui dépendent de HDFS sont initialisés. Exemples de services dépendants de HDFS : HBase, Hive Server2, Ranger, Solr, ainsi que les serveurs d'historique Spark et MapReduce. (par défaut : `RUN_BEFORE_SERVICES`)
dataproc	dataproc.monitoring.stackdriver.enable	`true` ou `false`	Active (`true`) ou désactive (`false`) l'agent Monitoring (par défaut: `false`). Cette propriété est obsolète. Consultez Activer la collecte de métriques personnalisées pour activer la collecte de métriques Dataproc OSS dans Monitoring.
dataproc	dataproc.scheduler.driver-size-mb	`number`	L'espace mémoire moyen du pilote, qui détermine le nombre maximal de tâches simultanées qu'un cluster va exécuter. La valeur par défaut est de `1` Go. Une valeur plus faible, telle que `256`, peut être appropriée pour les tâches Spark.
dataproc	dataproc.scheduler.job-submission-rate	`number`	Les tâches sont limitées si ce taux est dépassé. Le taux par défaut est de `1.0` RPS.
dataproc	dataproc.scheduler.max-concurrent-jobs	`number`	Nombre maximal de jobs simultanés. Si cette valeur n'est pas définie lors de la création du cluster, la limite supérieure des jobs simultanés est calculée comme suit : `max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5)`. La valeur `masterMemoryMb` est déterminée par le type de machine de la VM maître. `masterMemoryMbPerJob` est défini sur `1024` par défaut, mais il peut être configuré lors de la création du cluster avec la propriété de cluster `dataproc:dataproc.scheduler.driver-size-mb`.
dataproc	dataproc.scheduler.max-memory-used	`number`	Quantité maximale de RAM pouvant être utilisée. Si l'utilisation actuelle dépasse ce seuil, les nouveaux jobs ne peuvent pas être planifiés. La valeur par défaut est `0.9` (90%). Si la valeur est `1.0`, la limitation du job "master-memory-utilization" est désactivée.
dataproc	dataproc.scheduler.min-free-memory.mb	`number`	Quantité minimale de mémoire disponible, en mégaoctets, requise par le pilote de jobs Dataproc pour planifier un autre job sur le cluster. La valeur par défaut est de `256` Mo.
dataproc	dataproc.snap.enabled	`true` ou `false`	Active ou désactive le daemon Snap Ubuntu. La valeur par défaut est `true`. Si cette règle est définie sur `false`, les packages Snap préinstallés dans l'image ne sont pas affectés, mais l'actualisation automatique est désactivée. S'applique aux images Ubuntu 1.4.71, 1.5.46, 2.0.20 et plus récentes.
dataproc	dataproc.worker.custom.init.actions.mode	`RUN_BEFORE_SERVICES`	Pour les clusters d'images antérieurs à la version 2.0, RUN_BEFORE_SERVICES n'est pas défini, mais peut être défini par l'utilisateur lors de la création du cluster. Pour les clusters d'images 2.0+, RUN_BEFORE_SERVICES est défini, et la propriété ne peut pas être transmise au cluster (elle ne peut pas être modifiée par l'utilisateur). Pour en savoir plus sur l'effet de ce paramètre, consultez la section Considérations et consignes importantes – Traitement de l'initialisation.
dataproc	dataproc.yarn.orphaned-app-termination.enable	`true` ou `false`	La valeur par défaut est `true`. Définissez la valeur sur `false` pour empêcher Dataproc d'arrêter les applications YARN "orphelines". Dataproc considère une application YARN comme orpheline si le pilote de tâches qui a envoyé l'application YARN s'est fermé. Avertissement:Si vous utilisez le mode de cluster Spark (`spark.submit.deployMode=cluster`) et que vous définissez `spark.yarn.submit.waitAppCompletion=false`, le pilote Spark se ferme sans attendre que les applications YAML se terminent. Dans ce cas, définissez `dataproc:dataproc.yarn.orphaned-app-termination.enable=false`. Définissez également cette propriété sur `false` si vous envoyez des tâches Hive.
dataproc	efm.spark.shuffle	`primary-worker`	Si la valeur est `primary-worker`, les données de brassage Spark sont écrites sur les nœuds de calcul primaires. Pour en savoir plus, consultez la page Mode de flexibilité améliorée de Dataproc.
dataproc	job.history.to-gcs.enabled	`true` ou `false`	Permet de conserver les fichiers d'historique MapReduce et Spark dans le bucket temporaire Dataproc (valeur par défaut : `true` pour les versions d'image 1.5 et ultérieures). Les utilisateurs peuvent remplacer les emplacements de persistance des fichiers d'historique des tâches via les propriétés suivantes: `mapreduce.jobhistory.done-dir`, `mapreduce.jobhistory.intermediate-done-dir`, `spark.eventLog.dir` et `spark.history.fs.logDirectory`. Consultez la page Serveur d'historique persistant Dataproc pour en savoir plus sur ces propriétés de cluster et sur les autres propriétés de cluster associées à l'historique des tâches et aux fichiers d'événements Dataproc.
dataproc	jobs.file-backed-output.enable	`true` ou `false`	Configure les tâches Dataproc pour diriger leur sortie vers des fichiers temporaires dans le répertoire `/var/log/google-dataproc-job`. Doit être défini sur `true` pour activer la journalisation du pilote de tâches dans Cloud Logging (valeur par défaut : `true`).
dataproc	jupyter.listen.all.interfaces	`true` ou `false`	Pour réduire le risque d'exécution de code à distance sur les API de serveur de notebooks non sécurisées, le paramètre par défaut pour les versions d'images 1.3 et ultérieures est `false`, ce qui limite les connexions à `localhost` (`127.0.0.1`) lorsque Passerelle des composants est activé (l'activation de la passerelle des composants n'est pas requise pour les images 2.0+). Ce paramètre par défaut peut être remplacé en définissant la propriété sur `true` pour autoriser toutes les connexions.
dataproc	jupyter.notebook.gcs.dir	`gs://<dir-path>`	Emplacement dans Cloud Storage qui sert à enregistrer les notebooks Jupyter.
dataproc	kerberos.beta.automatic-config.enable	`true` ou `false`	Lorsqu'il est défini sur `true`, les utilisateurs n'ont pas besoin de spécifier le mot de passe racine principal Kerberos avec les options `--kerberos-root-principal-password` et `--kerberos-kms-key-uri` (par défaut: `false`). Consultez la section Activer le mode sécurisé Hadoop via Kerberos pour plus d'informations.
dataproc	kerberos.cross-realm-trust.admin-server	`hostname/address`	Nom d'hôte/adresse du serveur d'administration distant (souvent identique à celui/celle du serveur KDC).
dataproc	kerberos.cross-realm-trust.kdc	`hostname/address`	Nom d'hôte/adresse du serveur KDC distant.
dataproc	kerberos.cross-realm-trust.realm	`realm name`	Les noms de domaine peuvent être constitués de n'importe quelle chaîne ASCII en MAJUSCULES. Généralement, le nom de domaine est identique à votre nom de domaine DNS (en MAJUSCULES). Exemple : Si les ordinateurs portent le nom "`machine-id`example.west-coast.mycompany.com", le domaine associé peut être désigné par "EXAMPLE.WEST-COAST.MYCOMPANY.COM".
dataproc	kerberos.cross-realm-trust.shared-password.uri	`gs://<dir-path>`	Emplacement dans Cloud Storage du mot de passe partagé chiffré KMS.
dataproc	kerberos.kdc.db.key.uri	`gs://<dir-path>`	Emplacement dans Cloud Storage du fichier chiffré KMS contenant la clé principale de la base de données KDC.
dataproc	kerberos.key.password.uri	`gs://<dir-path>`	Emplacement dans Cloud Storage du fichier chiffré KMS contenant le mot de passe de la clé dans le fichier keystore.
dataproc	kerberos.keystore.password.uri	`gs://<dir-path>`	Emplacement dans Cloud Storage du fichier chiffré KMS contenant le mot de passe du fichier keystore.
dataproc	kerberos.keystore.uri¹	`gs://<dir-path>`	Emplacement dans Cloud Storage du fichier keystore contenant le certificat générique et la clé privée utilisée par les nœuds du cluster.
dataproc	kerberos.kms.key.uri	`KMS key URI`	URI de la clé KMS utilisée pour déchiffrer le mot de passe racine, par exemple `projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key` (voir ID de ressource de la clé).
dataproc	kerberos.root.principal.password.uri	`gs://<dir-path>`	Emplacement dans Cloud Storage du mot de passe chiffré KMS pour le compte principal racine Kerberos.
dataproc	kerberos.tgt.lifetime.hours	`hours`	Durée de vie maximale du ticket TGT (ticket granting ticket ou ticket d'octroi de ticket).
dataproc	kerberos.truststore.password.uri	`gs://<dir-path>`	Emplacement dans Cloud Storage du fichier chiffré KMS contenant le mot de passe du fichier truststore.
dataproc	kerberos.truststore.uri²	`gs://<dir-path>`	Emplacement dans Cloud Storage du fichier truststore chiffré KMS contenant des certificats approuvés.
dataproc	pip.packages	Packages Pip	Cette propriété accepte une liste de packages Pip séparés par une virgule avec des versions spécifiques à installer dans l'environnement Conda `base`. Pour en savoir plus, consultez Propriétés des clusters associés à Conda. (par défaut: `empty`).
dataproc	ranger.kms.key.uri	`KMS key URI`	URI de la clé KMS utilisée pour déchiffrer le mot de passe administrateur Ranger, par exemple `projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key` (voir ID de ressource de la clé).
dataproc	ranger.admin.password.uri	`gs://<dir-path>`	Emplacement dans Cloud Storage du mot de passe chiffré KMS pour l'administrateur Ranger.
dataproc	ranger.db.admin.password.uri	`gs://<dir-path>`	Emplacement dans Cloud Storage du mot de passe chiffré KMS pour l'administrateur de la base de données Ranger.
dataproc	ranger.cloud-sql.instance.connection.name	`cloud sql instance connection name`	Nom de connexion de l'instance Cloud SQL, par exemple `project-id:region:name.`.
dataproc	ranger.cloud-sql.root.password.uri	`gs://<dir-path>`	Emplacement dans Cloud Storage du mot de passe chiffré KMS pour l'utilisateur racine de l'instance Cloud SQL.
dataproc	ranger.cloud-sql.use-private-ip	`true` ou `false`	Indique si la communication entre les instances de cluster et l'instance Cloud SQL doit s'effectuer via une adresse IP privée. La valeur par défaut est `false`.
dataproc	solr.gcs.path	`gs://<dir-path>`	Chemin d'accès Cloud Storage pour agir en tant que répertoire d'accueil Solr.
dataproc	startup.component.service-binding-timeout.hadoop-hdfs-namenode	`seconds`	Durée pendant laquelle le script de démarrage Dataproc attend que le paramètre hadoop-hdfs-namenode soit associé aux ports avant de décider que son démarrage a réussi. La valeur maximale reconnue est de 1 800 secondes (30 minutes).
dataproc	startup.component.service-binding-timeout.hive-metastore	`seconds`	Durée pendant laquelle le script de démarrage Dataproc attend que le service hive-metastore soit associé aux ports avant de décider que son démarrage a réussi. La valeur maximale reconnue est de 1 800 secondes (30 minutes).
dataproc	startup.component.service-binding-timeout.hive-server2	`seconds`	Durée pendant laquelle le script de démarrage Dataproc attend que le paramètre hive-server2 soit associé aux ports avant de décider que son démarrage a réussi. La valeur maximale reconnue est de 1 800 secondes (30 minutes).
dataproc	user-attribution.enabled	`true` ou `false`	Définissez cette propriété sur `true` pour attribuer une tâche Dataproc à l'identité de l'utilisateur qui l'a envoyée (la valeur par défaut est `false`).
dataproc	yarn.docker.enable	`true` ou `false`	Définissez la valeur sur `true` pour activer la fonctionnalité Docker sur Dataproc Docker (la valeur par défaut est `false`).
dataproc	yarn.docker.image	`docker image`	Lorsque vous activez la fonctionnalité Dataproc Docker sur YAML (`dataproc:yarn.docker.enable=true`), vous pouvez utiliser cette propriété facultative pour spécifier votre image Docker (par exemple, `dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1`). Si vous spécifiez une image, celle-ci est téléchargée et mise en cache dans tous les nœuds du cluster lors de la création du cluster.
dataproc	yarn.log-aggregation.enabled	`true` ou `false`	Permet à (`true`) d'activer l'agrégation des journaux YAML sur le `temp bucket` du cluster. Le nom du bucket se présente sous la forme suivante: `dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING>`. (par défaut: `true` pour les versions d'image 1.5 et ultérieures). Remarque:Le bucket temporaire du cluster n'est pas supprimé en même temps que le cluster. Les utilisateurs peuvent également définir l'emplacement des journaux YARN agrégés en écrasant la propriété YARN `yarn.nodemanager.remote-app-log-dir`.
knox	gateway.host	`ip address`	Pour réduire le risque d'exécution de code à distance sur les API de serveur de notebooks non sécurisées, le paramètre par défaut pour les versions d'images 1.3 et ultérieures est `127.0.0.1`. Il limite les connexions à `localhost` lorsque Passerelle des composants est activée. Le paramètre par défaut peut être remplacé, par exemple en définissant la propriété sur `0.0.0.0` pour autoriser toutes les connexions.
zeppelin	zeppelin.notebook.gcs.dir	`gs://<dir-path>`	Emplacement dans Cloud Storage qui sert à enregistrer les notebooks Zeppelin.
zeppelin	zeppelin.server.addr	`ip address`	Pour réduire le risque d'exécution de code à distance sur les API de serveur de notebooks non sécurisées, le paramètre par défaut pour les versions d'images 1.3 et ultérieures est `127.0.0.1`. Il limite les connexions à `localhost` lorsque Passerelle des composants est activée. Ce paramètre par défaut peut être remplacé, par exemple en définissant la propriété sur `0.0.0.0` pour autoriser toutes les connexions.

¹Fichier keystore : le fichier keystore contient le certificat SSL. Il doit être au format Java KeyStore (JKS). Lorsqu'il est copié sur les VM, il est renommé keystore.jks. Le certificat SSL doit être un certificat générique qui s'applique à chaque nœud du cluster.

²Fichier truststore : le fichier truststore doit être au format Java KeyStore (JKS). Lorsqu'il est copié sur les VM, il est renommé truststore.jks.