Apache Hadoop YARN, HDFS, Spark et autres propriétés associées
Les composants Open Source installés sur les clusters Dataproc contiennent de nombreux fichiers de configuration. Par exemple, Apache Spark et Apache Hadoop ont plusieurs fichiers de configuration aux formats XML et texte brut. Vous pouvez utiliser l'option ‑‑properties
de la commande gcloud dataproc clusters create pour modifier de nombreux fichiers de configuration courants lors de la création d'un cluster.
Mise en forme
L'option gcloud dataproc clusters create --properties
accepte le format de chaîne suivant :
file_prefix1:property1=value1,file_prefix2:property2=value2,...
file_prefix est mappé sur un fichier de configuration prédéfini, comme indiqué dans le tableau ci-dessous, et property est mappé sur une propriété dans le fichier.
Le délimiteur par défaut utilisé pour séparer plusieurs propriétés de cluster est la virgule (,). Toutefois, si une virgule est incluse dans une valeur de propriété, vous devez modifier le délimiteur en spécifiant "^delimiter^" au début de la liste des propriétés (pour en savoir plus, consultez la section sur gcloud topic escaping).
- Exemple utilisant un délimiteur "#" :
--properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
- Exemple utilisant un délimiteur "#" :
Exemples
Commande gcloud
Pour modifier le paramètre spark.master
dans le fichier spark-defaults.conf
, ajoutez l'option gcloud dataproc clusters create --properties
suivante :
--properties 'spark:spark.master=spark://example.com'
Vous pouvez modifier plusieurs propriétés à la fois, dans un ou plusieurs fichiers de configuration, à l'aide d'une virgule en guise de séparateur. Chaque propriété doit être spécifiée au format file_prefix:property=value
complet. Par exemple, pour modifier le paramètre spark.master
dans le fichier spark-defaults.conf
et le paramètre dfs.hosts
dans le fichier hdfs-site.xml
, utilisez l'option --properties
suivante lors de la création d'un cluster :
--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'
API REST
Pour définir spark.executor.memory
sur 10g
, insérez le paramètre properties
suivant dans la section SoftwareConfig de votre requête clusters.create :
"properties": { "spark:spark.executor.memory": "10g" }
Un moyen simple de créer le corps JSON d'une requête REST de clusters dans l'API Dataproc consiste à lancer la commande gcloud
équivalente à l'aide de l'option --log-http
.
Voici un exemple de la commande gcloud dataproc clusters create
qui permet de définir les propriétés de cluster avec l'option --properties spark:spark.executor.memory=10g
.
Le journal stdout affiche le corps de la requête REST obtenu (l'extrait de properties
est présenté ci-dessous) :
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties=spark:spark.executor.memory=10g \ --log-http \ other args ...
Sortie :
... == body start == {"clusterName": "my-cluster", "config": {"gceClusterConfig": ... "masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},
... == body end == ...
Une fois que le corps JSON est affiché dans la sortie, vous devez annuler la commande si vous ne voulez pas qu'elle soit prise en compte.
Console
Pour modifier le paramètre spark.master
dans le fichier spark-defaults.conf
, procédez comme suit :
- Dans la console Google Cloud, ouvrez la page Dataproc Créer un cluster. Cliquez sur le panneau "Personnaliser le cluster", puis faites défiler la page jusqu'à la section "Propriétés du cluster".
- Cliquez sur + AJOUTER DES PROPRIÉTÉS. Sélectionnez spark dans la liste "Préfixe", puis ajoutez "spark.master" dans le champ "Clé" et le paramètre dans le champ "Valeur".
Clusters et propriétés des tâches
Les propriétés préfixées par un nom de fichier, telles que celles pour Apache Hadoop YARN, HDFS et Spark, sont appliquées au niveau du cluster lorsque vous créez un cluster. Ces propriétés ne peuvent pas être appliquées à un cluster après sa création. Toutefois, la plupart de ces propriétés peuvent également être appliquées à des tâches particulières. Lorsque vous appliquez une propriété à une tâche, le préfixe du fichier ne doit pas être spécifié.
L'exemple suivant définit la mémoire de l'exécuteur Spark sur 4 Go pour une tâche Spark (préfixe spark:
omis).
gcloud dataproc jobs submit spark \ --region=REGION \ --properties=spark.executor.memory=4g \ other args ...
Les propriétés de tâche peuvent être envoyées dans un fichier à l'aide de l'option gcloud dataproc jobs submit job-type --properties-file
(voir, par exemple, la description de l'option --properties-file pour l'envoi d'une tâche Hadoop).
gcloud dataproc jobs submit JOB_TYPE \ --region=REGION \ --properties-file=PROPERTIES_FILE \ other args ...
PROPERTIES_FILE
est un ensemble de paires key
=value
délimitées par ligne. La propriété à définir est key
, et la valeur à définir est value
. Pour obtenir une description détaillée du format de fichier de propriétés, consultez la classe java.util.Properties.
Voici un exemple de fichier de propriétés qui peut être transmis à l'indicateur --properties-file
lors de l'envoi d'une tâche Dataproc.
dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml spark:spark.history.fs.logDirectory=gs://some-bucket spark:spark.eventLog.dir=gs://some-bucket capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5
Tableau des propriétés préfixées par un nom de fichier
Préfixe de fichier | Fichier | Objet du fichier |
---|---|---|
capacity-scheduler | capacity-scheduler.xml | Configuration du planificateur de capacité Hadoop YARN |
core | core-site.xml | Configuration générale de Hadoop |
distcp | distcp-default.xml | Configuration de Hadoop Distributed Copy |
flink | flink-conf.yaml | Configuration de Flink |
flink-log4j | log4j.properties | Fichier de paramètres Log4j |
hadoop-env | hadoop-env.sh | Variables d'environnement spécifiques à Hadoop |
hadoop-log4j | log4j.properties | Fichier de paramètres Log4j |
hbase | hbase-site.xml | Configuration HBase |
hbase-log4j | log4j.properties | Fichier de paramètres Log4j |
hdfs | hdfs-site.xml | Configuration de Hadoop HDFS |
hive | hive-site.xml | Configuration de Hive |
hive-log4j2 | hive-log4j2.properties | Fichier de paramètres Log4j |
hudi | hudi-default.conf | Configuration de Hudi |
mapred | mapred-site.xml | Configuration de Hadoop MapReduce |
mapred-env | mapred-env.sh | Variables d'environnement spécifiques à Hadoop MapReduce |
pig | pig.properties | Configuration de Pig |
pig-log4j | log4j.properties | Fichier de paramètres Log4j |
presto | config.properties | Configuration de Presto |
presto-jvm | jvm.config | Configuration JVM spécifique à Presto |
spark | spark-defaults.conf | Configurer Spark |
spark-env | spark-env.sh | Variables d'environnement spécifiques à Spark |
spark-log4j | log4j.properties | Fichier de paramètres Log4j |
tez | tez-site.xml | Configuration de Tez |
webcat-log4j | webhcat-log4j2.properties | Fichier de paramètres Log4j |
yarn | yarn-site.xml | Configuration de Hadoop YARN |
yarn-env | yarn-env.sh | Variables d'environnement spécifiques à Hadoop YARN |
zeppelin | zeppelin-site.xml | Configuration de Zeppelin |
zeppelin-env | zeppelin-env.sh | Variables d'environnement spécifiques à Zeppelin (composant facultatif uniquement) |
zeppelin-log4j | log4j.properties | Fichier de paramètres Log4j |
zookeeper | zoo.cfg | Configuration de Zookeeper |
zookeeper-log4j | log4j.properties | Fichier de paramètres Log4j |
Remarques
- Certaines propriétés sont réservées et ne peuvent pas être remplacées, car elles ont un impact sur les fonctionnalités du cluster Dataproc. Si vous essayez de modifier une propriété réservée, vous recevez un message d'erreur lors de la création du cluster.
- Vous pouvez spécifier plusieurs modifications en les séparant par une virgule.
- L'indicateur
--properties
ne peut pas modifier les fichiers de configuration qui ne sont pas répertoriés ci-dessus. - Les modifications apportées aux propriétés sont appliquées avant le démarrage des daemons du cluster.
- Si la propriété spécifiée existe, elle est mise à jour. Si la propriété spécifiée n'existe pas, elle est ajoutée au fichier de configuration.
Propriétés du service Dataproc
Les propriétés listées dans cette section sont spécifiques à Dataproc. Ces propriétés peuvent être utilisées pour configurer les fonctionnalités de votre cluster Dataproc.
Mise en forme
L'option gcloud dataproc clusters create --properties
accepte le format de chaîne suivant :
property_prefix1:property1=value1,property_prefix2:property2=value2,...
Le délimiteur par défaut utilisé pour séparer plusieurs propriétés de cluster est la virgule (,). Toutefois, si une virgule est incluse dans une valeur de propriété, vous devez modifier le délimiteur en spécifiant "^delimiter^" au début de la liste des propriétés (pour en savoir plus, consultez la section sur gcloud topic escaping).
- Exemple utilisant un délimiteur "#" :
--properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
- Exemple utilisant un délimiteur "#" :
Exemple :
Créez un cluster et définissez le mode de flexibilité améliorée sur le brassage de nœuds de calcul principaux pour Spark.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties=dataproc:efm.spark.shuffle=primary-worker \ other args ...
Tableau des propriétés du service Dataproc
Préfixe de la propriété | Valeur | Values | Description |
---|---|---|---|
Dataproc | agent.process.threads.job.min | number |
Dataproc exécute les pilotes de tâches utilisateur simultanément dans un pool de threads. Cette propriété contrôle le nombre minimal de threads dans le pool de threads pour un démarrage rapide, même lorsqu'aucune tâche n'est en cours d'exécution (valeur par défaut: 10). |
Dataproc | agent.process.threads.job.max | number |
Dataproc exécute les pilotes de tâches utilisateur simultanément dans un pool de threads. Cette propriété contrôle le nombre maximal de threads dans le pool de threads, ce qui limite le nombre maximal de tâches simultanées des utilisateurs. Augmentez cette valeur pour une simultanéité plus élevée (valeur par défaut: 100). |
Dataproc | am.primary_only | true ou false |
Définissez cette propriété sur true pour empêcher l'application maître de s'exécuter sur des nœuds de calcul préemptifs du cluster Dataproc. Remarque : Cette fonctionnalité est uniquement disponible dans Dataproc 1.2 et versions ultérieures. La valeur par défaut est false . |
Dataproc | conda.env.config.uri | gs://<path> |
Emplacement dans Cloud Storage du fichier de configuration de l'environnement Conda. Un nouvel environnement Conda sera créé et activé en fonction de ce fichier. Pour en savoir plus, consultez la section Utiliser les propriétés de cluster liées à Conda. (par défaut : empty ) |
Dataproc | conda.packages | Packages Conda | Cette propriété accepte une liste de packages Conda séparés par une virgule avec des versions spécifiques à installer dans l'environnement Conda base . Pour en savoir plus, consultez la section Utiliser les propriétés de cluster liées à Conda. (par défaut: empty ) |
Dataproc | dataproc.allow.zero.workers | true ou false |
Définissez la propriété SoftwareConfig sur true dans une requête API Dataproc clusters.create pour créer un cluster à nœud unique. Cela permet de modifier le nombre de nœuds de calcul par défaut de 2 à 0, et de placer les composants de nœud de calcul sur l'hôte maître. Vous pouvez également créer un cluster à nœud unique à partir de la console Google Cloud ou de la Google Cloud CLI en définissant le nombre de nœuds de calcul sur 0 . |
dataproc | dataproc.alpha.master.nvdimm.size.gb | 1500-6500 | La définition d'une valeur crée un nœud maître Dataproc avec la mémoire persistante Intel Optane DC. Remarque : Les VM Optane ne peuvent être créées que dans des zones us-central1-f , avec le type de machine n1-highmem-96-aep et uniquement dans les projets en liste blanche. |
dataproc : | dataproc.alpha.worker.nvdimm.size.gb | 1500-6500 | La définition d'une valeur crée un nœud de calcul Dataproc avec la mémoire persistante Intel Optane DC. Remarque : Les VM Optane ne peuvent être créées que dans des zones us-central1-f , avec le type de machine n1-highmem-96-aep et uniquement dans les projets en liste blanche. |
dataproc : | dataproc.await-new-workers-service-registration | true ou false |
Cette propriété est disponible dans les images 2.0.49 et versions ultérieures. La valeur par défaut est false . Définissez cette propriété sur true pour attendre que les nouveaux nœuds de travail principaux enregistrent des leaders de service, tels que le NameNode HDFS et le ResourceManager YARN, lors de la création ou de l'extension du cluster (seuls les services HDFS et YARN sont surveillés). Lorsque la valeur est true , si un nouveau nœud de calcul ne parvient pas à s'inscrire à un service, l'état FAILED lui est attribué. Un nœud de calcul défaillant est supprimé si le cluster est mis à l'échelle. Si le cluster est en cours de création, un nœud de calcul ayant échoué est supprimé si l'option gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE ou le champ de l'API actionOnFailedPrimaryWorkers=DELETE a été spécifié dans la commande gcloud ou la requête de création de cluster de l'API. |
dataproc : | dataproc.beta.secure.multi-tenancy.user.mapping | user-to-service account mappings |
Cette propriété prend une liste de mappages entre des utilisateurs et des comptes de service. Les utilisateurs mappés peuvent envoyer des charges de travail interactives au cluster avec des identités d'utilisateur isolées (consultez la section Architecture mutualisée sécurisée basée sur un compte de service Dataproc). |
dataproc : | dataproc.cluster.caching.enabled | true ou false |
Lorsque le mise en cache du cluster est activée, le cluster met en cache les données Cloud Storage auxquelles les tâches Spark accèdent, ce qui améliore les performances des tâches sans compromettre la cohérence. (par défaut : false ) |
dataproc | dataproc.cluster-ttl.consider-yarn-activity | true ou false |
Lorsque la valeur est définie sur true , la suppression planifiée du cluster tient compte à la fois de l'activité YARN et de l'activité de l'API Dataproc Jobs pour calculer le temps d'inactivité du cluster. Lorsque ce paramètre est défini sur false , seule l'activité de l'API Dataproc Jobs est prise en compte. (valeur par défaut: true ). Pour en savoir plus, consultez la section Calcul du temps d'inactivité du cluster. |
dataproc | dataproc.conscrypt.provider.enable | true ou false |
Active (true ) ou désactive (false ) Conscrypt en tant que fournisseur de sécurité Java principal. Remarque : Conscrypt est activé par défaut dans Dataproc 1.2 et versions ultérieures, mais désactivé dans les versions 1.0/1.1. |
Dataproc | dataproc.cooperative.multi-tenancy.user.mapping | user-to-service account mappings |
Liste de correspondances entre des utilisateurs et des comptes de service, séparées par des virgules. Si un cluster est créé avec cette propriété, lorsqu'un utilisateur envoie une tâche, le cluster tente d'emprunter l'identité du compte de service correspondant pour accéder à Cloud Storage via le connecteur Cloud Storage. Cette fonctionnalité nécessite la version 2.1.4 ou ultérieure du connecteur Cloud Storage. Pour en savoir plus, consultez la page Architecture mutualisée coopérative Dataproc. (par défaut : empty ). |
dataproc | dataproc.control.max.assigned.job.tasks | 100 |
Cette propriété limite le nombre de tâches pouvant être exécutées simultanément sur un nœud maître de cluster. Si le nombre de tâches actives dépasse la limite, les nouvelles tâches sont mises en file d'attente jusqu'à ce que les tâches en cours soient terminées et que les ressources soient libérées pour permettre la planification de nouvelles tâches. Remarque:Nous vous déconseillons de définir une limite de tâches par défaut supérieure à 100 (valeur par défaut), car cela peut entraîner une erreur de manque de mémoire dans le nœud maître. |
dataproc | dataproc:hudi.version | Version Hudi | Définit la version Hudi utilisée avec le composant Dataproc Hudi facultatif. Remarque:Cette version est définie par Dataproc pour être compatible avec la version de l'image du cluster. S'il est défini par l'utilisateur, la création de cluster peut échouer si la version spécifiée n'est pas compatible avec l'image du cluster. |
dataproc | dataproc.lineage.enabled | true |
Active la lignée des données dans un cluster Dataproc pour les tâches Spark. |
dataproc | dataproc.localssd.mount.enable | true ou false |
Permet de monter des disques SSD locaux en tant que répertoires temporaires Hadoop/Spark et répertoires de données HDFS (la valeur par défaut est true ). |
Dataproc | dataproc.logging.stackdriver.enable | true ou false |
Active (true ) ou désactive (false ) Cloud Logging (valeur par défaut : true ). Pour en savoir plus, consultez les tarifs de Cloud Logging. |
Dataproc | dataproc.logging.stackdriver.job.driver.enable | true ou false |
Active (true ) ou désactive (false ) les journaux de pilotes de tâches Dataproc dans Cloud Logging. Consultez la section Sortie et journaux des tâches Dataproc (valeur par défaut: false ). |
dataproc | dataproc.logging.stackdriver.job.yarn.container.enable | true ou false |
Active (true ) ou désactive (false ) les journaux de conteneurs YARN dans Cloud Logging. Consultez la section Options de sortie de la tâche Spark. (par défaut : false ). |
Dataproc | dataproc.master.custom.init.actions.mode | RUN_BEFORE_SERVICES ou RUN_AFTER_SERVICES |
Pour les clusters d'images 2.0 et versions ultérieures, lorsque ce paramètre est défini sur RUN_AFTER_SERVICES , les actions d'initialisation sur le maître s'exécutent après HDFS et tous les services qui dépendent de HDFS sont initialisés. Exemples de services dépendants de HDFS : HBase, Hive Server2, Ranger, Solr, ainsi que les serveurs d'historique Spark et MapReduce. (par défaut : RUN_BEFORE_SERVICES ) |
Dataproc | dataproc.monitoring.stackdriver.enable | true ou false |
Active (true ) ou désactive (false ) l'agent Monitoring (valeur par défaut: false ). Cette propriété est obsolète. Consultez Activer la collecte de métriques personnalisées pour activer la collecte des métriques de l'OSS Dataproc dans Monitoring. |
dataproc | dataproc.scheduler.driver-size-mb | number |
L'espace mémoire moyen du pilote, qui détermine le nombre maximal de tâches simultanées qu'un cluster va exécuter. La valeur par défaut est de 1 Go. Une valeur plus faible, telle que 256 , peut être appropriée pour les tâches Spark. |
dataproc | dataproc.scheduler.job-submission-rate | number |
Les tâches sont limitées si ce débit est dépassé. Le débit par défaut est de 1.0 RPS. |
dataproc | dataproc.scheduler.max-concurrent-jobs | number |
Nombre maximal de tâches simultanées. Si cette valeur n'est pas définie lors de la création du cluster, la limite supérieure des tâches simultanées est calculée sur la base de max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5) . masterMemoryMb est déterminé par le type de machine de la VM principale. masterMemoryMbPerJob est 1024 par défaut, mais peut être configuré lors de la création du cluster avec la propriété de cluster dataproc:dataproc.scheduler.driver-size-mb . |
dataproc | dataproc.scheduler.max-memory-used | number |
Quantité maximale de RAM pouvant être utilisée. Si l'utilisation actuelle dépasse ce seuil, vous ne pouvez pas planifier de nouvelles tâches. La valeur par défaut est 0.9 (90%). Si la valeur est 1.0 , le débit des tâches d'utilisation de la mémoire principale est désactivé. |
dataproc | dataproc.scheduler.min-free-memory.mb | number |
Quantité minimale de mémoire libre en mégaoctets requise par le pilote de tâche Dataproc pour planifier une autre tâche sur le cluster. La valeur par défaut est 256 Mo. |
dataproc | dataproc.snap.enabled | true ou false |
Active ou désactive le démon Ubuntu Snap. La valeur par défaut est true . Si la valeur est false , les paquets Snap préinstallés dans l'image ne sont pas affectés, mais l'actualisation automatique est désactivée. S'applique aux images Ubuntu 1.4.71, 1.5.46, 2.0.20 et versions ultérieures. |
Dataproc | dataproc.worker.custom.init.actions.mode | RUN_BEFORE_SERVICES |
Pour les clusters d'images antérieurs à la version 2.0, RUN_BEFORE_SERVICES n'est pas défini, mais peut être défini par l'utilisateur lors de la création du cluster. Pour les clusters d'images 2.0+, RUN_BEFORE_SERVICES est défini, et la propriété ne peut pas être transmise au cluster (elle ne peut pas être modifiée par l'utilisateur). Pour en savoir plus sur l'effet de ce paramètre, consultez la section Considérations et consignes importantes – Traitement de l'initialisation. |
dataproc | dataproc.yarn.orphaned-app-termination.enable | true ou false |
La valeur par défaut est true . Définissez cette valeur sur false pour empêcher Dataproc d'arrêter les applications YARN "orphelines". Dataproc considère qu'une application YARN est orpheline si le pilote de tâche qui a envoyé l'application YARN a quitté le système. Avertissement:Si vous utilisez le mode de cluster Spark (spark.submit.deployMode=cluster ) et que vous définissez spark.yarn.submit.waitAppCompletion=false , le pilote Spark se ferme sans attendre la fin des applications YARN. Dans ce cas, définissez dataproc:dataproc.yarn.orphaned-app-termination.enable=false . Définissez également cette propriété sur false si vous envoyez des tâches Hive. |
dataproc | diagnostic.capture.enable | true ou false |
Active la collecte des données de diagnostic avec point de contrôle du cluster. (par défaut : false ) |
dataproc | diagnostic.capture.access | GOOGLE_DATAPROC_DIAGNOSE |
Si la valeur est GOOGLE_DATAPROC_DIAGNOSE , les données de diagnostic avec point de contrôle du cluster, qui sont enregistrées dans Cloud Storage, sont partagées avec l'assistance Dataproc. (par défaut: non défini) |
dataproc | efm.spark.shuffle | primary-worker |
Si défini sur primary-worker , les données de brassage Spark sont écrites sur les nœuds de calcul principaux." Pour en savoir plus, consultez la page Mode de flexibilité améliorée de Dataproc. |
dataproc | job.history.to-gcs.enabled | true ou false |
Permet de conserver les fichiers d'historique MapReduce et Spark dans le bucket temporaire Dataproc (valeur par défaut : true pour les versions d'image 1.5 et ultérieures). Les utilisateurs peuvent remplacer les emplacements de persistance des fichiers d'historique des tâches via les propriétés suivantes: mapreduce.jobhistory.done-dir , mapreduce.jobhistory.intermediate-done-dir , spark.eventLog.dir et spark.history.fs.logDirectory . Consultez la page Serveur d'historique persistant Dataproc pour en savoir plus sur ces propriétés de cluster et sur les autres propriétés de cluster associées à l'historique des tâches et aux fichiers d'événements Dataproc. |
Dataproc | jobs.file-backed-output.enable | true ou false |
Configure les tâches Dataproc pour diriger leur sortie vers des fichiers temporaires dans le répertoire /var/log/google-dataproc-job . Doit être défini sur true pour activer la journalisation du pilote de tâches dans Cloud Logging (valeur par défaut : true ). |
Dataproc | jupyter.listen.all.interfaces | true ou false |
Pour réduire le risque d'exécution de code à distance sur les API de serveur de notebooks non sécurisées, le paramètre par défaut pour les versions d'images 1.3 et ultérieures est false , ce qui limite les connexions à localhost (127.0.0.1 ) lorsque Passerelle des composants est activé (l'activation de la passerelle des composants n'est pas requise pour les images 2.0+). Ce paramètre par défaut peut être remplacé en définissant la propriété sur true pour autoriser toutes les connexions. |
Dataproc | jupyter.notebook.gcs.dir | gs://<dir-path> |
Emplacement dans Cloud Storage qui sert à enregistrer les notebooks Jupyter. |
Dataproc | kerberos.beta.automatic-config.enable | true ou false |
Lorsqu'il est défini sur true , les utilisateurs n'ont pas besoin de spécifier le mot de passe racine principal Kerberos avec les options --kerberos-root-principal-password et --kerberos-kms-key-uri (par défaut: false ). Consultez la section Activer le mode sécurisé Hadoop via Kerberos pour plus d'informations. |
Dataproc | kerberos.cross-realm-trust.admin-server | hostname/address |
Nom d'hôte/adresse du serveur d'administration distant (souvent identique à celui/celle du serveur KDC). |
Dataproc | kerberos.cross-realm-trust.kdc | hostname/address |
Nom d'hôte/adresse du serveur KDC distant. |
Dataproc | kerberos.cross-realm-trust.realm | realm name |
Les noms de domaine peuvent être constitués de n'importe quelle chaîne ASCII en MAJUSCULES. Généralement, le nom de domaine est identique à votre nom de domaine DNS (en MAJUSCULES). Exemple : Si les ordinateurs portent le nom "machine-idexample.west-coast.mycompany.com", le domaine associé peut être désigné par "EXAMPLE.WEST-COAST.MYCOMPANY.COM". |
Dataproc | kerberos.cross-realm-trust.shared-password.uri | gs://<dir-path> |
Emplacement dans Cloud Storage du mot de passe partagé chiffré KMS. |
Dataproc | kerberos.kdc.db.key.uri | gs://<dir-path> |
Emplacement dans Cloud Storage du fichier chiffré KMS contenant la clé principale de la base de données KDC. |
Dataproc | kerberos.key.password.uri | gs://<dir-path> |
Emplacement dans Cloud Storage du fichier chiffré KMS contenant le mot de passe de la clé dans le fichier keystore. |
Dataproc | kerberos.keystore.password.uri | gs://<dir-path> |
Emplacement dans Cloud Storage du fichier chiffré KMS contenant le mot de passe du fichier keystore. |
Dataproc | kerberos.keystore.uri1 | gs://<dir-path> |
Emplacement dans Cloud Storage du fichier keystore contenant le certificat générique et la clé privée utilisée par les nœuds du cluster. |
Dataproc | kerberos.kms.key.uri | KMS key URI |
URI de la clé KMS utilisée pour déchiffrer le mot de passe racine, par exemple projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (voir ID de ressource de la clé). |
Dataproc | kerberos.root.principal.password.uri | gs://<dir-path> |
Emplacement dans Cloud Storage du mot de passe chiffré KMS pour le compte principal racine Kerberos. |
Dataproc | kerberos.tgt.lifetime.hours | hours |
Durée de vie maximale du ticket TGT (ticket granting ticket ou ticket d'octroi de ticket). |
Dataproc | kerberos.truststore.password.uri | gs://<dir-path> |
Emplacement dans Cloud Storage du fichier chiffré KMS contenant le mot de passe du fichier truststore. |
Dataproc | kerberos.truststore.uri2 | gs://<dir-path> |
Emplacement dans Cloud Storage du fichier truststore chiffré KMS contenant des certificats approuvés. |
Dataproc | pip.packages | Packages Pip | Cette propriété accepte une liste de packages Pip séparés par des virgules avec des versions spécifiques, à installer dans l'environnement Conda base . Pour en savoir plus, consultez la section Propriétés de cluster liées à Conda. (par défaut: empty ) |
Dataproc | ranger.kms.key.uri | KMS key URI |
URI de la clé KMS utilisée pour déchiffrer le mot de passe administrateur Ranger, par exemple projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (voir ID de ressource de la clé). |
Dataproc | ranger.admin.password.uri | gs://<dir-path> |
Emplacement dans Cloud Storage du mot de passe chiffré KMS pour l'administrateur Ranger. |
Dataproc | ranger.db.admin.password.uri | gs://<dir-path> |
Emplacement dans Cloud Storage du mot de passe chiffré KMS pour l'administrateur de la base de données Ranger. |
Dataproc | ranger.cloud-sql.instance.connection.name | cloud sql instance connection name |
Nom de connexion de l'instance Cloud SQL, par exemple project-id:region:name. . |
Dataproc | ranger.cloud-sql.root.password.uri | gs://<dir-path> |
Emplacement dans Cloud Storage du mot de passe chiffré KMS pour l'utilisateur racine de l'instance Cloud SQL. |
Dataproc | ranger.cloud-sql.use-private-ip | true ou false |
Indique si la communication entre les instances de cluster et l'instance Cloud SQL doit s'effectuer via une adresse IP privée. La valeur par défaut est false . |
Dataproc | solr.gcs.path | gs://<dir-path> |
Chemin d'accès Cloud Storage pour agir en tant que répertoire d'accueil Solr. |
Dataproc | startup.component.service-binding-timeout.hadoop-hdfs-namenode | seconds |
Durée pendant laquelle le script de démarrage Dataproc attend que le paramètre hadoop-hdfs-namenode soit associé aux ports avant de décider que son démarrage a réussi. La valeur maximale reconnue est de 1 800 secondes (30 minutes). |
Dataproc | startup.component.service-binding-timeout.hive-metastore | seconds |
Durée pendant laquelle le script de démarrage Dataproc attend que le service hive-metastore soit associé aux ports avant de décider que son démarrage a réussi. La valeur maximale reconnue est de 1 800 secondes (30 minutes). |
Dataproc | startup.component.service-binding-timeout.hive-server2 | seconds |
Durée pendant laquelle le script de démarrage Dataproc attend que le paramètre hive-server2 soit associé aux ports avant de décider que son démarrage a réussi. La valeur maximale reconnue est de 1 800 secondes (30 minutes). |
Dataproc | user-attribution.enabled | true ou false |
Définissez cette propriété sur true pour attribuer une tâche Dataproc à l'identité de l'utilisateur qui l'a envoyée (valeur par défaut : false ). |
dataproc | yarn.docker.enable | true ou false |
Définissez cette valeur sur true pour activer la fonctionnalité Docker Dataproc sur YARN (valeur par défaut : false ). |
dataproc | yarn.docker.image | docker image |
Lorsque vous activez la fonctionnalité Docker Dataproc sur YARN (dataproc:yarn.docker.enable=true ), vous pouvez utiliser cette propriété facultative pour spécifier votre image Docker (par exemple, dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1 ). Si elle est spécifiée, l'image est téléchargée et mise en cache dans tous les nœuds du cluster lors de sa création. |
dataproc | yarn.log-aggregation.enabled | true ou false |
Permet (true ) d'activer l'agrégation de journaux YARN dans l'temp bucket du cluster. Le nom du bucket se présente sous la forme suivante: dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING> . (valeur par défaut: true pour les versions d'image 1.5 et ultérieures) Remarque:Le bucket temporaire du cluster n'est pas supprimé lorsque le cluster est supprimé. Les utilisateurs peuvent également définir l'emplacement des journaux YARN agrégés en écrasant la propriété YARN yarn.nodemanager.remote-app-log-dir . |
knox | gateway.host | ip address |
Pour réduire le risque d'exécution de code à distance sur les API de serveur de notebooks non sécurisées, le paramètre par défaut pour les versions d'images 1.3 et ultérieures est 127.0.0.1 . Il limite les connexions à localhost lorsque Passerelle des composants est activée. Le paramètre par défaut peut être remplacé, par exemple en définissant la propriété sur 0.0.0.0 pour autoriser toutes les connexions. |
zeppelin | zeppelin.notebook.gcs.dir | gs://<dir-path> |
Emplacement dans Cloud Storage qui sert à enregistrer les notebooks Zeppelin. |
zeppelin | zeppelin.server.addr | ip address |
Pour réduire le risque d'exécution de code à distance sur les API de serveur de notebooks non sécurisées, le paramètre par défaut pour les versions d'images 1.3 et ultérieures est 127.0.0.1 . Il limite les connexions à localhost lorsque Passerelle des composants est activée. Ce paramètre par défaut peut être remplacé, par exemple en définissant la propriété sur 0.0.0.0 pour autoriser toutes les connexions. |
1Fichier keystore : le fichier keystore contient le certificat SSL. Il doit être au format Java KeyStore (JKS). Lorsqu'il est copié sur les VM, il est renommé keystore.jks
.
Le certificat SSL doit être un certificat générique qui s'applique à chaque nœud du cluster.
2Fichier truststore : le fichier truststore doit être au format Java KeyStore (JKS). Lorsqu'il est copié sur les VM, il est renommé truststore.jks
.