Questa pagina è stata tradotta dall'API Cloud Translation.

Proprietà cluster

Apache Hadoop YARN, HDFS, Spark e proprietà correlate

I componenti open source installati sui cluster Dataproc contengono molti file di configurazione. Ad esempio, Apache Spark e Apache Hadoop hanno diversi file di configurazione XML e in testo normale. Puoi utilizzare il flag ‑‑properties del comando gcloud dataproc clusters create per modificare molti file di configurazione comuni durante la creazione di un cluster.

Formattazione

Il flag gcloud dataproc clusters create --properties accetta il seguente formato di stringa:

file_prefix1:property1=value1,file_prefix2:property2=value2,...

file_prefix si mappa a un file di configurazione predefinito come mostrato nella tabella di seguito e property a una proprietà all'interno del file.
Il delimitatore predefinito utilizzato per separare più proprietà del cluster è la virgola (,). Tuttavia, se una virgola è inclusa in un valore della proprietà, devi modificare il delimitatore specificando "^delimiter^" all'inizio dell'elenco delle proprietà (per maggiori informazioni, consulta la sezione sulla fuga di argomenti gcloud).
- Esempio che utilizza un delimitatore "#":
```
--properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
```

Esempi

Comando g-cloud

Per modificare l'impostazione spark.master nel spark-defaults.conf file, aggiungi il seguente gcloud dataproc clusters create --properties flag:

--properties 'spark:spark.master=spark://example.com'

Puoi modificare più proprietà contemporaneamente in uno o più file di configurazione utilizzando una virgola come separatore. Ogni proprietà deve essere specificata nel formato completofile_prefix:property=value. Ad esempio, per modificare l'impostazione spark.master nel file spark-defaults.conf e l'impostazione dfs.hosts nel file hdfs-site.xml, utilizza il seguente flag --properties durante la creazione di un cluster:

--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'

API REST

Per impostare spark.executor.memory su 10g, inserisci la seguente impostazione properties nella sezione SoftwareConfig della richiesta clusters.create:

"properties": {
  "spark:spark.executor.memory": "10g"
}

Un modo semplice per capire come creare il corpo JSON di una richiesta REST dei cluster dell'API Dataproc è avviare il comando gcloud equivalente utilizzando il flag --log-http. Di seguito è riportato un comando gcloud dataproc clusters create di esempio, che imposta le proprietà del cluster con il flag --properties spark:spark.executor.memory=10g. Il log stdout mostra il corpo della richiesta REST risultante (lo snippet properties è mostrato di seguito):

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=spark:spark.executor.memory=10g \
    --log-http \
    other args ...

Output:

...
== body start ==
{"clusterName": "my-cluster", "config": {"gceClusterConfig": ...
"masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},

...
== body end ==
...

Assicurati di annullare il comando dopo che il corpo JSON viene visualizzato nell'output se non vuoi che venga applicato.

Console

Per modificare l'impostazione spark.master nel file spark-defaults.conf:

Nella console Google Cloud, apri la pagina Dataproc Crea un cluster. Fai clic sul riquadro Personalizza cluster e scorri fino alla sezione Proprietà del cluster.
Fai clic su + AGGIUNGI PROPRIETÀ. Seleziona spark nell'elenco Prefisso, quindi aggiungi "spark.master" nel campo Chiave e l'impostazione nel campo Valore.

Proprietà cluster e job

Le proprietà Apache Hadoop YARN, HDFS, Spark e altre con prefisso di file vengono applicate a livello di cluster quando ne crei uno. Queste proprietà non possono essere applicate a un cluster dopo la creazione. Tuttavia, molte di queste proprietà possono essere applicate anche a job specifici. Quando applichi una proprietà a un job, il prefisso del file non viene utilizzato.

L'esempio seguente imposta la memoria dell'executor Spark su 4 GB per un job Spark (prefisso spark: omesso).

gcloud dataproc jobs submit spark \
    --region=REGION \
    --properties=spark.executor.memory=4g \
    other args ...

Le proprietà dei job possono essere inviate in un file utilizzando il gcloud dataproc jobs submit job-type --properties-file flag (vedi, ad esempio, la descrizione di --properties-file per l'invio di un job Hadoop).

gcloud dataproc jobs submit JOB_TYPE \
    --region=REGION \
    --properties-file=PROPERTIES_FILE \
    other args ...

PROPERTIES_FILE è un insieme di coppie key=value delimitate da riga. La proprietà da impostare è key e il valore su cui impostarla è value. Consulta la classe java.util.Properties per una descrizione dettagliata del formato del file delle proprietà.

Di seguito è riportato un esempio di file di proprietà che può essere passato al flag --properties-file quando viene inviato un job Dataproc.

 dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml
 spark:spark.history.fs.logDirectory=gs://some-bucket
 spark:spark.eventLog.dir=gs://some-bucket
 capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5

Tabella delle proprietà con prefisso del file

Prefisso file	File	Finalità del file
capacity-scheduler	capacity-scheduler.xml	Configurazione di Hadoop YARN Capacity Scheduler
core	core-site.xml	Configurazione generale di Hadoop
distcp	distcp-default.xml	Configurazione di Hadoop Distributed Copy
flink	flink-conf.yaml	Configurazione di Flink
flink-log4j	log4j.properties	File di impostazioni Log4j
hadoop-env	hadoop-env.sh	Variabili di ambiente specifiche di Hadoop
hadoop-log4j	log4j.properties	File di impostazioni Log4j
hbase	hbase-site.xml	Configurazione di HBase
hbase-log4j	log4j.properties	File di impostazioni Log4j
hdfs	hdfs-site.xml	Configurazione di HDFS di Hadoop
hive	hive-site.xml	Configurazione di Hive
hive-log4j2	hive-log4j2.properties	File di impostazioni Log4j
hudi	hudi-default.conf	Configurazione Hudi
mapred	mapred-site.xml	Configurazione di Hadoop MapReduce
mapred-env	mapred-env.sh	Variabili di ambiente specifiche di Hadoop MapReduce
maiale	pig.properties	Configurazione di Pig
pig-log4j	log4j.properties	File delle impostazioni di Log4j
presto	config.properties	Configurazione di Presto
presto-jvm	jvm.config	Configurazione JVM specifica di Presto
spark	spark-defaults.conf	Configurazione di Spark
spark-env	spark-env.sh	Variabili di ambiente specifiche di Spark
spark-log4j	log4j.properties	File delle impostazioni di Log4j
tez	tez-site.xml	Configurazione di Tez
webcat-log4j	webhcat-log4j2.properties	File di impostazioni Log4j
filato	yarn-site.xml	Configurazione di Hadoop YARN
yarn-env	yarn-env.sh	Variabili di ambiente specifiche di Hadoop YARN
zeppelin	zeppelin-site.xml	Configurazione di Zeppelin
zeppelin-env	zeppelin-env.sh	Variabili di ambiente specifiche di Zeppelin (solo componente facoltativo)
zeppelin-log4j	log4j.properties	File di impostazioni Log4j
zookeeper	zoo.cfg	Configurazione di Zookeeper
zookeeper-log4j	log4j.properties	File delle impostazioni di Log4j

Note

Alcune proprietà sono riservate e non possono essere sostituite perché influiscono sulla funzionalità del cluster Dataproc. Se provi a modificare una proprietà riservata, riceverai un messaggio di errore durante la creazione del cluster.
Puoi specificare più modifiche separando ciascuna con una virgola.
Il flag --properties non può modificare i file di configurazione non mostrati sopra.
Le modifiche alle proprietà verranno applicate prima dell'avvio dei demoni nel cluster.
Se la proprietà specificata esiste, verrà aggiornata. Se la proprietà specificata non esiste, verrà aggiunta al file di configurazione.

Proprietà del servizio Dataproc

Le proprietà elencate in questa sezione sono specifiche di Dataproc. Queste proprietà possono essere utilizzate per configurare ulteriormente la funzionalità del cluster Dataproc.

Formattazione

Il flag gcloud dataproc clusters create --properties accetta il seguente formato di stringa:

property_prefix1:property1=value1,property_prefix2:property2=value2,...

Il delimitatore predefinito utilizzato per separare più proprietà del cluster è la virgola (,). Tuttavia, se una virgola è inclusa in un valore della proprietà, devi modificare il delimitatore specificando "^delimiter^" all'inizio dell'elenco delle proprietà (per maggiori informazioni, consulta la sezione sulla fuga di argomenti gcloud).
- Esempio che utilizza un delimitatore "#":
```
--properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
```

Esempio:

Crea un cluster e imposta la modalità di flessibilità avanzata su mescolamento dei worker principali di Spark.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=dataproc:efm.spark.shuffle=primary-worker \
    other args ...

Tabella delle proprietà del servizio Dataproc

Prefisso della proprietà	Proprietà	Valori	Descrizione
dataproc	agent.process.threads.job.min	`number`	Dataproc esegue i driver dei job utente contemporaneamente in un pool di thread. Questa proprietà controlla il numero minimo di thread nel pool di thread per un avvio rapido anche quando non sono in esecuzione job (valore predefinito: 10).
dataproc	agent.process.threads.job.max	`number`	Dataproc esegue i driver dei job utente contemporaneamente in un pool di thread. Questa proprietà controlla il numero massimo di thread nel pool di thread, limitando quindi la concorrenza massima dei job utente. Aumenta questo valore per una maggiore concorrenza (valore predefinito: 100).
dataproc	am.primary_only	`true` o `false`	Imposta questa proprietà su `true` per impedire l'esecuzione del master dell'applicazione sui worker preemptibili del cluster Dataproc. Nota: questa funzionalità è disponibile solo con Dataproc 1.2 e versioni successive. Il valore predefinito è `false`.
dataproc	conda.env.config.uri	`gs://<path>`	Posizione in Cloud Storage del file di configurazione dell'ambiente Conda. In base a questo file verrà creato e attivato un nuovo ambiente Conda. Per ulteriori informazioni, consulta Utilizzare le proprietà del cluster correlate a Conda. (valore predefinito: `empty`).
dataproc	conda.packages	Pacchetti Conda	Questa proprietà accetta un elenco di pacchetti Conda separati da virgole con versioni specifiche da installare nell'ambiente Conda `base`. Per ulteriori informazioni, consulta Utilizzare le proprietà del cluster correlate a Conda. (valore predefinito: `empty`).
dataproc	dataproc.allow.zero.workers	`true` o `false`	Imposta questa proprietà SoftwareConfig su `true` in una richiesta dell'API Dataproc `clusters.create` per creare un cluster a un solo nodo, che modifica il numero predefinito di worker da 2 a 0 e posiziona i componenti dei worker sull'host master. Un cluster a un solo nodo può essere creato anche dalla console Google Cloud o con Google Cloud CLI impostando il numero di worker su `0`.
dataproc	dataproc.alpha.master.nvdimm.size.gb	1500-6500	L'impostazione di un valore crea un master Dataproc con memoria persistente Intel Optane DC. Nota: le VM Optane possono essere create solo nelle zone `us-central1-f`, solo con il tipo di macchina `n1-highmem-96-aep` e solo nei progetti inclusi nella lista consentita.
dataproc:	dataproc.alpha.worker.nvdimm.size.gb	1500-6500	L'impostazione di un valore crea un worker Dataproc con memoria persistente Intel Optane DC. Nota: le VM Optane possono essere create solo nelle zone `us-central1-f`, solo con il tipo di macchina `n1-highmem-96-aep` e solo nei progetti inclusi nella lista consentita.
dataproc:	dataproc.await-new-workers-service-registration	`true` o `false`	Questa proprietà è disponibile in Images 2.0.49 e versioni successive. Il valore predefinito è `false`. Imposta questa proprietà su `true` per attendere che i nuovi worker principali registrino i leader di servizio, come NameNode HDFS e ResourceManager YARN, durante la creazione o lo scale-up del cluster (vengono monitorati solo i servizi HDFS e YARN). Se impostato su `true`, se un nuovo lavoratore non riesce a registrarsi a un servizio, a questo viene assegnato uno stato `FAILED`. Un worker con errore viene rimosso se il cluster viene aumentato di dimensioni. Se il cluster è in fase di creazione, un worker con errore viene rimosso se il flag `gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE` o il campo dell'API `actionOnFailedPrimaryWorkers=DELETE` è stato specificato nel comando `gcloud` o nella richiesta di creazione del cluster dell'API.
dataproc:	dataproc.beta.secure.multi-tenancy.user.mapping	`user-to-service account mappings`	Questa proprietà accetta un elenco di mappature tra account utente e account di servizio. Gli utenti mappati possono inviare workload interattivi al cluster con identità utente isolate (vedi Protezione multi-tenancy basata su service account Dataproc).
dataproc:	dataproc.cluster.caching.enabled	`true` o `false`	Quando la cache del cluster è attivata, il cluster memorizza nella cache i dati di Cloud Storage a cui accedono i job Spark, il che migliora le prestazioni dei job senza compromettere la coerenza. (valore predefinito: `false`).
dataproc	dataproc.cluster-ttl.consider-yarn-activity	`true` o `false`	Se impostato su `true`, l'eliminazione pianificata dei cluster prende in considerazione sia l'attività dell'API YARN sia quella dell'API Dataproc Jobs per il calcolo del tempo di inattività del cluster. Se impostato su `false`, viene considerata solo l'attività dell'API Dataproc Jobs. (valore predefinito: `true`). Per ulteriori informazioni, consulta Calcolo del tempo di inattività del cluster.
dataproc	dataproc.conscrypt.provider.enable	`true` o `false`	Attiva (`true`) o disattiva (`false`) Conscrypt come provider di sicurezza Java principale. Nota: Conscrypt è abilitato per impostazione predefinita in Dataproc 1.2 e versioni successive, ma è disabilitato in 1.0/1.1.
dataproc	dataproc.cooperative.multi-tenancy.user.mapping	`user-to-service account mappings`	Questa proprietà accetta un elenco di mappature tra account utente e account di servizio separate da virgole. Se viene creato un cluster con questa proprietà impostata, quando un utente invia un job, il cluster tenterà di rubare l'identità dell'account di servizio corrispondente quando accede a Cloud Storage tramite il connettore Cloud Storage. Questa funzionalità richiede il connettore Cloud Storage versione `2.1.4` o successive. Per ulteriori informazioni, consulta Multitenancy collaborativa di Dataproc. (valore predefinito: `empty`).
dataproc	dataproc.control.max.assigned.job.tasks	`100`	Questa proprietà limita il numero di attività che possono essere eseguite contemporaneamente su un nodo master del cluster. Se il numero di attività attive supera il limite, i nuovi job vengono messi in coda fino al completamento dei job in esecuzione e alla liberazione delle risorse per consentire la pianificazione di nuove attività. Nota:non è consigliabile impostare un limite di attività predefinito superiore a `100` (il valore predefinito) perché potrebbe verificarsi una condizione di esaurimento della memoria nel nodo principale.
dataproc	dataproc:hudi.version	Versione Hudi	Imposta la versione di Hudi utilizzata con il componente Hudi di Dataproc facoltativo. Nota:questa versione è impostata da Dataproc per essere compatibile con la versione dell'immagine del cluster. Se viene impostata dall'utente, la creazione del cluster può non riuscire se la versione specificata non è compatibile con l'immagine del cluster.
dataproc	dataproc.lineage.enabled	`true`	Consente la trasparenza dei dati in un cluster Dataproc per i job Spark.
dataproc	dataproc.localssd.mount.enable	`true` o `false`	Indica se montare le unità SSD locali come directory temporanee Hadoop/Spark e directory di dati HDFS (valore predefinito: `true`).
dataproc	dataproc.logging.extended.enabled	`true` o `false`	Attiva (`true`) o disattiva (`false`) i log in Cloud Logging per i seguenti elementi: knox, zeppelin, solr, trino, presto, ranger-usersync, jupyter_notebook e spark-history-server (valore predefinito: `false`). Per ulteriori informazioni, consulta Log dei cluster Dataproc in Logging.
dataproc	dataproc.logging.stackdriver.enable	`true` o `false`	Attiva (`true`) o disattiva (`false`) Cloud Logging (valore predefinito: `true`). Per gli addebiti associati, consulta la sezione Prezzi di Cloud Logging.
dataproc	dataproc.logging.stackdriver.job.driver.enable	`true` o `false`	Attiva (`true`) o disattiva (`false`) i log del driver dei job Dataproc in Cloud Logging. Visualizza l'output e i log dei job Dataproc (valore predefinito: `false`).
dataproc	dataproc.logging.stackdriver.job.yarn.container.enable	`true` o `false`	Attiva (`true`) o disattiva (`false`) i log dei contenitori YARN in Cloud Logging. Consulta le opzioni di output del job Spark. (valore predefinito: `false`).
dataproc	dataproc.logging.syslog.enabled	`true` o `false`	Abilita (`true`) o disattiva (`false`) i log syslog della VM in Cloud Logging (valore predefinito: `false`).
dataproc	dataproc.master.custom.init.actions.mode	`RUN_BEFORE_SERVICES` o `RUN_AFTER_SERVICES`	Per i cluster di immagini 2.0 e versioni successive, se impostato su `RUN_AFTER_SERVICES`, le azioni di inizializzazione sul master verranno eseguite dopo l'inizializzazione di HDFS e di tutti i servizi che dipendono da HDFS. Alcuni esempi di servizi dipendenti da HDFS sono: HBase, Hive Server 2, Ranger, Solr e i server di cronologia Spark e MapReduce. (valore predefinito: `RUN_BEFORE_SERVICES`).
dataproc	dataproc.monitoring.stackdriver.enable	`true` o `false`	Attiva (`true`) o disattiva (`false`) l'agente di monitoraggio (valore predefinito: `false`). Questa proprietà è riservata. Consulta Abilitare la raccolta delle metriche personalizzate per attivare la raccolta delle metriche OSS di Dataproc in Monitoring.
dataproc	dataproc.scheduler.driver-size-mb	`number`	L'impronta in memoria media del driver, che determina il numero massimo di job simultanei che verranno eseguiti da un cluster. Il valore predefinito è `1` GB. Un valore inferiore, ad esempio `256`, potrebbe essere appropriato per i job Spark.
dataproc	dataproc.scheduler.job-submission-rate	`number`	I job vengono limitati se viene superato questo tasso. La frequenza predefinita è `1.0` QPS.
dataproc	dataproc.scheduler.max-concurrent-jobs	`number`	Il numero massimo di job simultanei. Se questo valore non viene impostato al momento della creazione del cluster, il limite massimo di job simultanei viene calcolato come `max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5)`. `masterMemoryMb` è determinato dal tipo di macchina della VM principale. `masterMemoryMbPerJob` è `1024` per impostazione predefinita, ma è configurabile al momento della creazione del cluster con la proprietà del cluster `dataproc:dataproc.scheduler.driver-size-mb`.
dataproc	dataproc.scheduler.max-memory-used	`number`	La quantità massima di RAM che può essere utilizzata. Se l'utilizzo corrente supera questa soglia, non è possibile pianificare nuovi job. Il valore predefinito è `0.9` (90%). Se impostato su `1.0`, la limitazione dei job di utilizzo della memoria principale viene disattivata.
dataproc	dataproc.scheduler.min-free-memory.mb	`number`	La quantità minima di memoria libera in megabyte necessaria al driver di job Dataproc per pianificare un altro job nel cluster. Il valore predefinito è `256` MB.
dataproc	dataproc.snap.enabled	`true` o `false`	Attiva o disattiva il daemon Ubuntu Snap. Il valore predefinito è `true`. Se impostato su `false`, i pacchetti Snap preinstallati nell'immagine non sono interessati, ma l'aggiornamento automatico è disattivato. Si applica alle immagini Ubuntu 1.4.71, 1.5.46, 2.0.20 e successive.
dataproc	dataproc.worker.custom.init.actions.mode	`RUN_BEFORE_SERVICES`	Per i cluster di immagini precedenti alla versione 2.0, RUN_BEFORE_SERVICES non è impostato, ma può essere impostato dall'utente al momento della creazione del cluster. Per i cluster di immagini 2.0 e versioni successive, RUN_BEFORE_SERVICES è impostato e la proprietà non può essere passata al cluster (non può essere modificata dall'utente). Per informazioni sull'effetto di questa impostazione, consulta la sezione Considerazioni importanti e linee guida: elaborazione dell'inizializzazione.
dataproc	dataproc.yarn.orphaned-app-termination.enable	`true` o `false`	Il valore predefinito è `true`. Imposta su `false` per impedire a Dataproc di terminare le app YARN "orfane". Dataproc considera un'app YARN orfana se il driver del job che ha inviato l'app YARN è uscito. Avviso: se utilizzi la modalità cluster Spark (`spark.submit.deployMode=cluster`) e imposti `spark.yarn.submit.waitAppCompletion=false`, il driver Spark esce senza attendere il completamento delle app YARN. In questo caso, imposta `dataproc:dataproc.yarn.orphaned-app-termination.enable=false`. Imposta questa proprietà su `false` anche se invii job Hive.
dataproc	diagnostic.capture.enabled	`true` o `false`	Consente la raccolta dei dati diagnostici con checkpoint del cluster. (valore predefinito: `false`).
dataproc	diagnostic.capture.access	`GOOGLE_DATAPROC_DIAGNOSE`	Se impostato su `GOOGLE_DATAPROC_DIAGNOSE`, i dati diagnostici con checkpoint del cluster, salvati in Cloud Storage, vengono condivisi con l'assistenza Dataproc. (valore predefinito: non impostato).
dataproc	efm.spark.shuffle	`primary-worker`	Se impostato su `primary-worker`, i dati sottoposti a shuffling di Spark vengono scritti nei worker principali. Per ulteriori informazioni, consulta la modalità di flessibilità avanzata di Dataproc.
dataproc	job.history.to-gcs.enabled	`true` o `false`	Consente la persistenza dei file di cronologia MapReduce e Spark nel bucket temporaneo Dataproc (valore predefinito: `true` per le versioni dell'immagine 1.5 e successive). Gli utenti possono sovrascrivere le posizioni della persistenza dei file di cronologia dei job tramite le seguenti proprietà: `mapreduce.jobhistory.done-dir`, `mapreduce.jobhistory.intermediate-done-dir`, `spark.eventLog.dir` e `spark.history.fs.logDirectory`. Consulta Dataproc Persistent History Server per informazioni su queste e altre proprietà del cluster associate ai file di cronologia e agli eventi dei job Dataproc.
dataproc	jobs.file-backed-output.enable	`true` o `false`	Configura i job Dataproc in modo che incanalino l'output in file temporanei nella directory `/var/log/google-dataproc-job`. Deve essere impostato su `true` per attivare il logging del driver del job in Cloud Logging (valore predefinito: `true`).
dataproc	jupyter.listen.all.interfaces	`true` o `false`	Per ridurre il rischio di esecuzione di codice remoto tramite API di server di notebook non sicure, l'impostazione predefinita per le versioni delle immagini 1.3 e successive è `false`, che limita le connessioni a `localhost` (`127.0.0.1`) quando è attivato Component Gateway (l'attivazione di Component Gateway non è richiesta per le immagini 2.0 e successive). Questa impostazione predefinita può essere sostituita impostando questa proprietà su `true` per consentire tutte le connessioni.
dataproc	jupyter.notebook.gcs.dir	`gs://<dir-path>`	Posizione in Cloud Storage in cui salvare i Jupyter Notebook.
dataproc	kerberos.beta.automatic-config.enable	`true` o `false`	Se impostato su `true`, gli utenti non devono specificare la password dell'entità principale Kerberos con i flag `--kerberos-root-principal-password` e `--kerberos-kms-key-uri` (valore predefinito: `false`). Per ulteriori informazioni, consulta Abilitazione della modalità protetta di Hadoop tramite Kerberos.
dataproc	kerberos.cross-realm-trust.admin-server	`hostname/address`	Nome host/indirizzo del server di amministrazione remoto (spesso uguale al server KDC).
dataproc	kerberos.cross-realm-trust.kdc	`hostname/address`	Indirizzo/nome host del KDC remoto.
dataproc	kerberos.cross-realm-trust.realm	`realm name`	I nomi di ambito possono essere costituiti da qualsiasi stringa ASCII MAIUSCOLI. In genere, il nome dell'ambito corrisponde al nome di dominio DNS (in MAIUSCOLO). Esempio: se le macchine sono denominate "`machine-id`.example.west-coast.mycompany.com", il realm associato può essere designato come "EXAMPLE.WEST-COAST.MYCOMPANY.COM".
dataproc	kerberos.cross-realm-trust.shared-password.uri	`gs://<dir-path>`	Posizione in Cloud Storage della password condivisa criptata con KMS.
dataproc	kerberos.kdc.db.key.uri	`gs://<dir-path>`	Posizione in Cloud Storage del file criptato con KMS contenente la chiave master del database KDC.
dataproc	kerberos.key.password.uri	`gs://<dir-path>`	Posizione in Cloud Storage del file criptato con KMS contenente la password della chiave nel file archivio chiavi.
dataproc	kerberos.keystore.password.uri	`gs://<dir-path>`	Posizione in Cloud Storage del file criptato con KMS contenente la password dell'archivio chiavi.
dataproc	kerberos.keystore.uri¹	`gs://<dir-path>`	Posizione in Cloud Storage del file dell'archivio chiavi contenente il certificato con caratteri jolly e la chiave privata utilizzata dai nodi del cluster.
dataproc	kerberos.kms.key.uri	`KMS key URI`	L'URI della chiave KMS utilizzata per decriptare la password di root, ad esempio `projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key` (vedi ID risorsa chiave).
dataproc	kerberos.root.principal.password.uri	`gs://<dir-path>`	Posizione in Cloud Storage della password criptata con KMS per l'entità radice Kerberos.
dataproc	kerberos.tgt.lifetime.hours	`hours`	Durata massima del ticket di assegnazione dei ticket.
dataproc	kerberos.truststore.password.uri	`gs://<dir-path>`	Posizione in Cloud Storage del file criptato con KMS contenente la password del file dell'archivio attendibilità.
dataproc	kerberos.truststore.uri²	`gs://<dir-path>`	Posizione in Cloud Storage del file dell'archivio attendibilità criptato con KMS contenente i certificati attendibili.
dataproc	pip.packages	Pacchetti Pip	Questa proprietà accetta un elenco di pacchetti Pip separati da virgole con versioni specifiche, da installare nell'ambiente Conda `base`. Per ulteriori informazioni, consulta Proprietà del cluster correlate a Conda. (valore predefinito: `empty`).
dataproc	ranger.kms.key.uri	`KMS key URI`	L'URI della chiave KMS utilizzata per decriptare la password dell'utente amministratore di Ranger, ad esempio `projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key` (vedi ID risorsa chiave).
dataproc	ranger.admin.password.uri	`gs://<dir-path>`	Posizione in Cloud Storage della password criptata con KMS per l'utente amministratore di Ranger.
dataproc	ranger.db.admin.password.uri	`gs://<dir-path>`	Posizione in Cloud Storage della password criptata con KMS per l'utente amministratore del database Ranger.
dataproc	ranger.cloud-sql.instance.connection.name	`cloud sql instance connection name`	Il nome della connessione dell'istanza Cloud SQL, ad esempio `project-id:region:name.`
dataproc	ranger.cloud-sql.root.password.uri	`gs://<dir-path>`	Posizione in Cloud Storage della password criptata con KMS per l'utente root dell'istanza Cloud SQL.
dataproc	ranger.cloud-sql.use-private-ip	`true` o `false`	Indica se la comunicazione tra le istanze del cluster e l'istanza Cloud SQL deve avvenire tramite IP privato (il valore predefinito è `false`).
dataproc	solr.gcs.path	`gs://<dir-path>`	Percorso Cloud Storage da utilizzare come home directory di Solr.
dataproc	startup.component.service-binding-timeout.hadoop-hdfs-namenode	`seconds`	Il tempo di attesa dello script di avvio di Dataproc per l'associazione di hadoop-hdfs-namenode alle porte prima di decidere che l'avvio è andato a buon fine. Il valore massimo riconosciuto è 1800 secondi (30 minuti).
dataproc	startup.component.service-binding-timeout.hive-metastore	`seconds`	Il tempo di attesa dello script di avvio di Dataproc per l'associazione del servizio hive-metastore alle porte prima di decidere che l'avvio è andato a buon fine. Il valore massimo riconosciuto è 1800 secondi (30 minuti).
dataproc	startup.component.service-binding-timeout.hive-server2	`seconds`	Il tempo di attesa dello script di avvio di Dataproc per l'associazione di hive-server2 alle porte prima di decidere che l'avvio è riuscito. Il valore massimo riconosciuto è 1800 secondi (30 minuti).
dataproc	user-attribution.enabled	`true` o `false`	Imposta questa proprietà su `true` per attribuire un job Dataproc all'identità dell'utente che lo ha inviato (il valore predefinito è `false`).
dataproc	yarn.docker.enable	`true` o `false`	Impostato su `true` per attivare la funzionalità Dataproc Docker su YARN (il valore predefinito è `false`).
dataproc	yarn.docker.image	`docker image`	Quando attivi la funzionalità Dataproc Docker su YARN (`dataproc:yarn.docker.enable=true`), puoi utilizzare questa proprietà facoltativa per specificare l'immagine Docker (ad esempio `dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1`). Se specificata, l'immagine viene scaricata e memorizzata nella cache in tutti i nodi del cluster durante la creazione del cluster.
dataproc	yarn.log-aggregation.enabled	`true` o `false`	Consente (`true`) di attivare l'aggregazione dei log YARN in `temp bucket` del cluster. Il nome del bucket ha il seguente formato: `dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING>`. (valore predefinito: `true` per le versioni dell'immagine 1.5 e successive). Nota:il bucket temporaneo del cluster non viene eliminato quando viene eliminato il cluster. Gli utenti possono anche impostare la posizione dei log YARN aggregati sovrascrivendo la proprietà YARN `yarn.nodemanager.remote-app-log-dir`.
Knox	gateway.host	`ip address`	Per ridurre il rischio di esecuzione di codice remoto tramite API di server di notebook non sicure, l'impostazione predefinita per le versioni delle immagini 1.3 e successive è `127.0.0.1`, che limita le connessioni a `localhost` quando è attivato Component Gateway. L'impostazione predefinita può essere sostituita, ad esempio impostando questa proprietà su `0.0.0.0` per consentire tutte le connessioni.
zeppelin	zeppelin.notebook.gcs.dir	`gs://<dir-path>`	Posizione in Cloud Storage in cui salvare i notebook Zeppelin.
zeppelin	zeppelin.server.addr	`ip address`	Per ridurre il rischio di esecuzione di codice remoto tramite API di server di notebook non sicure, l'impostazione predefinita per le versioni delle immagini 1.3 e successive è `127.0.0.1`, che limita le connessioni a `localhost` quando Component Gateway è abilitato. Questa impostazione predefinita può essere sostituita, ad esempio impostando questa proprietà su `0.0.0.0` per consentire tutte le connessioni.

¹File archivio chiavi: il file archivio chiavi contiene il certificato SSL. Deve essere nel formato Java KeyStore (JKS). Quando viene copiato nelle VM, viene rinominato in keystore.jks. Il certificato SSL deve essere un certificato con caratteri jolly che si applichi a ogni nodo del cluster.

²File dell'archivio attendibilità: il file dell'archivio attendibilità deve essere nel formato Java KeyStore (JKS). Quando viene copiato nelle VM, viene rinominato in truststore.jks.