Apache Hadoop YARN, HDFS, Spark e proprietà correlate
I componenti open source installati sui cluster Dataproc contengono molti file di configurazione. Ad esempio, Apache Spark e Apache Hadoop hanno diversi file di configurazione XML e in testo normale. Puoi utilizzare il flag ‑‑properties
del comando gcloud dataproc clusters create per modificare molti file di configurazione comuni durante la creazione di un cluster.
Formattazione
Il flag gcloud dataproc clusters create --properties
accetta il seguente formato stringa:
file_prefix1:property1=value1,file_prefix2:property2=value2,...
file_prefix viene mappato a un file di configurazione predefinito, come mostrato nella tabella seguente, mentre property viene mappato a una proprietà all'interno del file.
Il delimitatore predefinito utilizzato per separare più proprietà del cluster è la virgola (,). Tuttavia, se una virgola è inclusa nel valore di una proprietà, devi cambiarla specificando "^delimiter^" all'inizio dell'elenco delle proprietà (per ulteriori informazioni, consulta la sezione relativa all'escape dell'argomento gcloud).
- Esempio di utilizzo di un delimitatore "#":
--properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
- Esempio di utilizzo di un delimitatore "#":
Esempi
Comando g-cloud
Per modificare l'impostazione spark.master
nel file spark-defaults.conf
, aggiungi il seguente flag gcloud dataproc clusters create --properties
:
--properties 'spark:spark.master=spark://example.com'
Puoi modificare più proprietà contemporaneamente, in uno o più file di configurazione,
utilizzando una virgola. Ogni proprietà deve essere specificata nel formato file_prefix:property=value
completo. Ad esempio, per modificare l'impostazione spark.master
nel file spark-defaults.conf
e l'impostazione dfs.hosts
nel file hdfs-site.xml
, utilizza il seguente flag --properties
durante la creazione di un cluster:
--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'
API REST
Per impostare spark.executor.memory
su 10g
, inserisci la
seguente impostazione properties
nella sezione
SoftwareConfig
della tua richiesta
clusters.create:
"properties": { "spark:spark.executor.memory": "10g" }
Un modo semplice per vedere come costruire il corpo JSON di una richiesta REST per i cluster dell'API Dataproc è avviare il comando gcloud
equivalente utilizzando il flag --log-http
.
Ecco un comando gcloud dataproc clusters create
di esempio, che imposta le proprietà del cluster con il flag --properties spark:spark.executor.memory=10g
.
Il log stdout mostra il corpo della richiesta REST risultante (lo snippet properties
è mostrato di seguito):
gcloud dataproc clusters create my-cluster \ --region=region \ --properties=spark:spark.executor.memory=10g \ --log-http \ other args ...
Output:
... == body start == {"clusterName": "my-cluster", "config": {"gceClusterConfig": ... "masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},
... == body end == ...
Assicurati di annullare il comando dopo che il corpo JSON viene visualizzato nell'output se non vuoi che venga applicato.
Console
Per modificare l'impostazione spark.master
nel
file spark-defaults.conf
:
- Nella console Google Cloud, apri la pagina Crea un cluster di Dataproc. Fai clic sul riquadro Personalizza cluster, quindi scorri fino alla sezione Proprietà cluster.
- Fai clic su + AGGIUNGI PROPRIETÀ. Seleziona spark nell'elenco dei prefissi, quindi aggiungi "spark.master" nel campo Chiave e l'impostazione nel campo Valore.
Proprietà cluster e job
Le proprietà YARN, HDFS, Spark di Apache Hadoop e altre proprietà con prefisso file vengono applicate a livello di cluster quando crei un cluster. Queste proprietà non possono essere applicate a un cluster dopo la creazione del cluster. Tuttavia, molte di queste proprietà possono essere applicate anche a job specifici. Quando applichi una proprietà a un job, il prefisso del file non viene utilizzato.
L'esempio seguente imposta la memoria dell'esecutore Spark su 4 g per un job Spark (prefisso spark:
omesso).
gcloud dataproc jobs submit spark \ --region=region \ --properties=spark.executor.memory=4g \ ... other args ...
Le proprietà del job possono essere inviate in un file utilizzando il flag gcloud dataproc jobs submit job-type --properties-file
(vedi, ad esempio, la descrizione --properties-file per l'invio di un job Hadoop).
gcloud dataproc jobs submit JOB_TYPE \ --region=region \ --properties-file=PROPERTIES_FILE \ ... other args ...
PROPERTIES_FILE
è un insieme di coppie
delimitate da riga key
=value
. La proprietà da impostare è key
e il valore su cui impostare la proprietà è value
. Per una descrizione dettagliata del formato file delle proprietà, consulta la classe java.util.Properties.
Di seguito è riportato un esempio di file di proprietà che può essere passato al flag --properties-file
quando si invia un job di Dataproc.
dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml spark:spark.history.fs.logDirectory=gs://some-bucket spark:spark.eventLog.dir=gs://some-bucket capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5
Tabella delle proprietà con prefisso file
Prefisso file | File | Scopo del file |
---|---|---|
pianificatore della capacità | capacity-scheduler.xml | Configurazione dello scheduler della capacità di Hadoop YARN |
core | core-site.xml | Configurazione generale hadoop |
distcp | distcp-default.xml | Configurazione di Hadoop Distributed Copy |
flink | flink-conf.yaml | Configurazione Flink |
flink-log4j | log4j.properties | File delle impostazioni Log4j |
hadoop-env | hadoop-env.sh | Variabili di ambiente specifiche per Hadoop |
hadoop-log4j | log4j.properties | File delle impostazioni Log4j |
hbase | hbase-site.xml | Configurazione HBase |
hbase-log4j | log4j.properties | File delle impostazioni Log4j |
hdfs | hdfs-site.xml | Configurazione HDFS di Hadoop |
hive | hive-site.xml | Configurazione Hive |
hive-log4j2 | hive-log4j2.properties | File delle impostazioni Log4j |
Hudi | hudi-default.conf | Configurazione Hudi |
mapred | mapred-site.xml | Configurazione di Hadoop MapReduce |
mapred-env | mapred-env.sh | Variabili di ambiente specifiche per Hadoop MapReduce |
maiale | pig.properties | Configurazione maiale |
pig-log4j | log4j.properties | File delle impostazioni Log4j |
presto | config.properties | Configurazione di Presto |
presto-jvm | jvm.config | Configurazione JVM specifica per Presto |
spark | spark-defaults.conf | Configurazione Spark |
spark-env | spark-env.sh | Stimola variabili di ambiente specifiche |
spark-log4j | log4j.properties | File delle impostazioni Log4j |
tez | tez-site.xml | Configurazione Tez |
webcat-log4j | webhcat-log4j2.properties | File delle impostazioni Log4j |
filo | yarn-site.xml | Configurazione YARN Hadoop |
yarn-env | yarn-env.sh | Variabili di ambiente specifiche YARN per Hadoop |
zeppelin | zeppelin-site.xml | Configurazione Zeppelin |
zeppelin-env | zeppelin-env.sh | Variabili di ambiente specifiche per Zeppelin (solo componente facoltativo) |
zeppelin-log4j | log4j.properties | File delle impostazioni Log4j |
zookeeper | zoo.cfg | Configurazione Zookeeper |
zookeeper-log4j | log4j.properties | File delle impostazioni Log4j |
Notes
- Alcune proprietà sono riservate e non possono essere sostituite perché influiscono sulla funzionalità del cluster Dataproc. Se provi a modificare una proprietà riservata, riceverai un messaggio di errore durante la creazione del cluster.
- Puoi specificare più modifiche separandole con una virgola.
- Il flag
--properties
non può modificare i file di configurazione non mostrati sopra. - Le modifiche alle proprietà verranno applicate prima dell'avvio dei daemon nel cluster.
- Se la proprietà specificata esiste, verrà aggiornata. Se la proprietà specificata non esiste, verrà aggiunta al file di configurazione.
Proprietà del servizio Dataproc
Le proprietà elencate in questa sezione sono specifiche di Dataproc. Queste proprietà possono essere utilizzate per configurare ulteriormente la funzionalità del cluster Dataproc.
Formattazione
Il flag gcloud dataproc clusters create --properties
accetta il seguente formato stringa:
property_prefix1:property1=value1,property_prefix2:property2=value2,...
Il delimitatore predefinito utilizzato per separare più proprietà del cluster è la virgola (,). Tuttavia, se una virgola è inclusa in un valore di proprietà, devi cambiarlo specificando "^delimiter^" all'inizio dell'elenco delle proprietà (per ulteriori informazioni, consulta la sezione relativa all'escape dell'argomento gcloud).
- Esempio di utilizzo di un delimitatore "#":
--properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
- Esempio di utilizzo di un delimitatore "#":
Esempio:
Crea un cluster e imposta la modalità di flessibilità avanzata su shuffling del worker principale di Spark.
gcloud dataproc jobs submit spark \ --region=region \ --properties=dataproc:efm.spark.shuffle=primary-worker \ ... other args ...
Tabella delle proprietà del servizio Dataproc
Prefisso proprietà | Proprietà | Valori | Descrizione |
---|---|---|---|
dataproc | agent.process.threads.job.min | number |
Dataproc esegue contemporaneamente i driver dei job utente in un pool di thread. Questa proprietà controlla il numero minimo di thread nel pool di thread per un avvio rapido anche quando non sono in esecuzione job (impostazione predefinita: 10). |
dataproc | agent.process.threads.job.max | number |
Dataproc esegue contemporaneamente i driver dei job utente in un pool di thread. Questa proprietà controlla il numero massimo di thread nel pool di thread, limitando quindi la contemporaneità massima dei job utente. Aumenta questo valore per una maggiore contemporaneità (valore predefinito: 100). |
dataproc | am.primary_only | true o false |
Imposta questa proprietà su true per impedire l'esecuzione del master dell'applicazione sui worker prerilasciabili del cluster Dataproc. Nota: questa funzionalità è disponibile solo con Dataproc 1.2 e versioni successive. Il valore predefinito è false . |
dataproc | conda.env.config.uri | gs://<path> |
Posizione in Cloud Storage del file di configurazione dell'ambiente Conda. In base a questo file verrà creato e attivato un nuovo ambiente Conda. Per ulteriori informazioni, consulta la sezione sull'utilizzo delle proprietà del cluster correlate a Conda. (valore predefinito: empty ). |
dataproc | conda.packages | Pacchetti Conda | Questa proprietà utilizza un elenco di pacchetti Conda separati da virgole con versioni specifiche da installare nell'ambiente Conda base . Per ulteriori informazioni, consulta la sezione sull'utilizzo delle proprietà del cluster correlate a Conda. (valore predefinito: empty ). |
dataproc | dataproc.allow.zero.workers | true o false |
Imposta questa proprietà SoftwareConfig su true in una richiesta API Dataproc clusters.create per creare un cluster a nodo singolo, che modifica il numero predefinito di worker da 2 a 0 e posiziona i componenti worker sull'host master. È possibile creare un cluster a nodo singolo anche dalla console Google Cloud o con Google Cloud CLI impostando il numero di worker su 0 . |
dataproc | dataproc.alpha.master.nvdimm.size.gb | 1500-6500 | L'impostazione di un valore crea un master Dataproc con memoria permanente Intel Optane DC. Nota: le VM Optane possono essere create solo in us-central1-f zone, solo con il tipo di macchina n1-highmem-96-aep e solo nei progetti autorizzati. |
dataproc: | dataproc.alpha.worker.nvdimm.size.gb | 1500-6500 | L'impostazione di un valore crea un worker Dataproc con memoria permanente Intel Optane DC. Nota: le VM Optane possono essere create solo in us-central1-f zone, solo con il tipo di macchina n1-highmem-96-aep e solo nei progetti autorizzati. |
dataproc: | dataproc.await-new-workers-service-registration | true o false |
Questa proprietà è disponibile nelle immagini 2.0.49 e versioni successive. Il valore predefinito è false . Imposta questa proprietà su true per attendere che i nuovi worker principali registrino i leader di servizio, ad esempio NameNode HDFS e YARN ResourceManager, durante la creazione o lo scale up del cluster (solo i servizi HDFS e YARN vengono monitorati). Quando il criterio è impostato su true , se un nuovo worker non riesce a registrarsi a un servizio, al worker viene assegnato lo stato FAILED . Un worker non riuscito viene rimosso se il cluster è in fase di scale up. Se il cluster è in fase di creazione, un worker non riuscito viene rimosso se il flag gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE o il campo dell'API actionOnFailedPrimaryWorkers=DELETE sono stati specificati nell'ambito della richiesta di creazione del comando gcloud o del cluster API. |
dataproc: | dataproc.beta.secure.multi-tenancy.user.mapping | user-to-service account mappings |
Questa proprietà accetta un elenco di mappature tra account utente e servizio. Gli utenti mappati possono inviare carichi di lavoro interattivi al cluster con identità utente isolate (vedi Dataproc - Sicurezza multi-tenancy basata su account di servizio Dataproc). |
dataproc: | dataproc.cluster.caching | true o false |
Se la memorizzazione nella cache del cluster è abilitata, il cluster memorizza nella cache i dati di Cloud Storage accessibili dai job Spark, migliorando le prestazioni dei job senza compromettere la coerenza. (valore predefinito: false ). |
dataproc | dataproc.cluster-ttl.consider-yarn-activity | true o false |
Per le versioni immagine 1.4.64 e successive, 1.5.39 e successive, il valore predefinito di true per questa proprietà genera l'eliminazione pianificata del cluster che prende in considerazione l'attività YARN, oltre all'attività dell'API Dataproc Jobs, per la determinazione del tempo di inattività del cluster. Se impostato su false per le versioni immagine 1.4.64 e versioni successive, 1.5.39 e versioni successive, 2.0.13 e versioni successive o quando utilizzi immagini con numeri di versione inferiori, viene considerata solo l'attività dell'API Dataproc Jobs. Il valore predefinito è true per le versioni immagine 1.4.64 e successive, 1.5.39 e successive e 2.0.13 e successive. |
dataproc | dataproc.conscrypt.provider.enable | true o false |
Abilita (true ) o disabilita (false ) Conscrypt come provider di sicurezza Java principale. Nota: la crittografia è abilitata per impostazione predefinita in Dataproc 1.2 e versioni successive, ma è disabilitata in 1.0/1.1. |
dataproc | dataproc.cooperative.multi-tenancy.user.mapping | user-to-service account mappings |
Questa proprietà utilizza un elenco di mappature tra account utente e servizio separati da virgole. Se viene creato un cluster con questa proprietà impostata, quando un utente invia un job, il cluster tenterà di impersonare l'account di servizio corrispondente quando accede a Cloud Storage tramite il connettore Cloud Storage. Questa funzionalità richiede il connettore Cloud Storage versione 2.1.4 o successiva. Per ulteriori informazioni, consulta Dataproc cooperative multi-tenancy. (valore predefinito: empty ). |
dataproc | dataproc:hudi.version | Versione Hudi | Imposta la versione Hudi utilizzata con il componente Dataproc Hudi facoltativo. Nota: questa versione viene impostata da Dataproc in modo che sia compatibile con la versione dell'immagine del cluster. Se è impostata dall'utente, la creazione del cluster può non riuscire se la versione specificata non è compatibile con l'immagine del cluster. |
dataproc | dataproc.lineage.enabled | true |
Abilita la disconizzazione dei dati in un cluster Dataproc per i job Spark. |
dataproc | dataproc.localssd.mount.enable | true o false |
Indica se montare SSD locali come directory temporanee Hadoop/Spark e directory di dati HDFS (impostazione predefinita: true ). |
dataproc | dataproc.logging.stackdriver.enable | true o false |
Abilita (true ) o disabilita (false ) Cloud Logging (valore predefinito: true ). Consulta i Prezzi di Cloud Logging per gli addebiti associati. |
dataproc | dataproc.logging.stackdriver.job.driver.enable | true o false |
Abilita (true ) o disabilita (false ) i log del driver del job Dataproc in Cloud Logging. Vedi Output e log di job Dataproc (valore predefinito: false ). |
dataproc | dataproc.logging.stackdriver.job.yarn.container.enable | true o false |
Abilita (true ) o disabilita (false ) i log dei container YARN in Cloud Logging. Vedi Opzioni di output del job di Spark. (valore predefinito: false ). |
dataproc | dataproc.master.custom.init.actions.mode | RUN_BEFORE_SERVICES o RUN_AFTER_SERVICES |
Per i cluster di immagini della versione 2.0 e successive, se il criterio è impostato su RUN_AFTER_SERVICES , le azioni di inizializzazione sul master verranno eseguite dopo l'inizializzazione di HDFS e di tutti i servizi che dipendono da HDFS. Esempi di servizi che dipendono da HDFS includono: HBase, Hive Server2, Ranger, Solr e i server di cronologia Spark e MapReduce. (valore predefinito: RUN_BEFORE_SERVICES ). |
dataproc | dataproc.monitoring.stackdriver.enable | true o false |
Abilita (true ) o disattiva (false ) l'agente Monitoring (valore predefinito: false ). Questa proprietà è obsoleta. Consulta Abilitare metrica personalizzata personalizzate per abilitare la raccolta della raccolta di metriche Dataproc OSS in Monitoring. |
dataproc | dataproc.scheduler.driver-size-mb | number |
Lo spazio di archiviazione medio del driver, che determina il numero massimo di job simultanei che verrà eseguito un cluster. Il valore predefinito è 1 GB. Un valore inferiore, ad esempio 256 , potrebbe essere appropriato per i job Spark. |
dataproc | dataproc.scheduler.job-submission-rate | number |
I job sono limitati se questo valore viene superato. La velocità predefinita è 1.0 QPS. |
dataproc | dataproc.scheduler.max-concurrent-jobs | number |
Il numero massimo di job simultanei. Se questo valore non viene impostato quando viene creato il cluster, il limite massimo di job simultanei viene calcolato come max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5) . masterMemoryMb è determinato dal tipo di macchina della VM master. masterMemoryMbPerJob è 1024 per impostazione predefinita, ma è configurabile al momento della creazione del cluster con la proprietà del cluster dataproc:dataproc.scheduler.driver-size-mb . |
dataproc | dataproc.scheduler.max-memory-used | number |
La quantità massima di RAM che può essere utilizzata. Se l'utilizzo attuale è superiore a questa soglia, non è possibile pianificare nuovi job. Il valore predefinito è 0.9 (90%). Se viene impostato su 1.0 , la limitazione del job di utilizzo della memoria master è disabilitata. |
dataproc | dataproc.scheduler.min-free-memory.mb | number |
La quantità minima di memoria libera in megabyte necessaria al driver del job di Dataproc per pianificare un altro job sul cluster. Il valore predefinito è 256 MB. |
dataproc | dataproc.snap.enabled | true o false |
Abilita o disabilita il daemon Ubuntu Snap. Il valore predefinito è true . Se il criterio viene impostato su false , i pacchetti di Snap preinstallati nell'immagine non sono interessati, ma l'aggiornamento automatico è disattivato. Si applica alle immagini Ubuntu 1.4.71, 1.5.46, 2.0.20 e successive. |
dataproc | dataproc.worker.custom.init.actions.mode | RUN_BEFORE_SERVICES |
Per i cluster di immagini precedenti alla 2.0, RUN_PRIMA_SERVICE non è impostato, ma può essere impostato dall'utente al momento della creazione del cluster. Per i cluster di immagini 2.0 o versioni successive, RUN_PRIMA_SERVICE è impostato e la proprietà non può essere trasmessa al cluster (non può essere modificata dall'utente). Per informazioni sull'effetto di questa impostazione, consulta Considerazioni e linee guida importanti - Elaborazione di inizializzazione. |
dataproc | dataproc.yarn.orphaned-app-termination.enable | true o false |
Il valore predefinito è true . Impostalo su false per impedire a Dataproc di terminare le app YARN "orfane". Dataproc considera un'app YARN come orfana se il driver del job che ha inviato l'app YARN è stato chiuso. Avviso:se utilizzi la modalità cluster Spark (spark.submit.deployMode=cluster ) e imposti spark.yarn.submit.waitAppCompletion=false , il driver Spark si chiude senza attendere il completamento delle app YARN; in questo caso, imposta dataproc:dataproc.yarn.orphaned-app-termination.enable=false . Imposta questa proprietà anche su false se invii job Hive. |
dataproc | efm.spark.shuffle | primary-worker |
Se è impostato su primary-worker , i dati di shuffle di Spark vengono scritti per i worker principali. Per ulteriori informazioni, consulta Modalità di flessibilità avanzata di Dataproc. |
dataproc | job.history.to-gcs.enabled | true o false |
Consente di rendere persistenti i file di cronologia MapReduce e Spark nel bucket temporaneo Dataproc (impostazione predefinita: true per le versioni immagine 1.5 e successive). Gli utenti possono sovrascrivere le posizioni di persistenza dei file di cronologia dei job tramite le seguenti proprietà: mapreduce.jobhistory.done-dir , mapreduce.jobhistory.intermediate-done-dir , spark.eventLog.dir e spark.history.fs.logDirectory . Consulta Server di cronologia permanente Dataproc per informazioni su queste e altre proprietà del cluster associate alla cronologia dei job e ai file di eventi Dataproc. |
dataproc | jobs.file-backed-output.enable | true o false |
Configura i job Dataproc in modo che conducano l'output a file temporanei nella directory /var/log/google-dataproc-job . Deve essere impostato su true per abilitare il logging dei driver dei job in Cloud Logging (valore predefinito: true ). |
dataproc | jupyter.listen.all.interfaces | true o false |
Per ridurre il rischio di esecuzione di codice da remoto tramite API server di blocchi note non protette, l'impostazione predefinita per le immagini a partire dalla versione 1.3 è false , che limita le connessioni a localhost (127.0.0.1 ) quando è abilitato Gateway componenti (non è necessaria l'attivazione del gateway dei componenti per le immagini a partire dalla versione 2.0). È possibile eseguire l'override di questa impostazione predefinita impostando questa proprietà su true per consentire tutte le connessioni. |
dataproc | jupyter.notebook.gcs.dir | gs://<dir-path> |
Posizione in Cloud Storage per salvare i blocchi note Jupyter. |
dataproc | kerberos.beta.automatic-config.enable | true o false |
Se il criterio è impostato su true , gli utenti non devono specificare la password dell'entità root Kerberos con i flag --kerberos-root-principal-password e --kerberos-kms-key-uri (valore predefinito: false ). Per ulteriori informazioni, consulta Attivazione della modalità protetta di Hadoop tramite Kerberos. |
dataproc | kerberos.cross-realm-trust.admin-server | hostname/address |
nome host/indirizzo del server di amministrazione remoto (spesso uguale al server KDC). |
dataproc | kerberos.cross-realm-trust.kdc | hostname/address |
nome host/indirizzo del KDC remoto. |
dataproc | kerberos.cross-realm-trust.realm | realm name |
I nomi delle aree di autenticazione possono essere composti da qualsiasi stringa ASCII MAIUSCOLO. Di solito, il nome dell'area di autenticazione è uguale al nome di dominio DNS (in MAIUSCOLO). Esempio: se le macchine sono denominate "machine-id.example.costa-ovest.miaazienda.com", l'area di autenticazione associata può essere indicata come "EXAMPLE.WEST-COAST.MIAAZIENDA.COM". |
dataproc | kerberos.cross-realm-trust.shared-password.uri | gs://<dir-path> |
Posizione in Cloud Storage della password condivisa criptata con KMS. |
dataproc | kerberos.kdc.db.key.uri | gs://<dir-path> |
Posizione in Cloud Storage del file criptato KMS contenente la chiave master del database KDC. |
dataproc | kerberos.key.password.uri | gs://<dir-path> |
Posizione in Cloud Storage del file criptato KMS contenente la password della chiave presente nel file dell'archivio chiavi. |
dataproc | kerberos.keystore.password.uri | gs://<dir-path> |
Posizione in Cloud Storage del file criptato KMS contenente la password dell'archivio chiavi. |
dataproc | kerberos.keystore.uri1 | gs://<dir-path> |
Posizione in Cloud Storage del file dell'archivio chiavi contenente il certificato con caratteri jolly e la chiave privata utilizzata dai nodi del cluster. |
dataproc | kerberos.kms.key.uri | KMS key URI |
L'URI della chiave KMS utilizzato per decriptare la password root, ad esempio projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (vedi ID risorsa della chiave). |
dataproc | kerberos.root.principal.password.uri | gs://<dir-path> |
Posizione in Cloud Storage della password criptata con KMS per l'entità radice Kerberos. |
dataproc | kerberos.tgt.lifetime.hours | hours |
Durata massima del ticket che concede il ticket. |
dataproc | kerberos.truststore.password.uri | gs://<dir-path> |
Posizione in Cloud Storage del file criptato KMS contenente la password del file dell'archivio attendibilità. |
dataproc | kerberos.truststore.uri2 | gs://<dir-path> |
Posizione in Cloud Storage del file dell'archivio di attendibilità criptato KMS contenente i certificati attendibili. |
dataproc | pip.packages | Pacchetti PIP | Questa proprietà richiede un elenco di pacchetti Pip separati da virgole con versioni specifiche, da installare nell'ambiente Conda base . Per ulteriori informazioni, consulta la sezione Proprietà dei cluster correlate a Conda. (valore predefinito: empty ). |
dataproc | ranger.kms.key.uri | KMS key URI |
L'URI della chiave KMS utilizzata per decriptare la password dell'utente amministratore Ranger, ad esempio projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (vedi ID risorsa della chiave). |
dataproc | ranger.admin.password.uri | gs://<dir-path> |
Posizione in Cloud Storage della password criptata con KMS per l'utente amministratore Ranger. |
dataproc | ranger.db.admin.password.uri | gs://<dir-path> |
Posizione in Cloud Storage della password criptata con KMS per l'utente amministratore del database Ranger. |
dataproc | ranger.cloud-sql.instance.connection.name | cloud sql instance connection name |
Il nome della connessione dell'istanza Cloud SQL, ad esempio project-id:region:name. |
dataproc | ranger.cloud-sql.root.password.uri | gs://<dir-path> |
Posizione in Cloud Storage della password criptata con KMS dell'utente root dell'istanza Cloud SQL. |
dataproc | ranger.cloud-sql.use-private-ip | true o false |
Indica se la comunicazione tra le istanze cluster e l'istanza Cloud SQL deve avvenire tramite IP privato (il valore predefinito è false ). |
dataproc | solr.gcs.path | gs://<dir-path> |
Percorso di Cloud Storage per fungere da home directory Solr. |
dataproc | startup.component.service-binding-timeout.hadoop-hdfs-namenode | seconds |
Il periodo di tempo durante il quale lo script di avvio di Dataproc attende l'associazione di Hadoop-hdfs-namenode alle porte prima di decidere che l'avvio dell'istanza abbia esito positivo. Il valore massimo riconosciuto è 1800 secondi (30 minuti). |
dataproc | startup.component.service-binding-timeout.hive-metastore | seconds |
Il periodo di tempo durante il quale lo script di avvio di Dataproc attende l'associazione del servizio hive-metastore alle porte prima di decidere che l'avvio ha avuto esito positivo. Il valore massimo riconosciuto è 1800 secondi (30 minuti). |
dataproc | startup.component.service-binding-timeout.hive-server2 | seconds |
Il periodo di tempo durante il quale lo script di avvio di Dataproc attende che hive-server2 si associ alle porte prima di decidere che l'avvio sia riuscito. Il valore massimo riconosciuto è 1800 secondi (30 minuti). |
dataproc | attribuzione-utente.attivato | true o false |
Imposta questa proprietà su true per attribuire un job Dataproc all'identità dell'utente che lo ha inviato (il valore predefinito è false ). |
dataproc | yarn.docker.enable | true o false |
Impostalo su true per abilitare la funzionalità Docker Dataproc su YARN (il valore predefinito è false ). |
dataproc | yarn.docker.image | docker image |
Quando abiliti la funzionalità Dataproc Docker su YARN (dataproc:yarn.docker.enable=true ), puoi utilizzare questa proprietà facoltativa per specificare l'immagine Docker (ad esempio dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1 ). Se specificata, l'immagine viene scaricata e memorizzata nella cache in tutti i nodi del cluster durante la creazione del cluster. |
dataproc | yarn.log-aggregation.enabled | true o false |
Consente a (true ) di attivare l'aggregazione dei log YARN nell'elemento temp bucket del cluster. Il nome del bucket è nel seguente formato: dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING> . (valore predefinito: true per le immagini a partire dalla versione 1.5). Nota: il bucket temporaneo non viene eliminato quando il cluster viene eliminato. Gli utenti possono anche impostare la posizione dei log YARN aggregati sovrascrivendo la proprietà YARN yarn.nodemanager.remote-app-log-dir . |
Knox | gateway.host | ip address |
Per ridurre il rischio di esecuzione da remoto di codice su API server di blocchi note non protette, l'impostazione predefinita per le immagini a partire dalla versione 1.3 è 127.0.0.1 , che limita le connessioni a localhost quando il gateway dei componenti è abilitato. È possibile eseguire l'override dell'impostazione predefinita, ad esempio impostando questa proprietà su 0.0.0.0 per consentire tutte le connessioni. |
zeppelin | zeppelin.notebook.gcs.dir | gs://<dir-path> |
Posizione in Cloud Storage per salvare i blocchi note Zeppelin. |
zeppelin | zeppelin.server.addr | ip address |
Per ridurre il rischio di esecuzione da remoto di codice su API server di blocchi note non protette, l'impostazione predefinita per le immagini a partire dalla versione 1.3 è 127.0.0.1 , che limita le connessioni a localhost quando il gateway dei componenti è abilitato. È possibile eseguire l'override di questa impostazione predefinita, ad esempio impostando questa proprietà su 0.0.0.0 per consentire tutte le connessioni. |
1File archivio chiavi: il file dell'archivio chiavi contiene il certificato SSL. Deve essere in formato Java KeyStore (JKS). Quando viene copiato nelle VM, viene rinominato in keystore.jks
.
Il certificato SSL deve essere un certificato con caratteri jolly che si applica a ciascun nodo nel cluster.
2File truststore: il file dell'archivio attendibilità deve essere in formato Java KeyStore (JKS). Quando viene copiato nelle VM, viene rinominata truststore.jks
.