Apache Hadoop YARN, HDFS, Spark e proprietà correlate
I componenti open source installati sui cluster Dataproc contengono molti
file di configurazione. Ad esempio, Apache Spark e Apache Hadoop hanno diversi XML
e file di configurazione in testo normale. Puoi utilizzare lo
‑‑properties
flag di
gcloud dataproc clusters create
per modificare molti file di configurazione comuni durante la creazione di un cluster.
Formattazione
Il flag gcloud dataproc clusters create --properties
accetta il seguente formato di stringa:
file_prefix1:property1=value1,file_prefix2:property2=value2,...
file_prefix si mappa a un file di configurazione predefinito come mostrato nella tabella di seguito e property si mappa a una proprietà all'interno del file.
Il delimitatore predefinito utilizzato per separare più proprietà del cluster è la virgola (,). Tuttavia, se una virgola è inclusa in un valore della proprietà, devi modificare il delimitatore specificando "^delimiter^" all'inizio dell'elenco di proprietà (per maggiori informazioni, consulta la sezione Esecuzione di escape per gli argomenti gcloud).
- Esempio che utilizza un delimitatore "#":
--properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
- Esempio che utilizza un delimitatore "#":
Esempi
Comando g-cloud
Per modificare l'impostazione spark.master
nel
spark-defaults.conf
file, aggiungi il seguente
gcloud dataproc clusters create --properties
flag:
--properties 'spark:spark.master=spark://example.com'
Puoi modificare più proprietà contemporaneamente in uno o più file di configurazione utilizzando una virgola come separatore. Ogni proprietà deve essere specificata nel
Formato file_prefix:property=value
. Ad esempio, per modificare l'impostazione spark.master
nel file spark-defaults.conf
e l'impostazione dfs.hosts
nel file hdfs-site.xml
, utilizza il seguente flag --properties
durante la creazione di un cluster:
--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'
API REST
Per impostare spark.executor.memory
su 10g
, inserisci il metodo
seguire l'impostazione properties
nel
SoftwareConfig
del tuo
Richiesta clusters.create:
"properties": { "spark:spark.executor.memory": "10g" }
Un modo semplice per vedere come creare il corpo JSON di un
La richiesta REST dei cluster API Dataproc deve avviare
comando gcloud
equivalente utilizzando il flag --log-http
.
Di seguito è riportato un comando gcloud dataproc clusters create
di esempio, che imposta le proprietà del cluster con il flag --properties spark:spark.executor.memory=10g
.
Il log stdout mostra il corpo della richiesta REST risultante (lo snippet properties
è mostrato di seguito):
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties=spark:spark.executor.memory=10g \ --log-http \ other args ...
Output:
... == body start == {"clusterName": "my-cluster", "config": {"gceClusterConfig": ... "masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},
... == body end == ...
Assicurati di annullare il comando dopo che il corpo JSON viene visualizzato nell'output se non vuoi che il comando venga applicato.
Console
Per modificare l'impostazione spark.master
nell'
spark-defaults.conf
file:
- Nella console Google Cloud, apri la pagina Dataproc Crea un cluster. Fai clic sul riquadro Personalizza cluster e scorri fino alla sezione Proprietà del cluster.
- Fai clic su + AGGIUNGI PROPRIETÀ. Seleziona spark nell'elenco Prefisso, quindi aggiungi "spark.master" nel campo Chiave e l'impostazione nel campo Valore.
Proprietà cluster e job
Le proprietà Apache Hadoop YARN, HDFS, Spark e altre con prefisso di file vengono applicate a livello di cluster quando ne crei uno. Queste proprietà non possono essere applicate a un cluster dopo la creazione. Tuttavia, molte di queste proprietà possono essere applicate anche a job specifici. Quando applichi una proprietà a un job, il prefisso del file non viene utilizzato.
L'esempio seguente imposta la memoria dell'executor Spark su 4 GB per un job Spark
(prefisso spark:
omesso).
gcloud dataproc jobs submit spark \ --region=REGION \ --properties=spark.executor.memory=4g \ other args ...
Le proprietà del job possono essere inviate in un file utilizzando
gcloud dataproc jobs submit job-type --properties-file
(vedi, ad esempio, il flag
--properties-file
descrizione di un job Hadoop).
gcloud dataproc jobs submit JOB_TYPE \ --region=REGION \ --properties-file=PROPERTIES_FILE \ other args ...
PROPERTIES_FILE
è un insieme di
coppie key
=value
delimitate da riga. La proprietà da impostare è key
,
e il valore su cui impostare la proprietà è value
. Consulta le
java.util.Properties
per una descrizione dettagliata del formato di file delle proprietà.
Di seguito è riportato un esempio di file di proprietà che può essere passato al flag --properties-file
quando viene inviato un job Dataproc.
dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml spark:spark.history.fs.logDirectory=gs://some-bucket spark:spark.eventLog.dir=gs://some-bucket capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5
Tabella delle proprietà con prefisso file
Prefisso file | File | Scopo del file |
---|---|---|
capacity-scheduler | capacity-scheduler.xml | Configurazione di Hadoop YARN Capacity Scheduler |
core | core-site.xml | Configurazione generale diHadoop |
distcp | distcp-default.xml | Configurazione copia distribuita Hadoop |
flink | flink-conf.yaml | Configurazione Flink |
flink-log4j | log4j.properties | File di impostazioni Log4j |
hadoop-env | hadoop-env.sh | Variabili di ambiente specifiche di Hadoop |
hadoop-log4j | log4j.properties | File di impostazioni Log4j |
hbase | hbase-site.xml | Configurazione di HBase |
hbase-log4j | log4j.properties | File delle impostazioni di Log4j |
hdfs | hdfs-site.xml | Configurazione HDFS di Android |
hive | hive-site.xml | Configurazione di Hive |
hive-log4j2 | hive-log4j2.properties | File delle impostazioni di Log4j |
Hudi | hudi-default.conf | Configurazione Hudi |
mapred | mapred-site.xml | Configurazione di Hadoop MapReduce |
mapred-env | mapred-env.sh | Variabili di ambiente specifiche di Hadoop MapReduce |
maiale | pig.properties | Configurazione maiale |
maiale-log4j | log4j.properties | File di impostazioni Log4j |
presto | config.properties | Configurazione Presto |
presto-jvm | jvm.config | Configurazione JVM specifica per Presto |
spark | spark-defaults.conf | Configurazione di Spark |
spark-env | spark-env.sh | Variabili di ambiente specifiche di Spark |
spark-log4j | log4j.properties | File di impostazioni Log4j |
tez | tez-site.xml | Configurazione di Tez |
webcat-log4j | webhcat-log4j2.properties | File delle impostazioni di Log4j |
filato | yarn-site.xml | Configurazione YARN di Hadoop |
yarn-env | yarn-env.sh | Variabili di ambiente specifiche di Hadoop YARN |
dirigibile | zeppelin-site.xml | Configurazione di Zeppelin |
zeppelin-env | zeppelin-env.sh | Variabili di ambiente specifiche di Zeppelin (solo componente facoltativo) |
zeppelin-log4j | log4j.properties | File delle impostazioni di Log4j |
zookeeper | zoo.cfg | Configurazione di Zookeeper |
zookeeper-log4j | log4j.properties | File di impostazioni Log4j |
Note
- Alcune proprietà sono riservate e non possono essere sostituite perché influiscono sulla funzionalità del cluster Dataproc. Se tenti di modificare una proprietà riservata, riceverai un messaggio di errore durante la creazione del cluster.
- Puoi specificare più modifiche separando ciascuna con una virgola.
- Il flag
--properties
non può modificare i file di configurazione non mostrati sopra. - Le modifiche alle proprietà verranno applicate prima dell'avvio dei daemon sul cluster.
- Se la proprietà specificata esiste, verrà aggiornata. Se la proprietà specificata non esiste, verrà aggiunta al file di configurazione.
Proprietà del servizio Dataproc
Le proprietà elencate in questa sezione sono specifiche di Dataproc. Queste proprietà possono essere utilizzate per configurare ulteriormente la funzionalità del cluster Dataproc.
Formattazione
Il flag gcloud dataproc clusters create --properties
accetta il seguente formato di stringa:
property_prefix1:property1=value1,property_prefix2:property2=value2,...
Il delimitatore predefinito utilizzato per separare più proprietà del cluster è la virgola (,). Tuttavia, se una virgola è inclusa in un valore della proprietà, devi modificare il delimitatore specificando "^delimiter^" all'inizio dell'elenco di proprietà (per maggiori informazioni, consulta la sezione sulla fuga di argomenti gcloud).
- Esempio che utilizza un "#" delimitatore:
--properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
- Esempio che utilizza un "#" delimitatore:
Esempio:
Crea un cluster e imposta la modalità di flessibilità avanzata su mescolamento dei worker principali di Spark.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties=dataproc:efm.spark.shuffle=primary-worker \ other args ...
Tabella delle proprietà del servizio Dataproc
Prefisso della proprietà | Proprietà | Valori | Descrizione |
---|---|---|---|
dataproc | agent.process.threads.job.min | number |
Dataproc esegue contemporaneamente i driver dei job utente in un pool di thread. Questa proprietà controlla il numero minimo di thread nel pool di thread per un avvio rapido anche quando non sono in esecuzione job (valore predefinito: 10). |
dataproc | agent.process.threads.job.max | number |
Dataproc esegue contemporaneamente i driver dei job utente in un pool di thread. Questa proprietà controlla il numero massimo di thread nel pool di thread, limitando quindi la concorrenza massima dei job utente. Aumenta questo valore per una maggiore concorrenza (valore predefinito: 100). |
dataproc | am.primary_only | true o false |
Imposta questa proprietà su true per impedire al master dell'applicazione di essere eseguito sui worker prerilasciabili del cluster Dataproc. Nota: questa funzionalità è disponibile solo con Dataproc 1.2 e versioni successive. Il valore predefinito è false . |
dataproc | conda.env.config.uri | gs://<path> |
Posizione in Cloud Storage del file di configurazione dell'ambiente Conda. In base a questo file verrà creato e attivato un nuovo ambiente Conda. Per ulteriori informazioni, consulta Utilizzo delle proprietà cluster correlate a Conda. (valore predefinito: empty ). |
dataproc | conda.packages | Pacchetti Conda | Questa proprietà accetta un elenco di pacchetti Conda separati da virgole con versioni specifiche da installare nell'ambiente Conda base . Per ulteriori informazioni, consulta Utilizzo delle proprietà cluster correlate a Conda. (valore predefinito: empty ). |
dataproc | dataproc.allow.zero.workers | true o false |
Imposta questa proprietà SoftwareConfig su true in una richiesta dell'API Dataproc clusters.create per creare un cluster a un solo nodo, che modifica il numero predefinito di worker da 2 a 0 e posiziona i componenti dei worker sull'host master. Un cluster a un solo nodo può essere creato anche dalla console Google Cloud o con Google Cloud CLI impostando il numero di worker su 0 . |
dataproc | dataproc.alpha.master.nvdimm.size.gb | 1500-6500 | L'impostazione di un valore crea un master Dataproc con memoria permanente Intel Optane DC. Nota: le VM Optane possono essere create solo nelle zone us-central1-f , solo con il tipo di macchina n1-highmem-96-aep e solo nei progetti autorizzati. |
dataproc: | dataproc.alpha.worker.nvdimm.size.gb | 1500-6500 | L'impostazione di un valore crea un worker Dataproc con memoria persistente Intel Optane DC. Nota: le VM Optane possono essere create solo nelle zone us-central1-f , solo con il tipo di macchina n1-highmem-96-aep e solo nei progetti inclusi nella lista consentita. |
Dataproc: | dataproc.await-new-workers-service-registration | true o false |
Questa proprietà è disponibile nelle immagini 2.0.49+. Il valore predefinito è false . Imposta questa proprietà su true per attendere che i nuovi worker principali registrino i leader di servizio, come NameNode HDFS e ResourceManager YARN, durante la creazione o lo scale-up del cluster (vengono monitorati solo i servizi HDFS e YARN). Quando viene impostato su true , se un nuovo worker non riesce a registrarsi a un servizio, al worker viene assegnato lo stato FAILED . Un worker non riuscito viene rimosso se è in corso lo scale up del cluster. Se il cluster viene creato, un worker non riuscito viene rimosso se il flag gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE o il campo API actionOnFailedPrimaryWorkers=DELETE è stato specificato come parte della richiesta di creazione del comando gcloud o del cluster API. |
dataproc: | dataproc.beta.secure.multi-tenancy.user.mapping | user-to-service account mappings |
Questa proprietà accetta un elenco di mappature degli account utente-di servizio. Gli utenti mappati possono inviare carichi di lavoro interattivi al cluster con identità utente isolate (vedi Protezione multi-tenancy basata su service account Dataproc). |
dataproc: | dataproc.cluster.caching.enabled | true o false |
Quando la memorizzazione nella cache del cluster è abilitata, il cluster memorizza nella cache i dati di Cloud Storage a cui accedono i job Spark, migliorando le prestazioni del job senza compromettere la coerenza. (valore predefinito: false ). |
dataproc | dataproc.cluster-ttl.consider-yarn-activity | true o false |
Se il criterio è impostato su true , l'eliminazione pianificata del cluster prende in considerazione sia l'attività YARN sia quella dell'API Dataproc Jobs per calcolare il tempo di inattività del cluster. Se impostato su false , viene presa in considerazione solo l'attività dell'API Dataproc Jobs. (valore predefinito: true ). Per ulteriori informazioni, vedi Calcolo del tempo di inattività del cluster. |
dataproc | dataproc.conscrypt.provider.enable | true o false |
Attiva (true ) o disattiva (false ) Conscritta come provider di sicurezza Java principale. Nota: la crittografia è abilitata per impostazione predefinita in Dataproc 1.2 e versioni successive, ma è disattivata in 1.0/1.1. |
dataproc | dataproc.cooperative.multi-tenancy.user.mapping | user-to-service account mappings |
Questa proprietà accetta un elenco di mappature tra account utente e account di servizio separate da virgole. Se viene creato un cluster con questa proprietà impostata, quando un utente invia un job, il cluster tenterà di rubare l'identità dell'account di servizio corrispondente quando accede a Cloud Storage tramite il connettore Cloud Storage. Questa funzionalità richiede il connettore Cloud Storage 2.1.4 o versioni successive. Per ulteriori informazioni, consulta Multitenancy collaborativa di Dataproc. (valore predefinito: empty ). |
dataproc | dataproc.control.max.assigned.job.tasks | 100 |
Questa proprietà limita il numero di attività che possono essere eseguite contemporaneamente sul nodo master del cluster. Se il numero di attività attive supera il limite, i nuovi job vengono messi in coda fino al completamento dei job in esecuzione e le risorse vengono liberate per consentire la pianificazione di nuove attività. Nota: non è consigliabile impostare un limite di attività predefinito superiore a 100 (il valore predefinito) perché potrebbe verificarsi una condizione di esaurimento della memoria nel nodo principale. |
dataproc | dataproc:hudi.version | Versione Hudi | Imposta la versione Hudi utilizzata con il componente facoltativo Dataproc Hudi. Nota: questa versione è impostata da Dataproc in modo da essere compatibile con la versione dell'immagine del cluster. Se viene impostata dall'utente, la creazione del cluster può non riuscire se la versione specificata non è compatibile con l'immagine del cluster. |
dataproc | dataproc.lineage.enabled | true |
Abilita la derivazione dei dati in un cluster Dataproc per i job Spark. |
dataproc | dataproc.localssd.mount.enable | true o false |
Indica se montare gli SSD locali come directory temporanee di Hadoop/Spark e directory di dati HDFS (impostazione predefinita: true ). |
dataproc | dataproc.logging.stackdriver.enable | true o false |
Attiva (true ) o disabilita (false ) Cloud Logging (valore predefinito: true ). Consulta i prezzi di Cloud Logging per gli addebiti associati. |
dataproc | dataproc.logging.stackdriver.job.driver.enable | true o false |
Attiva (true ) o disattiva (false ) i log del driver dei job Dataproc in Cloud Logging. Consulta Output e log del job Dataproc (valore predefinito: false ). |
dataproc | dataproc.logging.stackdriver.job.yarn.container.enable | true o false |
Abilita (true ) o disabilita (false ) i log dei container YARN in Cloud Logging. Consulta le opzioni di output dei job Spark. (valore predefinito: false ). |
dataproc | dataproc.master.custom.init.actions.mode | RUN_BEFORE_SERVICES o RUN_AFTER_SERVICES |
Per i cluster di immagini 2.0 e versioni successive, se impostato su RUN_AFTER_SERVICES , le azioni di inizializzazione sul master verranno eseguite dopo l'inizializzazione di HDFS e di tutti i servizi che dipendono da HDFS. Alcuni esempi di servizi dipendenti da HDFS sono: HBase, Hive Server 2, Ranger, Solr e i server di cronologia Spark e MapReduce. (valore predefinito: RUN_BEFORE_SERVICES ). |
dataproc | dataproc.monitoring.stackdriver.enable | true o false |
Attiva (true ) o disabilita (false ) l'agente Monitoring (impostazione predefinita: false ). Questa proprietà è ritirata. Consulta Abilitare metrica personalizzata personalizzate per abilitare la raccolta della raccolta delle metriche Dataproc OSS in Monitoring. |
dataproc | dataproc.scheduler.driver-size-mb | number |
L'ingombro medio di memoria del driver, che determina il numero massimo di job simultanei che verranno eseguiti da un cluster. Il valore predefinito è 1 GB. Un valore più basso, ad esempio 256 , potrebbe essere appropriato per i job Spark. |
dataproc | dataproc.scheduler.job-submission-rate | number |
I job vengono limitati se questa percentuale viene superata. La velocità predefinita è 1.0 QPS. |
dataproc | dataproc.scheduler.max-concurrent-jobs | number |
Il numero massimo di job simultanei. Se questo valore non viene impostato al momento della creazione del cluster, il limite superiore per i job simultanei viene calcolato come max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5) . masterMemoryMb è determinato dal tipo di macchina della VM principale. masterMemoryMbPerJob è 1024 per impostazione predefinita, ma è configurabile in fase di creazione del cluster con la proprietà del cluster dataproc:dataproc.scheduler.driver-size-mb . |
dataproc | dataproc.scheduler.max-memory-used | number |
La quantità massima di RAM che può essere utilizzata. Se l'utilizzo attuale è superiore a questa soglia, non è possibile pianificare nuovi job. Il valore predefinito è 0.9 (90%). Se impostato su 1.0 , la limitazione dei job di utilizzo della memoria principale viene disattivata. |
dataproc | dataproc.scheduler.min-free-memory.mb | number |
La quantità minima di memoria libera in megabyte necessaria al driver del job Dataproc per pianificare un altro job nel cluster. Il valore predefinito è 256 MB. |
dataproc | dataproc.snap.enabled | true o false |
Attiva o disattiva il daemon Ubuntu Snap. Il valore predefinito è true . Se impostato su false , i pacchetti Snap preinstallati nell'immagine non sono interessati, ma l'aggiornamento automatico è disattivato. Si applica alle immagini Ubuntu 1.4.71, 1.5.46, 2.0.20 e successive. |
dataproc | dataproc.worker.custom.init.actions.mode | RUN_BEFORE_SERVICES |
Per i cluster di immagini precedenti alla versione 2.0, RUN_BEFORE_Services non è impostato, ma può essere impostato dall'utente quando viene creato il cluster. Per i cluster di immagini 2.0 e versioni successive, RUN_BEFORE_SERVICES è impostato e la proprietà non può essere passata al cluster (non può essere modificata dall'utente). Per informazioni sull'effetto di questa impostazione, consulta Considerazioni e linee guida importanti: elaborazione dell'inizializzazione. |
dataproc | dataproc.yarn.orphaned-app-termination.enable | true o false |
Il valore predefinito è true . Imposta su false per impedire a Dataproc di terminare lo stato "orfano" App YARN. Dataproc considera un'app YARN orfana se il driver del job che ha inviato l'app YARN è uscito. Avviso: se utilizzi la modalità cluster Spark (spark.submit.deployMode=cluster ) e imposti spark.yarn.submit.waitAppCompletion=false , il driver Spark si chiude senza attendere il completamento delle app YARN. in questo caso, imposta dataproc:dataproc.yarn.orphaned-app-termination.enable=false . Imposta questa proprietà su false anche se invii job Hive. |
dataproc | efm.spark.shuffle | primary-worker |
Se impostato su primary-worker , i dati sottoposti a shuffling di Spark vengono scritti nei worker principali. Per ulteriori informazioni, consulta Modalità di flessibilità avanzata di Dataproc. |
dataproc | job.history.to-gcs.enabled | true o false |
Consente la persistenza dei file di cronologia MapReduce e Spark nel bucket temporaneo Dataproc (valore predefinito: true per le versioni dell'immagine 1.5 e successive). Gli utenti possono sovrascrivere le posizioni della persistenza dei file di cronologia dei job tramite le seguenti proprietà: mapreduce.jobhistory.done-dir , mapreduce.jobhistory.intermediate-done-dir , spark.eventLog.dir e spark.history.fs.logDirectory . Per informazioni su queste e altre proprietà cluster associate ai file di eventi e alla cronologia dei job Dataproc, vedi Server di cronologia permanente di Dataproc . |
dataproc | jobs.file-backed-output.enable | true o false |
Configura i job Dataproc per indirizzare l'output ai file temporanei nella directory /var/log/google-dataproc-job . Deve essere impostato su true per attivare il logging del driver del job in Cloud Logging (valore predefinito: true ). |
dataproc | jupyter.listen.all.interfaces | true o false |
Per ridurre il rischio di esecuzione di codice remoto su API del server di blocchi note non protetti, l'impostazione predefinita per le versioni delle immagini 1.3 e successive è false , che limita le connessioni a localhost (127.0.0.1 ) quando il Gateway dei componenti è abilitato (l'attivazione del gateway dei componenti non è richiesta per le immagini 2.0 e versioni successive). È possibile eseguire l'override di questa impostazione predefinita impostando questa proprietà su true per consentire tutte le connessioni. |
dataproc | jupyter.notebook.gcs.dir | gs://<dir-path> |
Posizione in Cloud Storage in cui salvare i Jupyter Notebook. |
dataproc | kerberos.beta.automatic-config.enable | true o false |
Se il criterio viene impostato su true , gli utenti non devono specificare la password dell'entità radice Kerberos con i flag --kerberos-root-principal-password e --kerberos-kms-key-uri (valore predefinito: false ). Per ulteriori informazioni, consulta Attivazione della modalità protetta di Hadoop tramite Kerberos. |
dataproc | kerberos.cross-realm-trust.admin-server | hostname/address |
Nome host/indirizzo del server di amministrazione remoto (spesso uguale al server KDC). |
dataproc | kerberos.cross-realm-trust.kdc | hostname/address |
Indirizzo/nome host del KDC remoto. |
dataproc | kerberos.cross-realm-trust.realm | realm name |
I nomi di ambito possono essere costituiti da qualsiasi stringa ASCII MAIUSCOLI. Di solito, il nome dell'area di autenticazione è uguale al nome di dominio DNS (in MAIUSCOLO). Esempio: se le macchine sono denominate "machine-id.example.west-coast.mycompany.com", il realm associato può essere designato come "EXAMPLE.WEST-COAST.MYCOMPANY.COM". |
dataproc | kerberos.cross-realm-trust.shared-password.uri | gs://<dir-path> |
Posizione in Cloud Storage della password condivisa criptata con KMS. |
dataproc | kerberos.kdc.db.key.uri | gs://<dir-path> |
Posizione in Cloud Storage del file criptato con KMS contenente la chiave master del database KDC. |
dataproc | kerberos.key.password.uri | gs://<dir-path> |
Posizione in Cloud Storage del file criptato con KMS contenente la password della chiave nel file archivio chiavi. |
dataproc | kerberos.keystore.password.uri | gs://<dir-path> |
Posizione in Cloud Storage del file criptato con KMS contenente la password dell'archivio chiavi. |
dataproc | kerberos.keystore.uri1 | gs://<dir-path> |
Posizione in Cloud Storage del file dell'archivio chiavi contenente il certificato con caratteri jolly e la chiave privata utilizzata dai nodi del cluster. |
dataproc | kerberos.kms.key.uri | KMS key URI |
L'URI della chiave KMS utilizzata per decriptare la password root, ad esempio projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (vedi ID risorsa della chiave). |
dataproc | kerberos.root.principal.password.uri | gs://<dir-path> |
Posizione in Cloud Storage della password criptata con KMS per l'entità radice Kerberos. |
dataproc | kerberos.tgt.lifetime.hours | hours |
Durata massima della concessione del ticket. |
dataproc | kerberos.truststore.password.uri | gs://<dir-path> |
Posizione in Cloud Storage del file criptato con KMS contenente la password del file dell'archivio attendibilità. |
dataproc | kerberos.truststore.uri2 | gs://<dir-path> |
Posizione in Cloud Storage del file dell'archivio attendibilità criptato con KMS contenente i certificati attendibili. |
dataproc | pip.packages | Pacchetti Pip | Questa proprietà richiede un elenco di pacchetti Pip separati da virgole con versioni specifiche, da installare nell'ambiente Conda base . Per ulteriori informazioni, consulta Proprietà del cluster correlate a Conda. (valore predefinito: empty ). |
dataproc | ranger.kms.key.uri | KMS key URI |
L'URI della chiave KMS utilizzata per decriptare la password dell'utente amministratore Ranger, ad esempio projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (vedi ID risorsa della chiave). |
dataproc | ranger.admin.password.uri | gs://<dir-path> |
Posizione in Cloud Storage della password criptata con KMS per l'utente amministratore di Ranger. |
dataproc | ranger.db.admin.password.uri | gs://<dir-path> |
Posizione in Cloud Storage della password criptata con KMS per l'utente amministratore del database Ranger. |
dataproc | ranger.cloud-sql.instance.connection.name | cloud sql instance connection name |
Il nome della connessione dell'istanza Cloud SQL, ad esempio project-id:region:name. |
dataproc | ranger.cloud-sql.root.password.uri | gs://<dir-path> |
Posizione in Cloud Storage della password criptata con KMS per l'utente root dell'istanza Cloud SQL. |
dataproc | ranger.cloud-sql.use-private-ip | true o false |
Indica se la comunicazione tra le istanze del cluster e l'istanza Cloud SQL deve essere su IP privato (il valore predefinito è false ). |
dataproc | solr.gcs.path | gs://<dir-path> |
Percorso Cloud Storage da utilizzare come home directory di Solr. |
dataproc | startup.component.service-binding-timeout.hadoop-hdfs-namenode | seconds |
La quantità di tempo che lo script di avvio di Dataproc attenderà prima che l'adoop-hdfs-namenode si associ alle porte prima di decidere che l'avvio abbia avuto esito positivo. Il valore massimo riconosciuto è 1800 secondi (30 minuti). |
dataproc | startup.component.service-binding-timeout.hive-metastore | seconds |
Il tempo di attesa dello script di avvio di Dataproc per l'associazione del servizio hive-metastore alle porte prima di decidere che l'avvio è andato a buon fine. Il valore massimo riconosciuto è 1800 secondi (30 minuti). |
dataproc | startup.component.service-binding-timeout.hive-server2 | seconds |
La quantità di tempo che lo script di avvio di Dataproc attenderà per l'associazione di hive-server2 alle porte prima di decidere se l'avvio è riuscito. Il valore massimo riconosciuto è 1800 secondi (30 minuti). |
dataproc | user-attribution.enabled | true o false |
Imposta questa proprietà su true per attribuire un job Dataproc all'identità dell'utente che lo ha inviato (il valore predefinito è false ). |
dataproc | yarn.docker.enable | true o false |
Impostato su true per attivare la funzionalità Dataproc Docker su YARN (il valore predefinito è false ). |
dataproc | yarn.docker.image | docker image |
Quando abiliti la funzionalità Dataproc Docker on YARN (dataproc:yarn.docker.enable=true ), puoi utilizzare questa proprietà facoltativa per specificare l'immagine Docker (ad esempio dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1 ). Se specificata, l'immagine viene scaricata e memorizzata nella cache in tutti i nodi del cluster durante la creazione del cluster. |
dataproc | yarn.log-aggregation.enabled | true o false |
Consente (true ) di attivare l'aggregazione dei log YARN in temp bucket del cluster. Il nome del bucket ha il seguente formato: dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING> . (valore predefinito: true per le versioni delle immagini 1.5 e successive). Nota: il bucket temporaneo del cluster non viene eliminato quando viene eliminato il cluster. Gli utenti possono anche impostare la località dei log YARN aggregati sovrascrivendo la proprietà YARN yarn.nodemanager.remote-app-log-dir . |
Knox | gateway.host | ip address |
Per ridurre il rischio di esecuzione di codice remoto su API del server di blocchi note non protette, l'impostazione predefinita per le versioni immagine 1.3 e successive è 127.0.0.1 , che limita le connessioni a localhost quando è abilitato il gateway dei componenti. È possibile eseguire l'override dell'impostazione predefinita, ad esempio impostando questa proprietà su 0.0.0.0 per consentire tutte le connessioni. |
zeppelin | zeppelin.notebook.gcs.dir | gs://<dir-path> |
Posizione in Cloud Storage in cui salvare i notebook Zeppelin. |
zeppelin | zeppelin.server.addr | ip address |
Per ridurre il rischio di esecuzione di codice remoto su API del server di blocchi note non protette, l'impostazione predefinita per le versioni immagine 1.3 e successive è 127.0.0.1 , che limita le connessioni a localhost quando è abilitato il gateway dei componenti. Questa impostazione predefinita può essere sostituita, ad esempio impostando questa proprietà su 0.0.0.0 per consentire tutte le connessioni. |
1File dell'archivio chiavi: il file dell'archivio chiavi contiene il certificato SSL. Deve essere nel formato Java KeyStore (JKS). Quando viene copiato nelle VM, viene rinominato in keystore.jks
.
Il certificato SSL deve essere un certificato con caratteri jolly che si applichi a ogni nodo del cluster.
2File dell'archivio attendibilità: il file dell'archivio attendibilità deve essere nel formato Java KeyStore (JKS). Quando viene copiato nelle VM, viene rinominato in
truststore.jks
.