Proprietà provisioner Dataproc

Il provisioner Dataproc in Cloud Data Fusion chiama l'API Dataproc per creare ed eliminare i cluster nei progetti Google Cloud. Puoi configurare i cluster nelle impostazioni del provisioner.

Per ulteriori informazioni sulla compatibilità tra le versioni di Cloud Data Fusion e le versioni di Dataproc, consulta Compatibilità delle versioni.

Proprietà

Proprietà Descrizione
ID progetto Il progetto Google Cloud in cui viene creato il cluster Dataproc. Nel progetto deve essere abilitata l'API Dataproc.
Chiave dell'account di servizio dell'autore

La chiave dell'account di servizio fornita al provisioner deve avere l'autorizzazione per accedere alle API Dataproc e Compute Engine. Poiché la chiave del tuo account è sensibile, ti consigliamo di fornire la chiave dell'account utilizzando Secure Storage.

Dopo aver creato la chiave sicura, puoi aggiungerla a uno spazio dei nomi o a un profilo di computing di sistema. Per un profilo di calcolo dello spazio dei nomi, fai clic sullo scudo e seleziona la chiave di sicurezza. Per un profilo di computing di sistema, inserisci il nome della chiave nel campo Secure Account Key.

Regione Una posizione geografica in cui puoi ospitare le tue risorse, ad esempio i nodi di computing per il cluster Dataproc.
Zona Un'area di deployment isolata all'interno di una regione.
Rete La rete VPC nel progetto Google Cloud che verrà utilizzata durante la creazione di un cluster Dataproc.
ID progetto host di rete Se la rete si trova in un altro progetto Google Cloud, inserisci l'ID di quel progetto. Per un VPC condiviso, inserisci l'ID progetto host in cui si trova la rete.
Subnet La subnet da utilizzare durante la creazione dei cluster. Deve trovarsi all'interno della rete specificata e nella regione in cui si trova la zona. Se viene lasciato vuoto, viene selezionata una subnet in base alla rete e alla zona.
Account di servizio runner Il nome dell'account di servizio delle macchine virtuali (VM) Dataproc utilizzate per l'esecuzione dei programmi. Se viene lasciato vuoto, viene utilizzato l'account di servizio Compute Engine predefinito.
Numero di master

Il numero di nodi master nel cluster. Questi nodi contengono il Resource Manager YARN, NameNode HDFS e tutti i driver. Deve essere impostato su 1 o 3.

Il valore predefinito è 1.

Tipo di macchina principale

Il tipo di macchina master da utilizzare. Seleziona uno dei seguenti tipi di macchine:

  • n1
  • n2
  • N2D
  • e2

In Cloud Data Fusion 6.7.2 e versioni successive, il valore predefinito è e2.

Nella versione 6.7.1, il valore predefinito è n2.

Nella versione 6.7.0 e precedenti, il valore predefinito è n1.

Core principali

Numero di core virtuali allocati a un nodo master.

Il valore predefinito è 2.

Memoria principale (GB)

La quantità di memoria, in gigabyte, allocata a un nodo master.

Il valore predefinito è 8 GB.

Dimensione del disco master (GB)

Dimensione del disco, in gigabyte, allocato a un nodo master.

Il valore predefinito è 1000 GB.

Tipo di disco master

Tipo di disco di avvio per un nodo master:

  • Disco permanente standard
  • Disco permanente SSD

L'impostazione predefinita è Disco permanente standard.

Tipo di macchina worker

Il tipo di macchina worker da utilizzare. Seleziona uno dei seguenti tipi di macchine:

  • n1
  • n2
  • N2D
  • e2

In Cloud Data Fusion 6.7.2 e versioni successive, il valore predefinito è e2.

Nella versione 6.7.1, il valore predefinito è n2.

Nella versione 6.7.0 e precedenti, il valore predefinito è n1.

Core worker

Numero di core virtuali allocati a un nodo worker.

Il valore predefinito è 2.

Memoria worker (GB)

La quantità di memoria, in gigabyte, allocata a un nodo worker.

Il valore predefinito è 8 GB.

Dimensione del disco worker (GB)

Dimensioni del disco, in gigabyte, allocati a un nodo worker.

Il valore predefinito è 1000 GB.

Tipo di disco worker

Tipo di disco di avvio per un nodo worker:

  • Disco permanente standard
  • Disco permanente SSD

L'impostazione predefinita è Disco permanente standard.

Utilizzare la scalabilità automatica predefinita Abilita l'utilizzo della scalabilità automatica di Dataproc predefinita.
Numero di worker principali

I nodi worker contengono un NodeManager YARN e un DataNode HDFS.

Il valore predefinito è 2.

Numero di worker secondari I nodi worker secondari contengono un NodeManager YARN, ma non un DataNode HDFS. Normalmente il valore è impostato su zero, a meno che un criterio di scalabilità automatica non richieda un valore superiore.
Criterio di scalabilità automatica

Percorso dell'ID criterio di scalabilità automatica o dell'URI della risorsa.

Per informazioni su come configurare e utilizzare la scalabilità automatica di Dataproc per ridimensionare in modo automatico e dinamico i cluster al fine di soddisfare le esigenze dei carichi di lavoro, consulta Quando utilizzare la scalabilità automatica e Scalabilità automatica dei cluster Dataproc.

Metadati Metadati aggiuntivi per le istanze in esecuzione nel cluster. In genere, puoi utilizzarlo per monitorare la fatturazione e gli storni di addebito. Per ulteriori informazioni, consulta Metadati del cluster.
Tag di rete Assegna tag di rete per applicare regole firewall a nodi specifici di un cluster. I tag di rete devono iniziare con una lettera minuscola e possono contenere lettere minuscole, numeri e trattini. I tag devono terminare con una lettera minuscola o un numero.
Attiva Avvio protetto

Abilita l'avvio protetto sulle VM Dataproc.

Il valore predefinito è False.

Abilita vTPM

Abilita il Virtual Trusted Platform Module (vTPM) sulle VM Dataproc.

Il valore predefinito è False.

Abilita il monitoraggio dell'integrità

Abilita il monitoraggio dell'integrità virtuale sulle VM Dataproc.

Il valore predefinito è False.

Versione immagine La versione immagine di Dataproc. Se viene lasciato vuoto, ne viene selezionato uno automaticamente. Se la proprietà URI immagine personalizzata viene lasciata vuota, viene ignorata.
URI immagine personalizzato L'URI dell'immagine Dataproc. Se viene lasciato vuoto, viene dedotto dalla proprietà Versione immagine.
Bucket temporaneo Bucket Cloud Storage utilizzato per inserire le dipendenze dei job e configurare i file di configurazione per l'esecuzione delle pipeline in Dataproc.
Bucket temporaneo

Bucket Cloud Storage utilizzato per archiviare dati di job e cluster temporanei, come i file di cronologia di Spark in Dataproc.

Questa proprietà è stata introdotta in Cloud Data Fusion versione 6.9.2.

Nome chiave di crittografia La chiave di crittografia gestita dal cliente (CMEK) utilizzata da Dataproc.
Ambiti OAuth

Gli ambiti OAuth 2.0 che potresti dover richiedere per accedere alle API di Google, a seconda del livello di accesso necessario. L'ambito della piattaforma Google Cloud è sempre incluso.

Questa proprietà è stata introdotta in Cloud Data Fusion versione 6.9.2.

Azioni di inizializzazione Un elenco di script da eseguire durante l'inizializzazione del cluster Le azioni di inizializzazione devono essere eseguite su Cloud Storage.
Proprietà del cluster Proprietà del cluster che eseguono l'override delle proprietà di configurazione predefinite dei servizi Hadoop. Per saperne di più sulle coppie chiave-valore applicabili, consulta Proprietà del cluster.
Etichette comuni

Etichette per organizzare i cluster e i job Dataproc in fase di creazione.

Puoi etichettare ogni risorsa e quindi filtrarle in base alle etichette. Le informazioni sulle etichette vengono inoltrate al sistema di fatturazione, in modo che i clienti possano suddividere gli addebiti di fatturazione per etichetta.

Tempo di inattività massimo

Configura Dataproc in modo da eliminare un cluster se è inattivo per più tempo rispetto al numero di minuti specificato. In genere i cluster vengono eliminati direttamente al termine dell'esecuzione, ma in rari casi l'eliminazione può non riuscire. Per maggiori informazioni, consulta Risolvere i problemi di eliminazione dei cluster.

Il valore predefinito è 30 minuti.

Salta eliminazione cluster

Indica se saltare l'eliminazione del cluster alla fine di un'esecuzione. Devi eliminare manualmente i cluster. Questa opzione deve essere utilizzata solo per il debug di un'esecuzione non riuscita.

Il valore predefinito è False.

Abilita l'integrazione di Stackdriver Logging

Abilita l'integrazione di Stackdriver Logging.

Il valore predefinito è True.

Abilita l'integrazione di Stackdriver Monitoring

Abilita l'integrazione di Stackdriver Monitoring.

Il valore predefinito è True.

Attiva gateway dei componenti

Abilita il gateway dei componenti per accedere alle interfacce del cluster, ad esempio YARN ResourceManager e Spark HistoryServer.

Il valore predefinito è False.

Preferenza IP esterno

Quando il sistema è in esecuzione su Google Cloud nella stessa rete del cluster, di solito utilizza l'indirizzo IP interno per comunicare con il cluster. Per utilizzare sempre l'indirizzo IP esterno, imposta questo valore su True.

Il valore predefinito è False.

Crea ritardo sondaggio

Il numero di secondi di attesa dopo la creazione di un cluster per iniziare il polling e verificare se il cluster è stato creato.

Il valore predefinito è 60 secondi.

Le impostazioni di polling controllano la frequenza di polling dello stato del cluster durante la creazione e l'eliminazione dei cluster. Se hai molte pipeline pianificate per l'esecuzione contemporaneamente, ti consigliamo di modificare queste impostazioni.

Crea tremolio dei sondaggi

Quantità massima di tremolio casuale, in secondi, da aggiungere al ritardo durante la creazione di un cluster. Puoi utilizzare questa proprietà per impedire molte chiamate API simultanee in Google Cloud se hai molte pipeline pianificate per l'esecuzione nello stesso momento.

Il valore predefinito è 20 secondi.

Elimina ritardo sondaggio

Il numero di secondi di attesa dopo l'eliminazione di un cluster per iniziare il polling e vedere se il cluster è stato eliminato.

Il valore predefinito è 30 secondi.

Intervallo sondaggio

Il numero di secondi di attesa tra i sondaggi per lo stato del cluster.

Il valore predefinito è 2.

Proprietà dell'interfaccia web del profilo Dataproc mappate a proprietà JSON

Nome proprietà UI profilo Dataproc Nome proprietà JSON del profilo Dataproc
Etichetta del profilo name
Nome del profilo label
Descrizione description
ID progetto projectId
Chiave dell'account di servizio dell'autore accountKey
Regione region
Zona zone
Rete network
ID progetto host di rete networkHostProjectId
Subnet subnet
Account di servizio runner serviceAccount
Numero di master masterNumNodes
Tipo di macchina principale masterMachineType
Core principali masterCPUs
Memoria principale (GB) masterMemoryMB
Dimensione del disco master (GB) masterDiskGB
Tipo di disco master masterDiskType
Numero di worker principali workerNumNodes
Numero di worker secondari secondaryWorkerNumNodes
Tipo di macchina worker workerMachineType
Core worker workerCPUs
Memoria worker (GB) workerMemoryMB
Dimensione del disco worker (GB) workerDiskGB
Tipo di disco worker workerDiskType
Metadati clusterMetaData
Tag di rete networkTags
Attiva Avvio protetto secureBootEnabled
Abilita vTPM vTpmEnabled
Abilita il monitoraggio dell'integrità integrityMonitoringEnabled
Versione immagine imageVersion
URI immagine personalizzato customImageUri
Bucket Cloud Storage gcsBucket
Nome chiave di crittografia encryptionKeyName
Criterio di scalabilità automatica autoScalingPolicy
Azioni di inizializzazione initActions
Proprietà del cluster clusterProperties
Etichette clusterLabels
Tempo di inattività massimo idleTTL
Salta eliminazione cluster skipDelete
Abilita l'integrazione di Stackdriver Logging stackdriverLoggingEnabled
Abilita l'integrazione di Stackdriver Monitoring stackdriverMonitoringEnabled
Attiva gateway dei componenti componentGatewayEnabled
Preferenza IP esterno preferExternalIP
Crea ritardo sondaggio pollCreateDelay
Crea tremolio dei sondaggi pollCreateJitter
Elimina ritardo sondaggio pollDeleteDelay
Intervallo sondaggio pollInterval

Best practice

Quando crei un cluster statico per le pipeline, fai riferimento alle best practice per la configurazione dei cluster.

Passaggi successivi