Il provisioning di Dataproc in Cloud Data Fusion chiama l'API Dataproc per creare ed eliminare i cluster nei progetti Google Cloud. Puoi configurare i cluster nelle impostazioni del provisioning.
Per ulteriori informazioni sulla compatibilità tra le versioni di Cloud Data Fusion e le versioni di Dataproc, consulta Compatibilità delle versioni.
Proprietà
Proprietà | Descrizione |
---|---|
ID progetto | Il progetto Google Cloud in cui Dataproc viene creato un cluster Kubernetes. Il progetto deve includere l'API Dataproc in un bucket in cui è abilitato il controllo delle versioni. |
Chiave dell'account di servizio dell'autore | La chiave dell'account di servizio fornita al provisioning deve avere l'autorizzazione per accedere alle API Dataproc e Compute Engine. Poiché la chiave dell'account è sensibile, ti consigliamo di fornirla utilizzando lo spazio di archiviazione protetto. Dopo aver creato la chiave sicura, puoi aggiungerla a uno spazio dei nomi o a un profilo di calcolo di sistema. Per un profilo di calcolo dello spazio dei nomi, fai clic sul scudo e seleziona la chiave sicura. Per un profilo di computing di sistema, inserisci il nome della chiave nel Secure Account Key (Chiave account sicuro). |
Regione | Una località geografica in cui puoi ospitare le tue risorse, ad esempio i nodi di calcolo per il cluster Dataproc. |
Zona | Un'area di deployment isolata all'interno di una regione. |
Rete | La rete VPC del progetto Google Cloud che verrà utilizzata durante la creazione di un cluster Dataproc. |
ID progetto host della rete | Se la rete si trova in un altro progetto Google Cloud, inserisci l'ID del progetto. Per un VPC condiviso, inserisci il progetto host ID in cui si trova la rete. |
Subnet | La subnet da utilizzare durante la creazione dei cluster. Deve trovarsi all’interno del e nella regione in cui si trova la zona. Se viene lasciato vuoto, viene utilizzata selezionato in base alla rete e alla zona. |
Account di servizio del runner | Il nome dell'account di servizio delle macchine virtuali (VM) Dataproc utilizzate per l'esecuzione dei programmi. Se viene lasciato vuoto, il valore predefinito si utilizza l'account di servizio Compute Engine. |
Numero di master | Il numero di nodi master nel cluster. Questi nodi contengono Resource Manager YARN, NameNode HDFS e tutti i driver. Deve essere impostato su 1 o 3. Il valore predefinito è 1. |
Tipo di macchina principale | Il tipo di macchina master da utilizzare. Seleziona uno dei seguenti tipi di macchine:
In Cloud Data Fusion 6.7.2 e versioni successive, il valore predefinito è e2. Nella versione 6.7.1, il valore predefinito è n2. Nella versione 6.7.0 e precedenti, il valore predefinito è n1. |
Core master | Numero di core virtuali allocati a un nodo principale. Il valore predefinito è 2. |
Memoria principale (GB) | La quantità di memoria, in gigabyte, allocata a un nodo master. Il valore predefinito è 8 GB. |
Dimensione del disco master (GB) | Dimensione del disco, in gigabyte, allocato a un nodo master. Il valore predefinito è 1000 GB. |
Tipo di disco principale | Tipo di disco di avvio per un nodo principale:
Il valore predefinito è Disco permanente standard. |
Tipo di macchina worker | Il tipo di macchina worker da utilizzare. Seleziona una delle seguenti opzioni tipi di macchina:
In Cloud Data Fusion 6.7.2 e versioni successive, il valore predefinito è e2. Nella versione 6.7.1, il valore predefinito è n2. Nella versione 6.7.0 e precedenti, il valore predefinito è n1. |
Core worker | Numero di core virtuali allocati a un nodo worker. Il valore predefinito è 2. |
Memoria worker (GB) | La quantità di memoria, in gigabyte, allocata a un nodo worker. Il valore predefinito è 8 GB. |
Dimensione del disco worker (GB) | Dimensioni del disco, in gigabyte, allocate a un nodo worker. Il valore predefinito è 1000 GB. |
Tipo di disco del worker | Tipo di disco di avvio per un nodo worker:
L'impostazione predefinita è Disco permanente standard. |
Utilizzare la scalabilità automatica predefinita | Consente di utilizzare la scalabilità automatica Dataproc predefinita. |
Numero di worker principali | I nodi worker contengono un NodeManager YARN e un DataNode HDFS. Il valore predefinito è 2. |
Numero di worker secondari | I nodi worker secondari contengono un NodeManager YARN, ma non un DataNode HDFS. In genere è impostato su zero, a meno che un criterio di scalabilità automatica non ne richieda uno più elevato. |
Criterio di scalabilità automatica | Percorso per l'ID del criterio di scalabilità automatica o per l'URI della risorsa. Per informazioni sulla configurazione e l'utilizzo di Dataproc della scalabilità automatica per ridimensionare automaticamente e dinamicamente i cluster richieste di carichi di lavoro, consulta Quando utilizzare la scalabilità automatica e scalabilità automatica di Dataproc cluster. |
Metadati | Metadati aggiuntivi per le istanze in esecuzione nel cluster. In genere, puoi utilizzarlo per monitorare la fatturazione e gli storni di addebito. Per maggiori informazioni consulta Metadati del cluster. |
Tag di rete | Assegna tag di rete per applicare regole firewall a nodi specifici di in un cluster. I tag di rete devono iniziare con una lettera minuscola e possono contenere lettere minuscole, numeri e trattini. I tag devono terminare con una lettera minuscola lettera o numero. |
Attivare l'avvio protetto | Abilita l'avvio protetto sulle VM Dataproc. Il valore predefinito è False. |
Attiva vTPM | Abilita Trusted Platform Module virtuale (vTPM) sulle VM Dataproc. Il valore predefinito è False. |
Abilita il monitoraggio dell'integrità | Abilita il monitoraggio dell'integrità virtuale sulla rete VM Dataproc. Il valore predefinito è False. |
Versione immagine | La versione dell'immagine Dataproc. Se viene lasciato vuoto, ne viene selezionata una automaticamente. Se la proprietà URI immagine personalizzata viene lasciata vuota, questa proprietà viene ignorata. |
URI immagine personalizzato | L'URI dell'immagine Dataproc. Se lasciato vuoto, viene dedotto dalla proprietà Versione immagine. |
Bucket di gestione temporanea | Bucket Cloud Storage utilizzato per eseguire il commit delle dipendenze dei job e dei file di configurazione per l'esecuzione delle pipeline in Dataproc. |
Bucket temporaneo | Bucket Cloud Storage utilizzato per archiviare il cluster temporaneo come i file di cronologia Spark in Dataproc. Questa proprietà è stata introdotta nella versione 6.9.2 di Cloud Data Fusion. |
Nome chiave di crittografia | La chiave di crittografia gestita dal cliente (CMEK) utilizzata da Dataproc. |
Ambiti OAuth | Gli ambiti OAuth 2.0 che potresti dover richiedere per accedere alle API di Google, a seconda del livello di accesso di cui hai bisogno. Ambito della piattaforma Google Cloud è sempre incluso. Questa proprietà è stata introdotta nella versione 6.9.2 di Cloud Data Fusion. |
Azioni di inizializzazione | Un elenco di script da eseguire durante l'inizializzazione del cluster Le azioni di inizializzazione devono essere eseguite su Cloud Storage. |
Proprietà del cluster | Proprietà del cluster che eseguono l'override delle proprietà di configurazione predefinite dei servizi Hadoop. Per ulteriori informazioni sulle coppie chiave-valore applicabili, consulta Proprietà del cluster. |
Etichette comuni | Etichette per organizzare i cluster e i job Dataproc durante la creazione. Puoi etichettare ogni risorsa e filtrarle in base alle etichette. Le informazioni relative alle etichette vengono inoltrate al sistema di fatturazione, per consentire ai clienti di suddividere gli addebiti in base all'etichetta. |
Tempo di inattività massimo | Configura Dataproc per eliminare un cluster se è inattivo maggiore del numero di minuti specificato. In genere i cluster vengono eliminati direttamente al termine di un'esecuzione, ma in rare situazioni l'eliminazione può non riuscire. Per ulteriori informazioni, vedi Risolvere i problemi di eliminazione cluster. Il valore predefinito è 30 minuti. |
Salta eliminazione cluster | Indica se saltare l'eliminazione del cluster alla fine di un'esecuzione. Devi ed eliminare manualmente i cluster. Da usare solo per il debug di un evento non riuscito vengono eseguiti tutti i test delle unità. Il valore predefinito è False. |
Abilita l'integrazione di Stackdriver Logging | Attiva l'integrazione di Stackdriver Logging. Il valore predefinito è True. |
Abilita l'integrazione di Stackdriver Monitoring | Attiva l'integrazione di Stackdriver Monitoring. Il valore predefinito è True. |
Attivare Gateway dei componenti | Consenti al gateway dei componenti di accedere alle interfacce del cluster, come YARN ResourceManager e Spark HistoryServer. Il valore predefinito è False. |
Preferenza IP esterno | Quando il sistema è in esecuzione su Google Cloud nella stessa rete del cluster, normalmente utilizza l'indirizzo IP interno per comunicare con il cluster. Per utilizzare sempre l'indirizzo IP esterno, imposta questo valore su True. Il valore predefinito è False. |
Creare un ritardo del sondaggio | Il numero di secondi di attesa dopo l'inizio della creazione di un cluster per vedere se il cluster è stato creato. Il valore predefinito è 60 secondi. Le impostazioni di polling controllano la frequenza di polling dello stato del cluster quando durante la creazione e l'eliminazione dei cluster. Se hai molte pipeline pianificate per contemporaneamente, ti consigliamo di modificare queste impostazioni. |
Crea tremolio dei sondaggi | Quantità massima di tremolio casuale, in secondi, da aggiungere al ritardo quando durante la creazione di un cluster. Puoi utilizzare questa proprietà per impedire molte chiamate API simultanee in Google Cloud quando hai molte pipeline pianificate per l'esecuzione nello stesso momento esatto. Il valore predefinito è 20 secondi. |
Eliminare il ritardo del sondaggio | Il numero di secondi di attesa dopo l'eliminazione di un cluster per iniziare per vedere se il cluster è stato eliminato. Il valore predefinito è 30 secondi. |
Intervallo sondaggio | Il numero di secondi di attesa tra un controllo e l'altro dello stato del cluster. Il valore predefinito è 2. |
Proprietà dell'interfaccia web del profilo Dataproc mappate a proprietà JSON
Nome proprietà UI profilo Dataproc | Nome proprietà JSON del profilo Dataproc |
---|---|
Etichetta del profilo | name |
Nome del profilo | label |
Descrizione | description |
ID progetto | projectId |
Chiave dell'account di servizio del creator | accountKey |
Regione | region |
Zona | zone |
Rete | network |
ID progetto host della rete | networkHostProjectId |
Subnet | subnet |
Account di servizio del runner | serviceAccount |
Numero di master | masterNumNodes |
Tipo di macchina principale | masterMachineType |
Core master | masterCPUs |
Memoria principale (GB) | masterMemoryMB |
Dimensione del disco master (GB) | masterDiskGB |
Tipo di disco master | masterDiskType |
Numero di worker principali | workerNumNodes |
Numero di worker secondari | secondaryWorkerNumNodes |
Tipo di macchina worker | workerMachineType |
Core dei worker | workerCPUs |
Memoria del worker (GB) | workerMemoryMB |
Dimensioni del disco del worker (GB) | workerDiskGB |
Tipo di disco del worker | workerDiskType |
Metadati | clusterMetaData |
Tag di rete | networkTags |
Attivare l'avvio protetto | secureBootEnabled |
Attiva vTPM | vTpmEnabled |
Abilita il monitoraggio dell'integrità | integrityMonitoringEnabled |
Versione immagine | imageVersion |
URI immagine personalizzato | customImageUri |
Bucket Cloud Storage | gcsBucket |
Nome chiave di crittografia | encryptionKeyName |
Criterio di scalabilità automatica | autoScalingPolicy |
Azioni di inizializzazione | initActions |
Proprietà del cluster | clusterProperties |
Etichette | clusterLabels |
Tempo di inattività massimo | idleTTL |
Salta eliminazione cluster | skipDelete |
Abilita l'integrazione di Stackdriver Logging | stackdriverLoggingEnabled |
Attivare l'integrazione di Stackdriver Monitoring | stackdriverMonitoringEnabled |
Attiva gateway dei componenti | componentGatewayEnabled |
Preferenza IP esterno | preferExternalIP |
Crea ritardo sondaggio | pollCreateDelay |
Creare jitter del sondaggio | pollCreateJitter |
Eliminare il ritardo del sondaggio | pollDeleteDelay |
Intervallo di sondaggio | pollInterval |
Best practice
Quando crei un cluster statico per le pipeline, consulta le best practice per la configurazione dei cluster.
Passaggi successivi
- Scopri di più sulla gestione dei profili di calcolo.