Questa pagina è stata tradotta dall'API Cloud Translation.

Proprietà del provisioning di Dataproc

Il provisioning di Dataproc in Cloud Data Fusion chiama l'API Dataproc per creare ed eliminare i cluster nei tuoi Google Cloud progetti. Puoi configurare i cluster nelle impostazioni del provisioning.

Per ulteriori informazioni sulla compatibilità tra le versioni di Cloud Data Fusion e le versioni di Dataproc, consulta Compatibilità delle versioni.

Proprietà

Proprietà	Descrizione
ID progetto	Il Google Cloud progetto in cui viene creato il cluster Dataproc. L'API Dataproc deve essere attivata nel progetto.
Chiave dell'account di servizio del creator	La chiave dell'account di servizio fornita al provisioning deve avere l'autorizzazione per accedere alle API Dataproc e Compute Engine. Poiché la chiave dell'account è sensibile, ti consigliamo di fornirla utilizzando lo spazio di archiviazione protetto. Dopo aver creato la chiave sicura, puoi aggiungerla a uno spazio dei nomi o a un profilo di calcolo di sistema. Per un profilo di calcolo dello spazio dei nomi, fai clic sul scudo e seleziona la chiave sicura. Per un profilo di calcolo di sistema, inserisci il nome della chiave nel campo Chiave account sicura.
Regione	Una località geografica in cui puoi ospitare le tue risorse, ad esempio i nodi di calcolo per il cluster Dataproc.
Zona	Un'area di deployment isolata all'interno di una regione.
Rete	La rete VPC nel tuo Google Cloud progetto che verrà utilizzata durante la creazione di un cluster Dataproc.
ID progetto host della rete	Se la rete risiede in un altro Google Cloud progetto, inserisci l'ID del progetto. Per un VPC condiviso, inserisci l'ID progetto host in cui risiede la rete.
Subnet	La subnet da utilizzare per la creazione dei cluster. Deve trovarsi all'interno della rete e della regione in cui si trova la zona. Se viene lasciato vuoto, viene selezionata una subnet in base alla rete e alla zona.
Account di servizio Runner	Il nome dell'account di servizio delle macchine virtuali (VM) Dataproc utilizzate per l'esecuzione dei programmi. Se non viene specificato, verrà utilizzato il service account Compute Engine predefinito.
Numero di master	Il numero di nodi master nel cluster. Questi nodi contengono il Resource Manager YARN, NameNode HDFS e tutti i driver. Deve essere impostato su 1 o 3. Il valore predefinito è 1.
Tipo di macchina principale	Il tipo di macchina master da utilizzare. Seleziona uno dei seguenti tipi di macchine: n1 n2 n2d e2 In Cloud Data Fusion 6.7.2 e versioni successive, il valore predefinito è e2. Nella versione 6.7.1, il valore predefinito è n2. Nella versione 6.7.0 e precedenti, il valore predefinito è n1.
Core master	Numero di core virtuali allocati a un nodo principale. Il valore predefinito è 2.
Memoria principale (GB)	La quantità di memoria, in gigabyte, allocata a un nodo master. Il valore predefinito è 8 GB.
Dimensioni del disco principale (GB)	Dimensioni del disco, in gigabyte, allocate a un nodo principale. Il valore predefinito è 1000 GB.
Tipo di disco principale	Tipo di disco di avvio per un nodo principale: Disco permanente standard Disco permanente SSD Il valore predefinito è Disco permanente standard.
Tipo di macchina worker	Il tipo di macchina worker da utilizzare. Seleziona uno dei seguenti tipi di macchine: n1 n2 n2d e2 In Cloud Data Fusion 6.7.2 e versioni successive, il valore predefinito è e2. Nella versione 6.7.1, il valore predefinito è n2. Nella versione 6.7.0 e precedenti, il valore predefinito è n1.
Core dei worker	Numero di core virtuali allocati a un nodo worker. Il valore predefinito è 2.
Memoria del worker (GB)	La quantità di memoria, in gigabyte, allocata a un nodo worker. Il valore predefinito è 8 GB.
Dimensioni del disco del worker (GB)	Dimensioni del disco, in gigabyte, allocate a un nodo worker. Il valore predefinito è 1000 GB.
Tipo di disco del worker	Tipo di disco di avvio per un nodo worker: Disco permanente standard Disco permanente SSD Il valore predefinito è Disco permanente standard.
Utilizzare la scalabilità automatica predefinita	Consente di utilizzare la scalabilità automatica Dataproc predefinita.
Numero di worker principali	I nodi worker contengono un NodeManager YARN e un DataNode HDFS. Il valore predefinito è 2.
Numero di worker secondari	I nodi worker secondari contengono un NodeManager YARN, ma non un DataNode HDFS. In genere è impostato su zero, a meno che un criterio di scalabilità automatica non ne richieda uno più elevato.
Criterio di scalabilità automatica	Percorso per l'ID del criterio di scalabilità automatica o per l'URI della risorsa. Per informazioni su come configurare e utilizzare la scalabilità automatica di Dataproc per ridimensionare automaticamente e dinamicamente i cluster in base alle richieste dei carichi di lavoro, consulta Quando utilizzare la scalabilità automatica e Scalabilità automatica dei cluster Dataproc.
Metadati	Metadati aggiuntivi per le istanze in esecuzione nel cluster. In genere, puoi usarlo per monitorare la fatturazione e gli storni di addebito. Per ulteriori informazioni, consulta la sezione Metadati del cluster.
Tag di rete	Assegna tag di rete per applicare regole firewall ai nodi specifici di un cluster. I tag di rete devono iniziare con una lettera minuscola e possono contenere lettere minuscole, numeri e trattini. I tag devono terminare con una lettera minuscola o un numero.
Attivare l'avvio protetto	Abilita l'avvio protetto sulle VM Dataproc. Il valore predefinito è False.
Attiva vTPM	Consente di attivare il Trusted Platform Module virtuale (vTPM) sulle VM Dataproc. Il valore predefinito è False.
Abilita il monitoraggio dell'integrità	Consente il monitoraggio dell'integrità virtuale sulle VM Dataproc. Il valore predefinito è False.
Versione immagine	La versione dell'immagine Dataproc. Se viene lasciato vuoto, ne viene selezionata una automaticamente. Se la proprietà URI immagine personalizzata viene lasciata vuota, questa proprietà viene ignorata.
URI immagine personalizzato	L'URI dell'immagine Dataproc. Se lasciato vuoto, viene dedotto dalla proprietà Versione immagine.
Bucket di gestione temporanea	Bucket Cloud Storage utilizzato per eseguire il commit delle dipendenze dei job e dei file di configurazione per l'esecuzione delle pipeline in Dataproc.
Bucket temporaneo	Bucket Cloud Storage utilizzato per archiviare i dati temporanei dei cluster e dei job, ad esempio i file di cronologia Spark in Dataproc. Questa proprietà è stata introdotta nella versione 6.9.2 di Cloud Data Fusion.
Nome della chiave di crittografia	La chiave di crittografia gestita dal cliente (CMEK) utilizzata da Dataproc.
Ambiti OAuth	Gli ambiti OAuth 2.0 che potresti dover richiedere per accedere alle API di Google, a seconda del livello di accesso di cui hai bisogno. Google Cloud Ambito della piattaforma è sempre incluso. Questa proprietà è stata introdotta nella versione 6.9.2 di Cloud Data Fusion.
Azioni di inizializzazione	Un elenco di script da eseguire durante l'inizializzazione del cluster Le azioni di inizializzazione devono essere posizionate su Cloud Storage.
Proprietà del cluster	Proprietà del cluster che sostituiscono le proprietà di configurazione predefinite dei servizi Hadoop. Per ulteriori informazioni sulle coppie chiave-valore applicabili, consulta Proprietà del cluster.
Etichette comuni	Etichette per organizzare i cluster e i job Dataproc in fase di creazione. Puoi etichettare ogni risorsa e filtrarle in base alle etichette. Le informazioni relative alle etichette vengono inoltrate al sistema di fatturazione, per consentire ai clienti di suddividere gli addebiti in base all'etichetta.
Tempo massimo di inattività	Configura Dataproc in modo da eliminare un cluster se è inattivo per più del numero di minuti specificato. In genere i cluster vengono eliminati direttamente al termine di un'esecuzione, ma in rare situazioni l'eliminazione può non riuscire. Per maggiori informazioni, consulta la sezione Risolvere i problemi relativi all'eliminazione dei cluster. Il valore predefinito è 30 minuti.
Ignora l'eliminazione del cluster	Indica se saltare l'eliminazione del cluster al termine di un'esecuzione. Devi eliminare manualmente i cluster. Questo parametro deve essere utilizzato solo per il debug di un'esecuzione non riuscita. Il valore predefinito è False.
Attivare l'integrazione di Stackdriver Logging	Attiva l'integrazione di Stackdriver Logging. Il valore predefinito è True.
Attivare l'integrazione di Stackdriver Monitoring	Attiva l'integrazione di Stackdriver Monitoring. Il valore predefinito è True.
Attivare Gateway dei componenti	Consenti al gateway dei componenti di accedere alle interfacce del cluster, come YARN ResourceManager e Spark HistoryServer. Il valore predefinito è False.
Preferisci l'IP esterno	Quando il sistema è in esecuzione Google Cloud nella stessa rete del cluster, in genere utilizza l'indirizzo IP interno quando comunica con il cluster. Per utilizzare sempre l'indirizzo IP esterno, imposta questo valore su True. Il valore predefinito è False.
Creare un ritardo del sondaggio	Il numero di secondi di attesa dopo la creazione di un cluster per iniziare il polling per verificare se il cluster è stato creato. Il valore predefinito è 60 secondi. Le impostazioni di polling controllano la frequenza con cui viene eseguito il polling dello stato del cluster durante la creazione e l'eliminazione dei cluster. Se hai pianificato l'esecuzione di molte pipeline contemporaneamente, ti consigliamo di modificare queste impostazioni.
Creare jitter del sondaggio	Quantità massima di jitter casuale, in secondi, da aggiungere al ritardo durante la creazione di un cluster. Puoi utilizzare questa proprietà per impedire molte chiamate API simultanee in Google Cloud quando hai molte pipeline pianificate per l'esecuzione nello stesso momento esatto. Il valore predefinito è 20 secondi.
Eliminare il ritardo del sondaggio	Il numero di secondi di attesa dopo l'eliminazione di un cluster per iniziare il polling per verificare se il cluster è stato eliminato. Il valore predefinito è 30 secondi.
Intervallo di polling	Il numero di secondi di attesa tra i poll per lo stato del cluster. Il valore predefinito è 2.

Proprietà dell'interfaccia web del profilo Dataproc mappate alle proprietà JSON

Nome della proprietà dell'interfaccia utente del profilo Dataproc	Nome della proprietà JSON del profilo Dataproc
Etichetta del profilo	`name`
Nome del profilo	`label`
Descrizione	`description`
ID progetto	`projectId`
Chiave dell'account di servizio del creator	`accountKey`
Regione	`region`
Zona	`zone`
Rete	`network`
ID progetto host della rete	`networkHostProjectId`
Subnet	`subnet`
Account di servizio Runner	`serviceAccount`
Numero di master	`masterNumNodes`
Tipo di macchina principale	`masterMachineType`
Core master	`masterCPUs`
Memoria principale (GB)	`masterMemoryMB`
Dimensioni del disco principale (GB)	`masterDiskGB`
Tipo di disco principale	`masterDiskType`
Numero di worker principali	`workerNumNodes`
Numero di worker secondari	`secondaryWorkerNumNodes`
Tipo di macchina worker	`workerMachineType`
Core dei worker	`workerCPUs`
Memoria del worker (GB)	`workerMemoryMB`
Dimensioni del disco del worker (GB)	`workerDiskGB`
Tipo di disco del worker	`workerDiskType`
Metadati	`clusterMetaData`
Tag di rete	`networkTags`
Attivare l'avvio protetto	`secureBootEnabled`
Attiva vTPM	`vTpmEnabled`
Abilita il monitoraggio dell'integrità	`integrityMonitoringEnabled`
Versione immagine	`imageVersion`
URI immagine personalizzato	`customImageUri`
Bucket Cloud Storage	`gcsBucket`
Nome della chiave di crittografia	`encryptionKeyName`
Criterio di scalabilità automatica	`autoScalingPolicy`
Azioni di inizializzazione	`initActions`
Proprietà del cluster	`clusterProperties`
Etichette	`clusterLabels`
Tempo massimo di inattività	`idleTTL`
Ignora l'eliminazione del cluster	`skipDelete`
Attivare l'integrazione di Stackdriver Logging	`stackdriverLoggingEnabled`
Attivare l'integrazione di Stackdriver Monitoring	`stackdriverMonitoringEnabled`
Attivare Gateway dei componenti	`componentGatewayEnabled`
Preferisci IP esterno	`preferExternalIP`
Creare un ritardo del sondaggio	`pollCreateDelay`
Creare jitter del sondaggio	`pollCreateJitter`
Eliminare il ritardo del sondaggio	`pollDeleteDelay`
Intervallo di polling	`pollInterval`

Best practice

Quando crei un cluster statico per le pipeline, consulta le best practice per la configurazione dei cluster.

Passaggi successivi

Scopri di più sulla gestione dei profili di calcolo.