Configurazione cluster

Questa pagina descrive quando utilizzare i cluster Dataproc statici in Cloud Data Fusion, le versioni compatibili e le configurazioni dei cluster consigliate.

Quando riutilizzare i cluster

A partire da Cloud Data Fusion 6.5.0, puoi riutilizzare i cluster Dataproc tra un'esecuzione e l'altra per migliorare i tempi di elaborazione. Riutili i cluster per ridurre il tempo necessario per avviare i job quando si verificano più job uno dopo l'altro. Per ulteriori informazioni, consulta la sezione Riutilizzare i cluster Dataproc.

Quando utilizzare i cluster statici

Consigliato: prova a riutilizzare i cluster per migliorare i tempi di avvio prima di provare a utilizzare i cluster statici.

Per impostazione predefinita, Cloud Data Fusion crea cluster temporanei per ogni pipeline. Crea un cluster all'inizio dell'esecuzione della pipeline, per poi eliminarlo una volta completata.

Negli scenari indicati di seguito, non utilizzare l'impostazione predefinita. Utilizza invece un cluster statico:

  • Il tempo necessario per creare un nuovo cluster per ogni pipeline è proibitivo per il tuo caso d'uso.

  • Quando la tua organizzazione richiede la gestione centrale della creazione del cluster. ad esempio se vuoi applicare determinati criteri per tutti i cluster Dataproc.

Per saperne di più, vedi Eseguire una pipeline su un cluster Dataproc esistente.

Quando utilizzare la scalabilità automatica

Consigliato: utilizza la scalabilità automatica predefinita di Cloud Data Fusion o il tuo criterio di scalabilità automatica per automatizzare la gestione delle risorse del cluster per l'elaborazione in pipeline batch.

La scalabilità automatica non è consigliata per lo scale down. Per informazioni su come ridurre i costi durante i periodi di attività ridotta, consulta i seguenti documenti:

Se utilizzi il profilo Compute predefinito per eseguire una pipeline di grandi dimensioni, potrebbe non funzionare con prestazioni ottimali. È utile anche quando non sai con certezza quali siano i requisiti appropriati per le dimensioni del cluster per la pipeline.

In Cloud Data Fusion 6.6 e versioni successive puoi utilizzare la scalabilità automatica predefinita di Cloud Data Fusion per automatizzare la gestione delle risorse del cluster. Il profilo di calcolo automatico pronto all'uso potrebbe essere sufficiente per le pipeline, ma se hai bisogno di maggiore controllo puoi definire il tuo criterio di scalabilità automatica.

In qualsiasi versione supportata, puoi creare un criterio di scalabilità automatica personalizzato per impostare il numero massimo di worker. Per ulteriori informazioni sulla creazione di un criterio di scalabilità automatica, consulta Scalabilità automatica dei cluster.

Utilizzare la scalabilità automatica predefinita in Cloud Data Fusion

Puoi utilizzare la scalabilità automatica predefinita per aumentare i nodi worker in base al carico di lavoro della pipeline in versioni 6.6 e successive. La scalabilità automatica predefinita è disponibile solo per le pipeline in modalità batch.

Opzione 1: utilizza il profilo di scalabilità automatica di Cloud Data Fusion

Nelle istanze Cloud Data Fusion in esecuzione nella versione 6.6 e successive, la tua istanza ha un profilo chiamato Autoscaling Dataproc, che è un profilo Dataproc pronto all'uso in cui la scalabilità automatica predefinita è già abilitata. Autoscaling Dataproc è simile al profilo precreato nell'opzione 3, tranne che per il tipo di macchina worker n2.

  1. In Google Cloud Console, vai alla pagina Istanze di Cloud Data Fusion.
  2. Fai clic su Visualizza istanza per aprire un'istanza nell'interfaccia utente di Cloud Data Fusion.
  3. Vai alla pagina della pipeline di cui hai eseguito il deployment facendo clic su Elenco > Deployment eseguito.
  4. Fai clic su Configura > Compute.
  5. Seleziona il profilo Autoscaling Dataproc.

Opzione 2: abilita un criterio di scalabilità automatica predefinito personalizzando un profilo

Per attivare la scalabilità automatica predefinita nel profilo predefinito:

  1. In Google Cloud Console, vai alla pagina Istanze di Cloud Data Fusion.
  2. Fai clic su Visualizza istanza per aprire un'istanza nell'interfaccia utente di Cloud Data Fusion.
  3. Vai alla pagina della pipeline di cui hai eseguito il deployment facendo clic su Elenco > Deployment eseguito.
  4. Fai clic su Configura.
  5. Fai clic su Personalizza nel profilo che preferisci.
  6. Espandi la sezione Numero di worker del cluster.
  7. Fai clic sul pulsante di attivazione/disattivazione Utilizza scalabilità automatica predefinita.
  8. Fai clic su Fine e Salva.

Alla prossima esecuzione della pipeline, il job Dataproc utilizzerà il criterio di scalabilità automatica predefinito di Cloud Data Fusion.

Quando attivi la scalabilità automatica predefinita:

  • Le proprietà Number of primary workers, Number of secondary workers e Autoscaling policy non sono considerate.
  • La configurazione e il tipo di macchina worker sono gli stessi del profilo selezionato.
  • La disattivazione del pulsante di attivazione/disattivazione Utilizza scalabilità automatica predefinita disattiva la scalabilità automatica predefinita e poi esegue il comportamento originale del profilo.

Argomento runtime:

Il comportamento descritto può essere ottenuto inserendo la chiave e il valore seguenti negli argomenti di runtime:

system.profile.properties.enablePredefinedAutoScaling = true

Opzione 3: attiva un criterio di scalabilità automatica predefinito in un nuovo profilo di calcolo

Puoi fare clic sul pulsante di attivazione/disattivazione Utilizza scalabilità automatica predefinita quando crei un nuovo profilo provisioner Dataproc. Puoi quindi utilizzare questo profilo in diverse pipeline e avere un maggiore controllo sul tipo di macchina del worker e su altre proprietà.

  1. In Google Cloud Console, vai alla pagina Istanze di Cloud Data Fusion.
  2. Fai clic su Visualizza istanza per aprire un'istanza nell'interfaccia utente di Cloud Data Fusion.
  3. Puoi creare il profilo dall'ambito del sistema o dall'ambito utente:

    1. (Facoltativo) Per l'ambito del sistema: fai clic su Amministratore di sistema > Configurazione > Profili Compute di sistema > Crea nuovo profilo.
    2. (Facoltativo) Per l'ambito utente: fai clic su Menu > Spazio dei nomi Amministratore > Crea profilo.

    Si apre una pagina di provisioner.

  4. Fai clic su Dataproc.

  5. Espandi la sezione Numero di worker del cluster.

  6. Fai clic sul pulsante di attivazione/disattivazione Utilizza scalabilità automatica predefinita.

  7. Inserisci gli altri dettagli e fai clic su Crea.

Per applicare questo profilo alla tua pipeline, apri la pipeline nella pagina Studio, fai clic su Configura > Compute e seleziona il profilo. Puoi impostare il profilo come predefinito.

Ulteriori dettagli

Nella pagina Configurazione Compute, dove puoi visualizzare un elenco dei profili, è presente una colonna Core totali che contiene il numero massimo di vCPU a cui è possibile fare lo scale up del profilo, ad esempio Up to 84.

Compatibilità della versione

Problema: la versione del tuo ambiente Cloud Data Fusion potrebbe non essere compatibile con la versione del tuo cluster Dataproc.

Consigliato: esegui l'upgrade alla versione più recente di Cloud Data Fusion e utilizza una delle versioni Dataproc supportate.

Le versioni precedenti di Cloud Data Fusion sono compatibili solo con le versioni di Dataproc non supportate. Dataproc non fornisce aggiornamenti e supporto per i cluster creati con queste versioni. Anche se puoi continuare a eseguire un cluster creato con una versione non supportata, ti consigliamo di sostituirla con una creata con una versione supportata.

Versione Cloud Data Fusion Versione Dataproc
6,7 2,0, 1,5*
6,4-6,6 2,0 *, 1,3 **
6,1-6,3 1,3**

* Cloud Data Fusion versioni 6.4 e successive sono compatibili con le versioni supportate di Dataproc. A meno che non siano necessarie funzionalità specifiche del sistema operativo, la prassi consigliata è specificare la versione dell'immagine major.minor.

** Le versioni di Cloud Data Fusion da 6.1 a 6.6 sono compatibili con la versione 1.3 di Dataproc non supportata.

Best practice

Configurazioni

Consigliato: quando crei un cluster statico per le pipeline, utilizza le seguenti configurazioni.

Parametri
yarn.nodemanager.delete.debug-delay-sec Conserva i log YARN.
Valore consigliato: 86400 (equivalente a un giorno)
yarn.nodemanager.pmem-check-enabled Consente a YARN di controllare i limiti della memoria fisica e di terminare i container se superano la memoria fisica.
Valore consigliato: false
yarn.nodemanager.vmem-check-enabled Consente a YARN di verificare i limiti della memoria virtuale e di terminare i container se vanno oltre la memoria fisica.
Valore consigliato: false.