Questa pagina descrive come riutilizzare i cluster Dataproc per le esecuzioni della pipeline in Cloud Data Fusion. Per maggiori informazioni, consulta Quando riutilizzare i cluster ed Eseguire una pipeline su un cluster Dataproc esistente.
Prima di iniziare
- Devi avere un'istanza di Cloud Data Fusion versione 6.5.0 o successive.
Abilita riutilizzo del cluster
Puoi riutilizzare i cluster in un nuovo profilo di computing o in uno che è stato utilizzato in una pipeline di cui è stato eseguito il deployment.
Abilita il riutilizzo del cluster in un nuovo profilo
Vai all'istanza:
Nella console Google Cloud, vai alla pagina di Cloud Data Fusion.
Per aprire l'istanza in Cloud Data Fusion Studio: Fai clic su Istanze e poi su Visualizza istanza.
Fai clic su Amministratore di sistema > Configurazione > Profili di computing del sistema.
Fai clic su Crea nuovo profilo.
Scegli il provisioner Dataproc.
Nella finestra Crea un profilo per Dataproc, inserisci i dettagli del cluster:
- Nei campi Etichetta profilo e Nome profilo, inserisci un nome per identificare il profilo, ad esempio
execution_compute-profile
. - Nel campo Descrizione, descrivi lo scopo del profilo, ad esempio
Profile used for pipeline execution
. - Nel campo Tempo di inattività massimo, inserisci un valore. Per maggiori informazioni, consulta Impostare il tempo di inattività massimo.
- Imposta il campo Ignora eliminazione cluster su
True
. Per maggiori informazioni, consulta Quando riutilizzare i cluster. - (Facoltativo) Configura altri campi facoltativi.
- Fai clic su Crea.
- Nei campi Etichetta profilo e Nome profilo, inserisci un nome per identificare il profilo, ad esempio
Abilita il riutilizzo del cluster in una pipeline di cui è stato eseguito il deployment
Vai all'istanza:
Nella console Google Cloud, vai alla pagina di Cloud Data Fusion.
Per aprire l'istanza in Cloud Data Fusion Studio: Fai clic su Istanze e poi su Visualizza istanza.
Fai clic su Elenco.
Fai clic sulla scheda Deployment e fai clic sul nome di una pipeline. La pipeline di cui hai eseguito il deployment si apre nella pagina Studio nell'interfaccia web di Cloud Data Fusion.
Fai clic su Configura.
Nella finestra Configurazione calcolo, vai al profilo scelto e fai clic su Personalizza.
Nella finestra che si apre, inserisci i seguenti valori:
- Nel campo Tempo di inattività massimo, inserisci un valore. Per maggiori informazioni, consulta Impostare il tempo di inattività massimo.
- Imposta Ignora eliminazione cluster su
True
. Per maggiori informazioni, consulta Quando riutilizzare i cluster.
Fai clic su Fine.
Passaggi successivi
- Scopri di più sulla configurazione dei cluster.
- Risolvi i problemi relativi all'eliminazione dei cluster.