Riutilizzare i cluster

Questa pagina descrive come riutilizzare i cluster Dataproc per le esecuzioni della pipeline in Cloud Data Fusion. Per ulteriori informazioni, consulta Quando riutilizzare i cluster e Eseguire una pipeline su un cluster Dataproc esistente.

Prima di iniziare

  • Devi disporre di un'istanza Cloud Data Fusion nella versione 6.5.0 o successive.

Abilita il riutilizzo del cluster

Puoi riutilizzare i cluster in un nuovo profilo di calcolo o in uno che è stato utilizzato in una pipeline di cui è stato eseguito il deployment.

Abilita il riutilizzo del cluster in un nuovo profilo

  1. Vai all'istanza:

    1. Nella console Google Cloud, vai alla pagina Cloud Data Fusion.

    2. Per aprire l'istanza in Cloud Data Fusion Studio, fai clic su Istanze e poi su Visualizza istanza.

      Vai a Istanze

  2. Fai clic su Amministrazione di sistema > Configurazione > Profili di calcolo del sistema.

  3. Fai clic su Crea nuovo profilo.

  4. Scegli il provisioning di Dataproc.

  5. Nella finestra Crea un profilo per Dataproc, inserisci i dettagli del cluster:

    1. Nei campi Etichetta profilo e Nome profilo, inserisci un nome per identificare il profilo, ad esempio execution_compute-profile.
    2. Nel campo Descrizione, descrivi lo scopo del profilo, ad esempio Profile used for pipeline execution.
    3. Nel campo Tempo di inattività massimo, inserisci un valore. Per ulteriori informazioni, consulta Impostare il tempo di inattività massimo.
    4. Imposta il campo Salta eliminazione cluster su True. Per ulteriori informazioni, consulta Quando riutilizzare i cluster.
    5. (Facoltativo) Configura altri campi facoltativi.
    6. Fai clic su Crea.

Consentire il riutilizzo del cluster in una pipeline di cui è stato eseguito il deployment

  1. Vai all'istanza:

    1. Nella console Google Cloud, vai alla pagina Cloud Data Fusion.

    2. Per aprire l'istanza in Cloud Data Fusion Studio, fai clic su Istanze e poi su Visualizza istanza.

      Vai a Istanze

  2. Fai clic su Elenco.

  3. Fai clic sulla scheda Eseguito il deployment e poi sul nome di una pipeline. La pipeline di cui è stato eseguito il deployment si apre nella pagina Studio dell'interfaccia web di Cloud Data Fusion.

  4. Fai clic su Configura.

  5. Nella finestra Configurazione di calcolo, vai al profilo scelto e fai clic su Personalizza.

  6. Nella finestra che si apre, inserisci i seguenti valori:

    1. Nel campo Tempo di inattività massimo, inserisci un valore. Per ulteriori informazioni, consulta Impostare il tempo di inattività massimo.
    2. Imposta Salta l'eliminazione del cluster su True. Per ulteriori informazioni, consulta Quando riutilizzare i cluster.
  7. Fai clic su Fine.

Passaggi successivi