Esegui una pipeline su un cluster Dataproc esistente

Questa pagina descrive come eseguire una pipeline in Cloud Data Fusion su un cluster Dataproc esistente.

Per impostazione predefinita, Cloud Data Fusion crea cluster temporanei per ogni pipeline: crea un cluster all'inizio dell'esecuzione della pipeline, poi lo elimina al termine dell'esecuzione. Anche se questo comportamento consente di risparmiare sui costi garantendo che le risorse vengano create solo quando necessario, questo comportamento predefinito potrebbe non essere appropriato nei seguenti scenari:

  • Se il tempo necessario per creare un nuovo cluster per ogni pipeline è proibitivo per il tuo caso d'uso,

  • Se la tua organizzazione richiede che la creazione del cluster sia gestita centralmente, ad esempio quando vuoi applicare determinati criteri per tutti i cluster Dataproc.

Per questi scenari, esegui invece le pipeline su un cluster esistente con i seguenti passaggi.

Prima di iniziare

È necessario quanto segue:

Connettiti al cluster esistente

In Cloud Data Fusion 6.2.1 e versioni successive, puoi connetterti a un cluster Dataproc esistente quando crei un nuovo profilo Compute Engine.

  1. Vai all'istanza:

    1. Nella console Google Cloud, vai alla pagina Cloud Data Fusion.

    2. Per aprire l'istanza nell'interfaccia web di Cloud Data Fusion, fai clic su Istanze, quindi fai clic su Visualizza istanza.

      Vai alle istanze

  2. Fai clic su Amministratore di sistema.

  3. Fai clic sulla scheda Configuration (Configurazione).

  4. Fai clic su Profili di computing del sistema.

  5. Fai clic su Crea nuovo profilo. Si apre una pagina di provisioner.

  6. Fai clic su Data Dataproc esistente.

  7. Inserisci le informazioni per profilo, cluster e monitoraggio.

  8. Fai clic su Crea.

Configura la pipeline per utilizzare il profilo personalizzato

  1. Vai all'istanza:

    1. Nella console Google Cloud, vai alla pagina Cloud Data Fusion.

    2. Per aprire l'istanza nell'interfaccia web di Cloud Data Fusion, fai clic su Istanze, quindi fai clic su Visualizza istanza.

      Vai alle istanze

  2. Vai alla pipeline nella pagina di Studio.

  3. Fai clic su Configura.

  4. Fai clic su Configurazione calcolo.

  5. Fai clic sul profilo che hai creato.

    Utilizza profilo personalizzato.
    Figura 1: fai clic sul profilo personalizzato
  6. Eseguire la pipeline. Viene eseguito sul cluster Dataproc esistente.

Passaggi successivi