Orchestrare le pipeline

Questa pagina spiega l'orchestrazione delle pipeline con Cloud Composer e trigger. Cloud Data Fusion consiglia di utilizzare Cloud Composer per per l'orchestrazione delle pipeline. Se hai bisogno di un modo più semplice per gestire l'orchestrazione, utilizza gli attivatori.

Composer

Orchestrare le pipeline con Cloud Composer

L'orchestrazione dell'esecuzione della pipeline in Cloud Data Fusion con Cloud Composer offre i seguenti vantaggi:

  • Gestione centralizzata del flusso di lavoro: gestisci in modo uniforme l'esecuzione di più pipeline Cloud Data Fusion.
  • Gestione delle dipendenze: per garantire l'ordine di esecuzione corretto, definisci le dipendenze tra le pipeline.
  • Monitoraggio e avvisi: Cloud Composer offre funzionalità di monitoraggio e avvisi per gli errori.
  • Integrazione con altri servizi: Cloud Composer consente di orchestrare flussi di lavoro che si estendono a Cloud Data Fusion e ad altri servizi Google Cloud.

Per orchestrare le pipeline di Cloud Data Fusion utilizzando Cloud Composer, segui questa procedura:

  1. Configura l'ambiente Cloud Composer.

    • Crea un ambiente Cloud Composer. Se non ne hai uno, esegui il provisioning dell'ambiente nel tuo progetto Google Cloud. Questo ambiente è l'area di lavoro di orchestrazione.
    • Concedi le autorizzazioni. Assicurati che l'account di servizio Cloud Composer disponga delle autorizzazioni necessarie per accedere a Cloud Data Fusion (ad esempio l'autorizzazione per avviare, interrompere ed elencare le pipeline).
  2. Definire i grafi diretti aciclici (DAG, Directed Acyclic Graph) per l'orchestrazione.

    • Crea un DAG: in Cloud Composer, crea un DAG che definisce il flusso di lavoro di orchestrazione per le pipeline Cloud Data Fusion.
    • Operatori Cloud Data Fusion: utilizza gli operatori Cloud Data Fusion di Cloud Composer all'interno del tuo DAG. Questi operatori consentono di interagire in modo programmatico con Cloud Data Fusion.

Operatori Cloud Data Fusion

L'orchestrazione delle pipeline di Cloud Data Fusion ha i seguenti operatori:

CloudDataFusionStartPipelineOperator

Attiva l'esecuzione di una pipeline Cloud Data Fusion in base al relativo ID. Ha i seguenti parametri:

  • ID pipeline
  • Posizione (regione Google Cloud)
  • Spazio dei nomi della pipeline
  • Argomenti di runtime (facoltativi)
  • (Facoltativo) Attendi il completamento
  • Timeout (facoltativo)
CloudDataFusionStopPipelineOperator

Consente di arrestare una pipeline Cloud Data Fusion in esecuzione.

CloudDataFusionDeletePipelineOperator

Consente di eliminare una pipeline Cloud Data Fusion.

Crea il flusso di lavoro dei DAG

Quando crei il flusso di lavoro DAG, considera quanto segue:

  • Definizione delle dipendenze: utilizza la struttura DAG per definire le dipendenze tra le attività. Ad esempio, potresti avere un'attività che attende il completamento di una pipeline in uno spazio dei nomi prima di attivarne un'altra in uno spazio dei nomi diverso.
  • Pianificazione: pianifica l'esecuzione del DAG a intervalli specifici, ad esempio giornaliera o oraria oppure impostarne l'attivazione manuale.

Per ulteriori informazioni, consulta Panoramica di Cloud Composer.

Trigger

Orchestrare le pipeline con trigger

Gli attivatori Cloud Data Fusion ti consentono di eseguire automaticamente una pipeline a valle al termine (successo, errore o qualsiasi condizione specificata) di una o più pipeline a monte.

Gli attivatori sono utili per le seguenti attività:

  • Pulire i dati una volta e renderli disponibili a più le pipeline downstream per il consumo.
  • Condivisione di informazioni, ad esempio argomenti di runtime e configurazioni dei plug-in, tra le pipeline. Questa attività è chiamata payload configurazione.
  • Avere un insieme di pipeline dinamiche che vengono eseguite utilizzando i dati dell'ora, del giorno, della settimana o del mese, anziché una pipeline statica che deve essere aggiornata per ogni esecuzione.

Ad esempio, hai un set di dati che contiene tutte le informazioni spedizioni aziendali. In base a questi dati, vuoi rispondere a diverse attività domande. A tale scopo, crea una pipeline che pulisca i dati non elaborati sulle spedizioni, denominata Shipments Data Cleaning (Pulizia dei dati sulle spedizioni). Poi crei una seconda pipeline, Spedizioni in ritardo negli Stati Uniti, che legge i dati ripuliti e trova le spedizioni all'interno degli Stati Uniti che hanno subito un ritardo superiore a una soglia specificata. La pipeline Spedizioni in ritardo negli Stati Uniti può essere attivata non appena la pipeline Pulizia dei dati sulle spedizioni a monte viene completata correttamente.

Inoltre, poiché la pipeline a valle utilizza l'output della pipeline a monte, devi specificare che, quando viene eseguita utilizzando questo attivatore, riceve anche la directory di input da leggere (ovvero la directory in cui la pipeline a monte ha generato il proprio output). Questo di elaborazione è chiamato passaggio configurazione del payload, che definisci con di runtime. Ti permette di avere un insieme di pipeline dinamiche utilizzando i dati dell'ora, del giorno, della settimana o del mese (non una pipeline statica, che deve essere aggiornato a ogni esecuzione).

Per orchestrare le pipeline con i trigger, segui questo processo:

  1. Crea pipeline a monte e a valle.

    • In Cloud Data Fusion Studio, progetta e esegui il deployment delle pipeline che formano la catena di orchestrazione.
    • Valuta il completamento della pipeline che attiverà la pipeline successiva (a valle) nel flusso di lavoro.
  2. (Facoltativo) Passa gli argomenti di runtime per le pipeline a monte.

  3. Crea un trigger in entrata nella pipeline a valle.

    • In Cloud Data Fusion Studio, vai alla pagina Elenco. Nella scheda Eseguito, fai clic sul nome della pipeline a valle. La Viene visualizzata la vista Esegui il deployment per quella pipeline.
    • Al centro a sinistra della pagina, fai clic su Attivatori in entrata. Viene visualizzato un elenco di pipeline disponibili.
    • Fai clic sulla pipeline upstream. Seleziona uno o più upstream stati di completamento della pipeline (Riuscito, Non riuscito o Arresta) come condizione per l'esecuzione della pipeline downstream.
    • Se vuoi che la pipeline a monte condivida informazioni (chiamate configurazione del payload) con la pipeline a valle, fai clic su Configurazione trigger e poi segui i passaggi per trasmettere la configurazione del payload come argomenti di runtime. In caso contrario, fai clic su Abilita trigger.
  4. Testa il trigger.

    • Avvia un'esecuzione della pipeline a monte.
    • Se il trigger è configurato correttamente, la pipeline downstream viene eseguita automaticamente al completamento delle pipeline upstream, in base alla condizione configurata.

Trasmettere la configurazione del payload come argomenti di runtime

La configurazione del payload consente di condividere informazioni dalla pipeline di upstream alla pipeline di downstream. Queste informazioni possono essere, ad esempio, la directory di output, il formato dei dati o il giorno in cui è stata eseguita la pipeline. Queste informazioni vengono poi utilizzate dalla pipeline a valle per decisioni quali la determinazione del set di dati corretto da leggere.

Per trasmettere le informazioni dalla pipeline a monte a quella a valle, imposta gli argomenti di runtime della pipeline a valle con i valori degli argomenti di runtime o della configurazione di qualsiasi plug-in nella pipeline a monte.

Ogni volta che la pipeline downstream si attiva ed esegue, il suo payload viene impostata utilizzando gli argomenti di runtime dell'esecuzione specifica la pipeline upstream che ha attivato la pipeline downstream.

Per passare la configurazione del payload come argomenti di runtime, segui questi passaggi:

  1. Riprendi da dove avevi interrotto nella sezione Creazione di un trigger in entrata. Dopo aver fatto clic su Configurazione trigger, verranno visualizzati tutti gli argomenti di runtime che hai impostato in precedenza per la pipeline a monte. Scegli il tipo gli argomenti di runtime da passare dalla pipeline upstream downstream quando viene eseguito questo trigger.
  2. Fai clic sulla scheda Configurazione plug-in per visualizzare un elenco di ciò che verrà trasmesso dalla pipeline a monte alla pipeline a valle quando viene attivata.
  3. Fai clic su Configura e abilita l'attivatore.