Orchestrare le pipeline

Questa pagina spiega l'orchestrazione delle pipeline con Cloud Composer e gli attivatori. Cloud Data Fusion consiglia di utilizzare Cloud Composer per orchestrare le pipeline. Se hai bisogno di un modo più semplice per gestire l'orchestrazione, utilizza gli attivatori.

Composer

Orchestrare le pipeline con Cloud Composer

L'orchestrazione dell'esecuzione della pipeline in Cloud Data Fusion con Cloud Composer offre i seguenti vantaggi:

  • Gestione centralizzata del flusso di lavoro:gestisci in modo uniforme l'esecuzione di più pipeline Cloud Data Fusion.
  • Gestione delle dipendenze:per garantire l'ordine di esecuzione corretto, definisci le dipendenze tra le pipeline.
  • Monitoraggio e avvisi:Cloud Composer offre funzionalità di monitoraggio e avvisi per gli errori.
  • Integrazione con altri servizi:Cloud Composer consente di orchestrare flussi di lavoro che si estendono a Cloud Data Fusion e ad altri servizi Google Cloud.

Per orchestrare le pipeline Cloud Data Fusion utilizzando Cloud Composer, segui questa procedura:

  1. Configura l'ambiente Cloud Composer.

    • Crea un ambiente Cloud Composer. Se non ne hai uno, esegui il provisioning dell'ambiente nel tuo progetto Google Cloud. Questo ambiente è la tua area di lavoro di orchestrazione.
    • Concedi le autorizzazioni. Assicurati che l'account di servizio Cloud Composer disponga delle autorizzazioni necessarie per accedere a Cloud Data Fusion (ad esempio l'autorizzazione per avviare, interrompere ed elencare le pipeline).
  2. Definisci i grafici diretti aciclici (DAG) per l'orchestrazione.

    • Crea un DAG:in Cloud Composer, crea un DAG che definisce il flusso di lavoro di orchestrazione per le pipeline Cloud Data Fusion.
    • Operatori Cloud Data Fusion:utilizza gli operatori Cloud Data Fusion di Cloud Composer all'interno del tuo DAG. Questi operatori ti consentono di interagire in modo programmatico con Cloud Data Fusion.

Operatori Cloud Data Fusion

L'orchestrazione delle pipeline di Cloud Data Fusion dispone dei seguenti operatori:

CloudDataFusionStartPipelineOperator

Attiva l'esecuzione di una pipeline Cloud Data Fusion in base al relativo ID. Ha i seguenti parametri:

  • ID pipeline
  • Posizione (regione Google Cloud)
  • Spazio dei nomi della pipeline
  • (Facoltativo) Argomenti di runtime
  • (Facoltativo) Attendi il completamento
  • Timeout (facoltativo)
CloudDataFusionStopPipelineOperator

Ti consente di interrompere una pipeline Cloud Data Fusion in esecuzione.

CloudDataFusionDeletePipelineOperator

Consente di eliminare una pipeline Cloud Data Fusion.

Crea il flusso di lavoro DAG

Quando crei il flusso di lavoro DAG, considera quanto segue:

  • Definizione delle dipendenze:utilizza la struttura DAG per definire le dipendenze tra le attività. Ad esempio, potresti avere un'attività che attende il completamento di una pipeline in uno spazio dei nomi prima di attivarne un'altra in uno spazio dei nomi diverso.
  • Pianificazione:pianifica l'esecuzione del DAG a intervalli specifici, ad esempio giornalieri o ogni ora, oppure impostalo in modo che venga attivato manualmente.

Per ulteriori informazioni, consulta la panoramica di Cloud Composer.

Trigger

Orchestrare le pipeline con gli attivatori

Gli attivatori Cloud Data Fusion ti consentono di eseguire automaticamente una pipeline a valle al termine (successo, errore o qualsiasi condizione specificata) di una o più pipeline a monte.

Gli attivatori sono utili per le seguenti attività:

  • Pulisci i dati una volta e poi mettili a disposizione di più pipeline a valle per il consumo.
  • Condivisione di informazioni, ad esempio argomenti di runtime e configurazioni dei plug-in, tra le pipeline. Questa attività è chiamata configurazione del payload.
  • Avere un insieme di pipeline dinamiche che vengono eseguite utilizzando i dati dell'ora, del giorno, della settimana o del mese, anziché una pipeline statica che deve essere aggiornata per ogni esecuzione.

Ad esempio, hai un set di dati che contiene tutte le informazioni sulle spedizioni della tua azienda. In base a questi dati, vuoi rispondere a diverse domande sulla tua attività. A tale scopo, crea una pipeline che pulisca i dati non elaborati sulle spedizioni, denominata Shipments Data Cleaning (Pulizia dei dati sulle spedizioni). Poi crei una seconda pipeline, Spedizioni in ritardo negli Stati Uniti, che legge i dati ripuliti e trova le spedizioni all'interno degli Stati Uniti che hanno subito ritardi superiori a una specificata soglia. La pipeline Spedizioni in ritardo negli Stati Uniti può essere attivata non appena la pipeline Pulizia dei dati sulle spedizioni a monte viene completata correttamente.

Inoltre, poiché la pipeline a valle utilizza l'output della pipeline a monte, devi specificare che, quando viene eseguita utilizzando questo attivatore, riceve anche la directory di input da leggere (ovvero la directory in cui la pipeline a monte ha generato il proprio output). Questo processo è chiamato passaggio della configurazione del payload e viene definito con gli argomenti di runtime. Ti consente di avere un insieme di pipeline dinamiche che vengono eseguite utilizzando i dati dell'ora, del giorno, della settimana o del mese (non una pipeline statica, che deve essere aggiornata per ogni esecuzione).

Per orchestrare le pipeline con gli attivatori, segui questa procedura:

  1. Crea pipeline a monte e a valle.

    • In Cloud Data Fusion Studio, progetta e esegui il deployment delle pipeline che formano la catena di orchestrazione.
    • Valuta il completamento della pipeline che attiverà la pipeline successiva (a valle) nel flusso di lavoro.
  2. (Facoltativo) Passa gli argomenti di runtime per le pipeline a monte.

  3. Crea un trigger in entrata nella pipeline a valle.

    • In Studio di Cloud Data Fusion, vai alla pagina Elenco. Nella scheda Eseguito, fai clic sul nome della pipeline a valle. Viene visualizzata la visualizzazione di Deployment per la pipeline.
    • Nella parte centrale sinistra della pagina, fai clic su Attivatori in entrata. Viene visualizzato un elenco di pipeline disponibili.
    • Fai clic sulla pipeline a monte. Seleziona uno o più stati di completamento della pipeline a monte (Succeeds, Fails o Stops) come condizione per l'esecuzione della pipeline a valle.
    • Se vuoi che la pipeline a monte condivida informazioni (chiamate configurazione del payload) con la pipeline a valle, fai clic su Configurazione trigger e poi segui i passaggi per trasmettere la configurazione del payload come argomenti di runtime. In caso contrario, fai clic su Attiva trigger.
  4. Testa l'attivatore.

    • Avvia un'esecuzione della pipeline a monte.
    • Se l'attivatore è configurato correttamente, la pipeline a valle viene eseguita automaticamente al termine delle pipeline a monte, in base alla condizione configurata.

Passare la configurazione del payload come argomenti di runtime

La configurazione del payload consente di condividere informazioni dalla pipeline di upstream alla pipeline di downstream. Queste informazioni possono essere, ad esempio, la directory di output, il formato dei dati o il giorno in cui è stata eseguita la pipeline. Queste informazioni vengono poi utilizzate dalla pipeline a valle per decisioni quali la determinazione del set di dati corretto da leggere.

Per trasmettere le informazioni dalla pipeline a monte a quella a valle, imposta gli argomenti di runtime della pipeline a valle con i valori degli argomenti di runtime o della configurazione di qualsiasi plug-in nella pipeline a monte.

Ogni volta che la pipeline a valle viene attivata ed eseguita, la configurazione del suo payload viene impostata utilizzando gli argomenti di runtime della determinata esecuzione della pipeline a monte che ha attivato la pipeline a valle.

Per passare la configurazione del payload come argomenti di runtime:

  1. Riprendi da dove avevi interrotto nella sezione Creazione di un trigger in entrata. Dopo aver fatto clic su Configurazione trigger, verranno visualizzati tutti gli argomenti di runtime che hai impostato in precedenza per la pipeline a monte. Scegli gli argomenti di runtime da passare dalla pipeline a monte alla pipeline a valle quando viene eseguito questo attivatore.
  2. Fai clic sulla scheda Configurazione plug-in per visualizzare un elenco di ciò che verrà trasmesso dalla pipeline a monte alla pipeline a valle quando viene attivata.
  3. Fai clic su Configura e attiva trigger.