Orchestra pipeline

Questa pagina spiega l'orchestrazione delle pipeline con Cloud Composer e i trigger. Cloud Data Fusion consiglia di usare Cloud Composer per orchestrare le pipeline. Se hai bisogno di un modo più semplice per gestire l'orchestrazione, utilizza gli attivatori.

Composer

Orchestrare le pipeline con Cloud Composer

L'orchestrazione dell'esecuzione della pipeline in Cloud Data Fusion con Cloud Composer offre i seguenti vantaggi:

  • Gestione centralizzata dei flussi di lavoro: gestisci in modo uniforme l'esecuzione di più pipeline di Cloud Data Fusion.
  • Gestione delle dipendenze: per garantire un corretto ordine di esecuzione, definisci le dipendenze tra le pipeline.
  • Monitoraggio e avvisi: Cloud Composer fornisce funzionalità di monitoraggio e avvisi per gli errori.
  • Integrazione con altri servizi: Cloud Composer consente di orchestrare flussi di lavoro che si estendono su Cloud Data Fusion e altri servizi Google Cloud.

Per orchestrare le pipeline di Cloud Data Fusion utilizzando Cloud Composer, segui questo processo:

  1. Configura l'ambiente Cloud Composer.

    • Crea un ambiente Cloud Composer. Se non ne hai uno, esegui il provisioning dell'ambiente nel tuo progetto Google Cloud. Questo ambiente è l'area di lavoro di orchestrazione.
    • Concedi le autorizzazioni. Assicurati che l'account di servizio Cloud Composer disponga delle autorizzazioni necessarie per accedere a Cloud Data Fusion (ad esempio, l'autorizzazione per avviare, arrestare ed elencare le pipeline).
  2. Definire i grafici aciclici diretti (DAG) per l'orchestrazione.

    • Crea un DAG: in Cloud Composer, crea un DAG che definisca il flusso di lavoro di orchestrazione per le pipeline di Cloud Data Fusion.
    • Operatori Cloud Data Fusion: utilizza gli operatori Cloud Data Fusion di Cloud Composer all'interno del DAG. Questi operatori ti consentono di interagire in modo programmatico con Cloud Data Fusion.

Operatori di Cloud Data Fusion

L'orchestrazione delle pipeline di Cloud Data Fusion ha i seguenti operatori:

CloudDataFusionStartPipelineOperator

Attiva l'esecuzione di una pipeline Cloud Data Fusion in base al relativo ID. che presenta i seguenti parametri:

  • ID pipeline
  • Località (regione Google Cloud)
  • Spazio dei nomi pipeline
  • Argomenti di runtime (facoltativi)
  • Attendi il completamento (facoltativo)
  • Timeout (facoltativo)
CloudDataFusionStopPipelineOperator

Consente di arrestare una pipeline Cloud Data Fusion in esecuzione.

CloudDataFusionDeletePipelineOperator

Elimina una pipeline Cloud Data Fusion.

Crea il flusso di lavoro dei DAG

Quando crei il flusso di lavoro dei DAG, considera quanto segue:

  • Definizione delle dipendenze: utilizza la struttura DAG per definire le dipendenze tra le attività. Ad esempio, potresti avere un'attività che attende il completamento corretto di una pipeline in uno spazio dei nomi prima di attivare un'altra pipeline in uno spazio dei nomi diverso.
  • Pianificazione: pianifica l'esecuzione del DAG a intervalli specifici, ad esempio giornaliero o orario, oppure imposta l'attivazione manuale.

Per ulteriori informazioni, consulta la panoramica di Cloud Composer.

Trigger

Orchestrare le pipeline con trigger

I trigger di Cloud Data Fusion consentono di eseguire automaticamente una pipeline downstream al completamento (riuscito, errore o qualsiasi condizione specificata) di una o più pipeline upstream.

Gli attivatori sono utili per le seguenti attività:

  • Pulire i dati una volta e renderli disponibili a più pipeline downstream per il consumo.
  • Condivisione di informazioni tra le pipeline, ad esempio argomenti di runtime e configurazioni di plug-in. Questa attività è denominata configurazione del payload.
  • Avere un insieme di pipeline dinamiche in esecuzione utilizzando i dati dell'ora, del giorno, della settimana o del mese, anziché una pipeline statica che deve essere aggiornata a ogni esecuzione.

Ad esempio, hai un set di dati che contiene tutte le informazioni sulle spedizioni della tua azienda. In base a questi dati, vorrai rispondere a diverse domande aziendali. Per farlo, devi creare una pipeline che ripulisca i dati non elaborati relativi alle spedizioni, chiamata Pulizia dei dati delle spedizioni. Quindi crei una seconda pipeline, Delayed Shipments USA, che legge i dati puliti e trova le spedizioni all'interno degli Stati Uniti che sono state ritardate di più di una soglia specificata. La pipeline Delayed Shipments USA può essere attivata non appena la pipeline Shipments Data Selection a monte viene completata con esito positivo.

Inoltre, poiché la pipeline downstream consuma l'output della pipeline upstream, devi specificare che quando la pipeline downstream viene eseguita utilizzando questo trigger, riceve anche la directory di input da cui leggere (ovvero la directory in cui la pipeline upstream ha generato l'output). Questo processo è chiamato passaggio della configurazione del payload, che definisci con argomenti di runtime. Consente di avere un insieme di pipeline dinamiche da eseguire utilizzando i dati dell'ora, del giorno, della settimana o del mese (non una pipeline statica, che deve essere aggiornata a ogni esecuzione).

Per orchestrare le pipeline con i trigger, segui questo processo:

  1. Crea pipeline upstream e downstream.

    • In Cloud Data Fusion Studio, progetta ed esegui il deployment delle pipeline che formano la catena di orchestrazione.
    • Valuta quale completamento attiverà la pipeline successiva (a valle) nel tuo flusso di lavoro.
  2. (Facoltativo) Passa gli argomenti di runtime per le pipeline upstream.

  3. Crea un trigger in entrata nella pipeline downstream.

    • In Cloud Data Fusion Studio, vai alla pagina Elenco. Nella scheda Eseguito il deployment, fai clic sul nome della pipeline downstream. Viene visualizzata la vista Esegui il deployment per quella pipeline.
    • Al centro a sinistra della pagina, fai clic su Attivatori in entrata. Viene visualizzato un elenco delle pipeline disponibili.
    • Fai clic sulla pipeline upstream. Seleziona uno o più stati di completamento della pipeline upstream (Riuscito, Non riusciti o Arresti) come condizione per quando deve essere eseguita la pipeline downstream.
    • Se vuoi che la pipeline upstream condivida le informazioni (denominate configurazione del payload) con la pipeline downstream, fai clic su Configurazione trigger e segui i passaggi per passare la configurazione del payload come argomenti di runtime. In caso contrario, fai clic su Abilita trigger.
  4. Testa il trigger.

    • Avvia un'esecuzione della pipeline upstream.
    • Se il trigger è configurato correttamente, la pipeline downstream viene eseguita automaticamente al completamento delle pipeline upstream, in base alla condizione configurata.

Trasmettere la configurazione del payload come argomenti di runtime

La configurazione del payload consente la condivisione delle informazioni dalla pipeline upstream alla pipeline downstream. Queste informazioni possono essere, ad esempio, la directory di output, il formato dei dati o il giorno in cui è stata eseguita la pipeline. Queste informazioni vengono quindi utilizzate dalla pipeline downstream per decisioni come determinare il set di dati corretto da cui leggere.

Per passare le informazioni dalla pipeline upstream a quella downstream, devi impostare gli argomenti di runtime della pipeline downstream con i valori degli argomenti di runtime o della configurazione di qualsiasi plug-in nella pipeline upstream.

Ogni volta che la pipeline downstream viene attivata ed eseguita, viene impostata la sua configurazione del payload utilizzando gli argomenti di runtime della specifica esecuzione della pipeline upstream che ha attivato la pipeline downstream.

Per passare la configurazione del payload come argomenti di runtime, segui questi passaggi:

  1. Riprendindo da dove avevi interrotto nella sezione Creazione di un trigger in entrata, dopo aver fatto clic su Configurazione trigger, verranno visualizzati eventuali argomenti di runtime impostati in precedenza per la pipeline upstream. Scegli gli argomenti di runtime da passare dalla pipeline upstream alla pipeline downstream quando viene eseguito questo trigger.
  2. Fai clic sulla scheda Configurazione plug-in per visualizzare un elenco di ciò che viene trasferito dalla pipeline upstream a quella downstream quando viene attivata.
  3. Fai clic su Configura e abilita l'attivatore.