Questo documento ti aiuta a comprendere l'architettura e l'esecuzione dei flussi di lavoro in Dataform.
Puoi utilizzare Dataform per sviluppare, testare e controllare le versioni dei flussi di lavoro che puoi eseguire in BigQuery per trasformare i dati a fini di analisi. Puoi sviluppare workflow con Dataform Core, utilizzando file SQLX e, facoltativamente, file JavaScript, oppure con JavaScript.
Un flusso di lavoro può essere costituito dai seguenti oggetti:
- Dichiarazioni dell'origine dati
- Dichiarazioni delle origini dati BigQuery che consentono di fare riferimento a queste origini dati nelle definizioni delle tabelle Dataform e nelle operazioni SQL.
- Tabelle
- Tabelle create in Dataform in base alle origini dati dichiarate o ad altre tabelle nel flusso di lavoro. Dataform supporta i seguenti tipi di tabelle: tabella, tabella incrementale, visualizzazione e vista materializzata.
- Assertions
- Query di test della qualità dei dati che puoi utilizzare per convalidare i dati delle tabelle. Dataform esegue le asserzioni ogni volta che aggiorna il flusso di lavoro e ti avvisa se una qualsiasi asserzione non va a buon fine.
- Operazioni SQL personalizzate
- Istruzioni SQL che Dataform esegue in BigQuery così come sono, senza modifiche.
- Include
- File JavaScript con definizioni di variabili e funzioni che puoi riutilizzare nel tuo flusso di lavoro.
Visualizzazione di un workflow
Puoi visualizzare il workflow visualizzato sotto forma di un grafo aciclico orientato (DAG). Il DAG mostra tutti gli oggetti del flusso di lavoro definiti nel tuo spazio di lavoro e le relazioni tra loro. Puoi aumentare e diminuire lo zoom e utilizzare la navigazione con trascinamento nel DAG. Se nel flusso di lavoro sono presenti errori di compilazione, Dataform visualizza un messaggio di errore anziché il DAG.
Per visualizzare il DAG del workflow, fai clic su Grafico compilato nel workspace.
Esecuzione di un workflow
Nell'area di lavoro di sviluppo, puoi attivare manualmente un'esecuzione dell'intero flusso di lavoro, di una selezione di azioni o di una selezione di tag.
Puoi pianificare le esecuzioni con le configurazioni di rilascio e le configurazioni del workflow di Dataform. Per prima cosa, crea una configurazione della release per creare i risultati della compilazione del repository. Poi, crea una configurazione del workflow, seleziona una configurazione di rilascio, seleziona le azioni del workflow che vuoi eseguire e imposta la pianificazione di esecuzione.
In alternativa, puoi pianificare le esecuzioni con Cloud Composer o con Workflows e Cloud Scheduler.
Durante l'esecuzione, Dataform esegue query SQL in BigQuery, seguendo l'ordine delle dipendenze degli oggetti nel workflow. Dopo l'esecuzione, puoi utilizzare le tabelle e le viste definite per tutti i tuoi scopi di analisi in BigQuery.
Opzioni di configurazione dell'esecuzione
Per eseguire un gruppo specifico di azioni del flusso di lavoro, puoi aggiungere tag di esecuzione di Dataform ai file selezionati. Puoi quindi eseguire solo i file con un tag selezionato quando attivi manualmente un'esecuzione.
Per impostazione predefinita, Dataform esegue il flusso di lavoro con le impostazioni di esecuzione
definite nel file dataform.json
.
Puoi eseguire l'override di queste impostazioni di esecuzione con gli override di compilazione.
Con gli override di compilazione del workspace, puoi trasformare i workspace in ambienti di esecuzione isolati. Ciò significa che quando attivi manualmente l'esecuzione in un workspace, Dataform esegue l'output in una posizione isolata in BigQuery.
Per creare ed eseguire un singolo risultato di compilazione con override di compilazione, puoi trasmettere richieste con l'API Dataform.
Con le configurazioni di rilascio, puoi configurare gli override di compilazione per l'intero repository, nonché la frequenza di creazione dei risultati di compilazione con le impostazioni applicate.
Per scoprire di più sui modi per configurare la compilazione e il ciclo di vita del codice in Dataform, consulta Introduzione al ciclo di vita del codice in Dataform.
Passaggi successivi
- Per scoprire come dichiarare un'origine dati, consulta Dichiarare un'origine dati.
- Per scoprire come dichiarare le dipendenze per definire le relazioni tra gli oggetti nel flusso di lavoro, consulta Impostare le dipendenze.
- Per scoprire come definire operazioni SQL personalizzate, consulta Creare operazioni.
- Per scoprire come riutilizzare variabili e funzioni nel flusso di lavoro con gli include, consulta Riutilizzare il codice in un singolo repository con gli include.