Introduzione ai workflow SQL

Questo documento ti aiuta a comprendere l'architettura e l'esecuzione dei flussi di lavoro SQL in Dataform.

Puoi utilizzare Dataform per sviluppare, testare e controllare la versione flussi di lavoro SQL che puoi eseguire in BigQuery per trasformare i dati per scopi di analisi. Puoi sviluppare flussi di lavoro SQL con Dataform Core, utilizzando file SQLX e, facoltativamente, file JavaScript oppure con JavaScript.

Un flusso di lavoro SQL può essere costituito dai seguenti oggetti:

Dichiarazioni delle origini dati
Dichiarazioni delle origini dati BigQuery che ti consentono di fare riferimento a queste origini dati nelle definizioni delle tabelle e nelle operazioni SQL di Dataform.
Tabelle
Le tabelle create in Dataform in base alle origini dati dichiarate o ad altre tabelle nel flusso di lavoro SQL. Dataform supporta i seguenti tipi di tabelle: tabella, tabella incrementale, visualizzazione e vista materializzata.
Verifiche
Query di test della qualità dei dati che puoi utilizzare per convalidare i dati della tabella. Dataform esegue le verifiche ogni volta che aggiorna il flusso di lavoro SQL e ti avvisa se una verifica non va a buon fine.
Operazioni SQL personalizzate
Comandi SQL che Dataform esegue in BigQuery così come sono, senza modifiche.
Include
File JavaScript con definizioni di variabili e funzioni che puoi riutilizzare nel flusso di lavoro SQL.

Visualizzazione di un flusso di lavoro SQL

Puoi visualizzare il flusso di lavoro SQL sotto forma di grafo diretto aciclico (DAG). Il DAG mostra tutti gli oggetti del flusso di lavoro SQL definiti nella tua area di lavoro e le relazioni tra di loro. Puoi aumentare e diminuire lo zoom e utilizzare il trascinamento per spostarti nel DAG. Se sono presenti errori di compilazione nel flusso di lavoro SQL, Dataform mostra un messaggio di errore anziché il DAG.

Per visualizzare il DAG del tuo flusso di lavoro SQL, fai clic su Grafico compilato nella tua area di lavoro.

Esecuzione di un flusso di lavoro SQL

Nella tua area di lavoro di sviluppo, puoi attivare manualmente l'esecuzione dell'intero flusso di lavoro SQL, di una selezione di azioni o di una selezione di tag.

Puoi pianificare le esecuzioni con le configurazioni delle release e le configurazioni dei flussi di lavoro di Dataform. Per prima cosa, crea una configurazione della release per creare i risultati della compilazione del tuo repository. Quindi, crea una configurazione del flusso di lavoro, seleziona una configurazione di rilascio, seleziona le azioni del flusso di lavoro SQL che vuoi eseguire e imposta la pianificazione dell'esecuzione.

In alternativa, puoi pianificare le esecuzioni con Cloud Composer o con Workflows e Cloud Scheduler.

Durante l'esecuzione, Dataform esegue le query SQL in BigQuery, volgendo l'ordine delle dipendenze degli oggetti nel tuo workflow SQL. Dopo l'esecuzione, puoi utilizzare le tabelle e le viste definite per tutte le finalità di analisi in BigQuery.

Opzioni di configurazione dell'esecuzione

Per eseguire un gruppo specifico di oggetti del flusso di lavoro SQL, puoi aggiungere tag di esecuzione di Dataform ai file selezionati. Quando attivi manualmente l'esecuzione, puoi eseguire solo i file con un tag selezionato.

Per impostazione predefinita, Dataform esegue il flusso di lavoro SQL con le impostazioni di esecuzione definite nel file dataform.json. Puoi eseguire l'override di queste impostazioni di esecuzione con le sostituzioni di compilazione.

Con gli override di compilazione dell'area di lavoro, puoi trasformare le aree di lavoro in ambienti di esecuzione isolati. Ciò significa che quando attivi manualmente l'esecuzione in un'area di lavoro, Dataform esegue l'output in una posizione isolata in BigQuery.

Per creare ed eseguire un singolo risultato di compilazione con override di compilazione, puoi passare le richieste con l'API Dataform.

Con le configurazioni di release, puoi configurare le sostituzioni di compilazione per l'intero repository, nonché la frequenza di creazione dei risultati di compilazione con le impostazioni applicate.

Per scoprire di più sui modi per configurare la compilazione e il ciclo di vita del codice in Dataform, consulta Introduzione al ciclo di vita del codice in Dataform.

Passaggi successivi