Introduzione ai flussi di lavoro SQL

Questo documento ti aiuta a comprendere l'architettura e l'esecuzione dei flussi di lavoro SQL in Dataform.

Puoi utilizzare Dataform per sviluppare, testare e controllare la versione dei flussi di lavoro SQL che puoi eseguire in BigQuery per trasformare i dati a fini di analisi. Puoi sviluppare flussi di lavoro SQL con Dataform core, utilizzando file SQLX e, facoltativamente, file JavaScript oppure con JavaScript.

Un flusso di lavoro SQL può essere composto dai seguenti oggetti:

Dichiarazioni sulle origini dati
Dichiarazioni delle origini dati BigQuery che consentono di fare riferimento a queste origini nelle definizioni delle tabelle Dataform e nelle operazioni SQL.
Tabelle
Tabelle create in Dataform in base alle origini dati dichiarate o ad altre tabelle nel flusso di lavoro SQL. Dataform supporta i seguenti tipi di tabella: tabella, tabella incrementale, visualizzazione e vista materializzata.
Asserzioni
Query di test sulla qualità dei dati che puoi utilizzare per convalidare i dati delle tabelle. Dataform esegue le asserzioni ogni volta che aggiorna il flusso di lavoro SQL e ti avvisa in caso di errore.
Operazioni SQL personalizzate
Dichiarazioni SQL che Dataform viene eseguito in BigQuery così come sono, senza modifiche.
Include
File JavaScript con definizioni di variabili e funzioni che puoi riutilizzare nel tuo flusso di lavoro SQL.

Visualizzazione di un flusso di lavoro SQL

Puoi visualizzare il tuo flusso di lavoro SQL sotto forma di grafico diretto aciclico (DAG). Il DAG visualizza tutti gli oggetti del flusso di lavoro SQL definito nell'area di lavoro e le relazioni tra loro. Puoi aumentare e diminuire lo zoom e utilizzare la funzionalità di trascinamento per navigare nel DAG. Se sono presenti errori di compilazione nel flusso di lavoro SQL, Dataform mostra un messaggio di errore anziché il DAG.

Per visualizzare il DAG del flusso di lavoro SQL, fai clic su Grafico compilato nell'area di lavoro.

Esecuzione di un flusso di lavoro SQL

Nell'area di lavoro di sviluppo, puoi attivare manualmente l'esecuzione dell'intero flusso di lavoro SQL, di una selezione di azioni o di una selezione di tag.

Puoi pianificare le esecuzioni con le configurazioni di release e le configurazioni dei flussi di lavoro Dataform. Per prima cosa, crea una configurazione di release per creare risultati di compilazione del repository. Quindi, crea una configurazione del flusso di lavoro, seleziona una configurazione di rilascio, seleziona le azioni del flusso di lavoro SQL che vuoi eseguire e imposta la pianificazione dell'esecuzione.

In alternativa, puoi pianificare le esecuzioni con Cloud Composer o con Workflows e Cloud Scheduler.

Durante l'esecuzione, Dataform esegue query SQL in BigQuery, seguendo l'ordine delle dipendenze degli oggetti nel flusso di lavoro SQL. Dopo l'esecuzione, puoi utilizzare le tabelle e le viste definite per tutti i tuoi scopi di analisi in BigQuery.

Opzioni di configurazione dell'esecuzione

Per eseguire un gruppo specifico di oggetti del flusso di lavoro SQL, puoi aggiungere tag di esecuzione Dataform ai file selezionati. Dopodiché puoi eseguire solo i file con un tag selezionato quando attivi manualmente l'esecuzione.

Per impostazione predefinita, Dataform esegue il tuo flusso di lavoro SQL con le impostazioni di esecuzione definite nel file dataform.json. Puoi eseguire l'override di queste impostazioni di esecuzione con gli override delle compilazioni.

Con gli override delle compilazioni delle aree di lavoro, puoi trasformare le aree di lavoro in ambienti di esecuzione isolati. Ciò significa che quando attivi manualmente l'esecuzione in un'area di lavoro, Dataform esegue l'output in una località isolata in BigQuery.

Per creare ed eseguire un singolo risultato di compilazione con l'override delle compilation, puoi passare le richieste con l'API Dataform.

Con le configurazioni di release, puoi configurare gli override delle compilazioni per l'intero repository, nonché la frequenza di creazione dei risultati di compilazione con le impostazioni applicate.

Per scoprire di più su come configurare la compilazione e il ciclo di vita del codice in Dataform, consulta Introduzione al ciclo di vita del codice in Dataform.

Passaggi successivi