Panoramica di Dataform

Questo documento introduce concetti e processi di Dataform.

Dataform è un servizio che consente agli analisti di dati di sviluppare, testare, controllare la versione e pianificare flussi di lavoro SQL complessi per la trasformazione dei dati in BigQuery.

Dataform consente di gestire la trasformazione dei dati nel processo di estrazione, caricamento e trasformazione (ELT) per l'integrazione dei dati. Dopo che i dati non elaborati sono stati estratti dai sistemi di origine e caricati in BigQuery, Dataform ti aiuta a trasformarli in una suite di tabelle di dati ben definita, testata e documentata.

Dataform consente di eseguire le seguenti azioni di trasformazione dei dati:

  • Sviluppa ed esegui flussi di lavoro SQL per la trasformazione dei dati.
  • Collabora con i membri del team sullo sviluppo del flusso di lavoro SQL tramite Git.
  • Gestisci un numero elevato di tabelle e le loro dipendenze.
  • Dichiara i dati di origine e gestisci le dipendenze delle tabelle.
  • Visualizza una visualizzazione della struttura delle dipendenze del tuo flusso di lavoro SQL.
  • Gestisci i dati con codice SQL in un repository centrale.
  • Riutilizzare il codice con JavaScript.
  • Testa la correttezza dei dati con test di qualità sulle tabelle di origine e di output.
  • Codice SQL per il controllo della versione.
  • Documenta le tabelle di dati all'interno del codice SQL.

Processi di trasformazione dei dati in Dataform

Il flusso di lavoro di trasformazione dei dati per Dataform è il seguente:

  1. Dataform consente di creare repository per gestire il codice.
  2. Dataform consente di creare aree di lavoro per lo sviluppo.
  3. Dataform consente di sviluppare flussi di lavoro SQL in un'area di lavoro di sviluppo.
  4. Dataform compila il core Dataform in SQL.
  5. Dataform esegue l'albero delle dipendenze.

Dataform consente di creare repository per gestire il codice

In un repository Dataform, utilizzi il core Dataform, un'estensione di SQL, per scrivere file SQLX in cui definisci il flusso di lavoro. I repository Dataform supportano il controllo della versione. Puoi collegare un repository Dataform a un provider Git di terze parti.

Dataform consente di creare aree di lavoro per lo sviluppo

Puoi creare aree di lavoro di sviluppo all'interno di un repository Dataform per lo sviluppo principale di Dataform. In un'area di lavoro di sviluppo, puoi apportare modifiche al repository, compilarle, testarle ed eseguirne il push nel repository principale tramite Git.

Dataform consente di sviluppare il core Dataform in un'area di lavoro di sviluppo

In un'area di lavoro di sviluppo, puoi definire e documentare le tabelle, le dipendenze e la logica di trasformazione per creare un flusso di lavoro SQL. Puoi anche configurare le azioni in JavaScript.

Dataform compila il core Dataform

Durante la compilazione, Dataform esegue le seguenti attività:

  • Compila il core Dataform in un flusso di lavoro SQL di SQL standard.
  • Aggiunge istruzioni SQL boilerplate, come CREATE TABLE o INSERT, al codice incorporato nella configurazione della query.
  • Transpile (compila il codice JavaScript da sorgente a origine) in SQL.
  • Risolve le dipendenze e verifica la presenza di errori, incluse le dipendenze circolari o mancanti.
  • Crea la struttura delle dipendenze di tutte le azioni da eseguire in BigQuery.

La compilazione Dataform è ermetica per garantire la coerenza della compilazione, il che significa che lo stesso codice viene compilato ogni volta nello stesso risultato di compilazione SQL. Dataform compila il tuo codice in un ambiente sandbox senza accesso a Internet. Durante la compilazione non sono disponibili azioni aggiuntive, come la chiamata di API esterne.

Per eseguire il debug in tempo reale, puoi ispezionare il flusso di lavoro SQL compilato del tuo progetto in un grafico interattivo nell'area di lavoro di sviluppo.

Dataform esegue l'albero delle dipendenze

In BigQuery, Dataform esegue le seguenti attività:

  • Esegue comandi SQL, seguendo l'ordine dell'albero delle dipendenze.
  • Esegue query sulle asserzioni sulle tue tabelle e viste per verificare la correttezza dei dati.
  • Esegue altre operazioni SQL che hai definito.

Dopo l'esecuzione, puoi utilizzare le tabelle e le viste per tutti gli scopi di analisi.

Puoi visualizzare i log per vedere quali tabelle sono state create, se le asserzioni sono state superate o non riuscite, il tempo necessario per il completamento di ogni azione e altre informazioni. Puoi anche visualizzare l'esatto codice SQL che è stato eseguito in BigQuery.

Framework di definizione dei modelli Dataform

Dataform fornisce un framework di modellazione dei dati open source, composto dal core Dataform e dall'interfaccia a riga di comando di Dataform, che puoi utilizzare al di fuori di Google Cloud.

Passaggi successivi