Introduzione alla trasformazione dei dati

Questo documento descrive i diversi modi in cui puoi trasformare i dati nelle tabelle BigQuery.

Metodi di trasformazione dei dati

Puoi trasformare i dati in BigQuery nei seguenti modi:

  • Utilizza il Data Manipulation Language (DML) per trasformare i dati nelle tabelle BigQuery.
  • Utilizza Dataform per sviluppare, testare, controllare le versioni e pianificare i flussi di lavoro SQL in BigQuery.

Puoi anche esaminare la cronologia delle modifiche di una tabella BigQuery per esaminare le trasformazioni apportate a una tabella in un intervallo di tempo specificato.

Trasforma i dati con DML

Puoi utilizzare il data Manipulation Language (DML) per trasformare i dati nelle tabelle BigQuery. Le istruzioni DML sono query GoogleSQL che manipolano i dati delle tabelle esistenti per aggiungere o eliminare righe, modificare i dati nelle righe esistenti o unire i dati con i valori di un'altra tabella. Le trasformazioni DML sono supportate anche nelle tabelle partizionate.

Puoi eseguire più istruzioni DML contemporaneamente, dove BigQuery aggiunge in coda diverse istruzioni DML che trasformano i dati una dopo l'altra. BigQuery gestisce il modo in cui vengono eseguite le istruzioni DML simultanee, in base al tipo di trasformazione.

Trasforma i dati con Dataform

Dataform consente di gestire la trasformazione dei dati nel processo di estrazione, caricamento e trasformazione (ELT) per l'integrazione dei dati. Dopo aver estratto i dati non elaborati dai sistemi di origine e li hai caricati in BigQuery, puoi utilizzare Dataform per trasformarli in una suite di tabelle organizzata, testata e documentata. Mentre in DML si utilizza un approccio imperativo indicando a BigQuery come trasformare esattamente i dati, in Dataform si scrivono istruzioni dichiarative in cui Dataform determina quindi la trasformazione necessaria per raggiungere quello stato.

In Dataform puoi sviluppare, testare e controllare le versioni di flussi di lavoro SQL per la trasformazione dei dati, dalle dichiarazioni dell'origine dati alle tabelle di output, alle viste o alle viste materializzate. Puoi sviluppare flussi di lavoro SQL con il core Dataform o JavaScript puro. Dataform core è un meta-linguaggio open source che estende SQL con SQLX e JavaScript. Puoi utilizzare Dataform core per gestire le dipendenze, configurare i test automatici di qualità dei dati e documentare le descrizioni delle tabelle o delle colonne all'interno del codice.

Dataform archivia il codice del flusso di lavoro SQL in repository e utilizza Git per tenere traccia delle modifiche ai file. Le aree di lavoro di sviluppo in Dataform ti consentono di lavorare sui contenuti del repository senza influire su quello di altri utenti che lavorano nello stesso repository. Puoi connettere i repository Dataform a provider Git di terze parti, tra cui Azure DevOps Services, BitBucket, GitHub e GitLab.

Puoi eseguire o pianificare flussi di lavoro SQL con le configurazioni di release Dataform e le configurazioni dei flussi di lavoro. In alternativa, puoi pianificare le esecuzioni con Cloud Composer o con Workflows e Cloud Scheduler. Durante l'esecuzione, Dataform esegue query SQL in BigQuery seguendo l'ordine delle dipendenze degli oggetti nel flusso di lavoro SQL. Dopo l'esecuzione, puoi utilizzare le tabelle e le viste definite per l'analisi in BigQuery.

Per scoprire di più sulla creazione di flussi di lavoro SQL per la trasformazione dei dati in Dataform, consulta la panoramica di Dataform e la Panoramica delle funzionalità di Dataform.

Passaggi successivi