Introduzione alla trasformazione dei dati
Questo documento descrive i diversi modi in cui puoi trasformare i dati in e tabelle BigQuery.
Metodi di trasformazione dei dati
Puoi trasformare i dati in BigQuery nei seguenti modi:
- Utilizza il Data Manipulation Language (DML) per trasformare i dati nelle tabelle BigQuery.
- Usa Dataform per sviluppare, testare, controllare le versioni e pianificare SQL flussi di lavoro in BigQuery.
Puoi anche esaminare la cronologia delle modifiche di una tabella BigQuery per esaminare le trasformazioni apportate a una tabella in un intervallo di tempo specificato.
Trasforma i dati con DML
Puoi utilizzare il data Manipulation Language (DML) per trasformare i dati nelle tabelle BigQuery. Le istruzioni DML vengono delle query GoogleSQL che manipolare i dati esistenti della tabella per aggiungere o eliminare righe, modificare i dati nelle righe esistenti o unire i dati con i valori di un'altra tabella. DML le trasformazioni sono supportate anche nelle tabelle partizionate.
Puoi eseguire contemporaneamente più istruzioni DML, dove BigQuery mette in coda diverse istruzioni DML che trasformano i dati una dopo l'altra. BigQuery gestisce il modo in cui vengono eseguite istruzioni DML simultanee, in base al tipo di trasformazione.
Trasforma i dati con Dataform
Dataform ti consente di gestire la trasformazione dei dati nel processo di estrazione, caricamento e trasformazione (ELT) per l'integrazione dei dati. Dopo aver estratto i dati non elaborati dai sistemi di origine e averli caricati in BigQuery, puoi utilizzare Dataform per trasformarli in una suite di tabelle organizzata, testata e documentata. Mentre in DML utilizzi un approccio imperativo indicando a BigQuery come trasformare esattamente i dati, in Dataform scrivi istruzioni dichiarative in base alle quali Dataform determina la trasformazione necessaria per raggiungere lo stato in questione.
In Dataform puoi sviluppare, testare e controllare le versioni di flussi di lavoro SQL per la trasformazione dei dati dalle dichiarazioni delle origini dati alle tabelle di output, alle viste o alle viste materializzate. Puoi sviluppare flussi di lavoro SQL con il core Dataform o JavaScript puro. Dataform core è un metalinguaggio open source che estende SQL con SQLX e JavaScript. Puoi utilizzare la modalità Core Dataform per gestire le dipendenze e configurare i dati automatizzati test di qualità e descrizioni di tabelle o colonne nel codice.
Dataform archivia il codice del flusso di lavoro SQL nei repository e utilizza Git per monitorare le modifiche ai file. Aree di lavoro di sviluppo in Dataform consentono di lavorare sui contenuti del repository senza influire sul lavoro che lavorano nello stesso repository. Puoi connettere Dataform a provider Git di terze parti, tra cui Azure DevOps Services, Bitbucket, GitHub e GitLab.
Puoi eseguire o pianificare flussi di lavoro SQL con le configurazioni delle release e dei flussi di lavoro di Dataform. In alternativa, puoi pianificare le esecuzioni con Cloud Composer, con Workflows e Cloud Scheduler. Durante l'esecuzione, Dataform esegue le query SQL in BigQuery in ordine di dipendenze degli oggetti nel flusso di lavoro SQL. Dopo l'esecuzione, puoi utilizzare le tabelle e le viste definite per l'analisi in BigQuery.
Per scoprire di più sulla creazione di flussi di lavoro SQL per la trasformazione dei dati in Dataform, consulta la panoramica di Dataform e Panoramica delle funzionalità di Dataform.
Passaggi successivi
- Per scoprire di più sul linguaggio DML, consulta Trasformare i dati con il linguaggio di manipolazione dei dati (DML).
- Per scoprire di più su Dataform, consulta la panoramica di Dataform.