Introduzione alla trasformazione dei dati
Questo documento descrive i diversi modi in cui puoi trasformare i dati nelle tabelle BigQuery.
Per saperne di più sulle integrazioni dei dati, consulta Introduzione al caricamento, alla trasformazione e all'esportazione dei dati.
Metodi di trasformazione dei dati
Puoi trasformare i dati in BigQuery nei seguenti modi:
- Utilizza il Data Manipulation Language (DML) per trasformare i dati nelle tabelle BigQuery.
- Utilizza le viste materializzate per memorizzare automaticamente nella cache i risultati di una query per migliorare le prestazioni e l'efficienza.
- Utilizza le query continue per analizzare i dati in entrata in tempo reale e inserire continuamente le righe di output in una tabella BigQuery o esportarle in Pub/Sub o Bigtable.
- Utilizza le pipeline BigQuery o Dataform per sviluppare, testare, controllare le versioni e pianificare le pipeline in BigQuery.
- Utilizza le preparazioni dei dati con consigli di trasformazione sensibili al contesto e generati dall'AI per pulire i dati per l'analisi. Le preparazioni dei dati sono basate sull'API Dataform.
La tabella seguente mostra le diverse caratteristiche di ciascun metodo di trasformazione.
Metodo di trasformazione | Target di trasformazione | Metodo di definizione | Frequenza di trasformazione |
---|---|---|---|
Data Manipulation Language (DML) | Tabella (in loco) | SQL DML | Avviata dall'utente o pianificata |
Viste materializzate | Vista materializzata | Query SQL | Aggiornamento automatico o manuale |
Query continue | Tabella, Argomento Pub/Sub, Tabella Bigtable | Query SQL con EXPORT DATA | Continua |
Dataform | Tabella | Dataform core (SQLX) | Pianificato (pipeline) |
Pipeline BigQuery | Tabella | Pipeline BigQuery | Pianificato (pipeline) |
Preparazione dei dati | Tabella | Editor visivo | Pianificato |
Puoi anche esaminare la cronologia delle modifiche di una tabella BigQuery per esaminare le trasformazioni apportate a una tabella in un intervallo di tempo specificato.
Trasformare i dati con DML
Puoi utilizzare il Data Manipulation Language (DML) per trasformare i dati nelle tabelle BigQuery. Le istruzioni DML sono query GoogleSQL che manipolano i dati delle tabelle esistenti per aggiungere o eliminare righe, modificare i dati nelle righe esistenti o unire i dati con i valori di un'altra tabella. Le trasformazioni DML sono supportate anche nelle tabelle partizionate.
Puoi eseguire più istruzioni DML contemporaneamente, in cui BigQuery mette in coda diverse istruzioni DML che trasformano i dati una dopo l'altra. BigQuery gestisce l'esecuzione delle istruzioni DML simultanee, in base al tipo di trasformazione.
Trasformare i dati con le viste materializzate
Le viste materializzate sono viste precalcolate che memorizzano nella cache periodicamente i risultati di una query SQL per migliorare le prestazioni e l'efficienza. BigQuery sfrutta i risultati precalcolati dalle viste materializzate e, ogni volta che è possibile, legge solo le modifiche dalle tabelle di base per calcolare i risultati aggiornati.
Le viste materializzate vengono precalcolate in background quando le tabelle di base cambiano. Tutte le modifiche incrementali ai dati delle tabelle di base vengono aggiunte automaticamente alle viste materializzate, senza che sia necessaria alcuna azione da parte dell'utente.
Trasformare i dati con query continue
Le query continue sono istruzioni SQL eseguite in modo continuo. Le query continue ti consentono di analizzare i dati in entrata in BigQuery in tempo reale. Puoi inserire le righe di output prodotte da una query continua in una tabella BigQuery o esportarle in Pub/Sub o Bigtable.
Trasformare i dati con Dataform
Dataform ti consente di gestire la trasformazione dei dati nel processo di estrazione, caricamento e trasformazione (ELT) per l'integrazione dei dati. Dopo aver estratto i dati non elaborati dai sistemi di origine e averli caricati in BigQuery, puoi utilizzare Dataform per trasformarli in una suite di tabelle organizzata, testata e documentata. Mentre in DML adotti un approccio imperativo dicendo a BigQuery come trasformare esattamente i dati, in Dataform scrivi istruzioni dichiarative in cui Dataform determina la trasformazione necessaria per raggiungere quello stato.
In Dataform puoi sviluppare, testare e controllare la versione dei workflow SQL per la trasformazione dei dati dalle dichiarazioni delle origini dati alle tabelle, alle viste o alle viste materializzate di output. Puoi sviluppare workflow SQL con Dataform Core o JavaScript puro. Dataform Core è un meta-linguaggio open source che estende SQL con SQLX e JavaScript. Puoi utilizzare Dataform Core per gestire le dipendenze, configurare test automatici della qualità dei dati e documentare le descrizioni di tabelle o colonne all'interno del codice.
Dataform archivia il codice del workflow SQL nei repository e utilizza Git per monitorare le modifiche ai file. I workspace di sviluppo in Dataform ti consentono di lavorare sui contenuti del repository senza influire sul lavoro di altri utenti che lavorano nello stesso repository. Puoi connettere i repository Dataform a provider Git di terze parti, tra cui Azure DevOps Services, Bitbucket, GitHub e GitLab.
Puoi eseguire o pianificare workflow SQL con le configurazioni delle release e dei workflow Dataform. In alternativa, puoi pianificare le esecuzioni con Cloud Composer oppure con Workflows e Cloud Scheduler. Durante l'esecuzione, Dataform esegue le query SQL in BigQuery in ordine di dipendenza degli oggetti nel workflow SQL. Dopo l'esecuzione, puoi utilizzare le tabelle e le viste definite per l'analisi in BigQuery.
Per scoprire di più sulla creazione di workflow SQL di trasformazione dei dati in Dataform, consulta Panoramica di Dataform e Funzionalità di Dataform.
Trasformare i dati con le pipeline BigQuery
Le pipeline BigQuery sono basate su Dataform e consentono di creare e gestire la trasformazione dei dati nei processi di estrazione, caricamento e trasformazione (ELT) o estrazione, trasformazione e caricamento (ETL).
Puoi creare e gestire le pipeline BigQuery in modo visivo in BigQuery Studio.
Per scoprire di più sulla creazione di pipeline BigQuery, consulta Crea pipeline.
Prepara i dati in BigQuery
Per ridurre la fatica della preparazione dei dati, BigQuery ti consente di pulire i dati con i suggerimenti di trasformazione generati da Gemini. La preparazione dei dati in BigQuery offre la seguente assistenza:
- Applicazione di trasformazioni e regole sulla qualità dei dati
- Standardizzazione e arricchimento dei dati
- Automatizzare la mappatura dello schema
Puoi convalidare i risultati in un'anteprima dei dati prima di eseguire le modifiche su tutti i dati.
Per ulteriori informazioni, vedi Introduzione alla preparazione dei dati di BigQuery.
Passaggi successivi
- Per saperne di più su DML, consulta Trasformare i dati con Data Manipulation Language (DML).
- Per saperne di più su Dataform, vedi Panoramica di Dataform.