Introduzione alla trasformazione dei dati

Questo documento descrive i diversi modi in cui puoi trasformare i dati nelle tue tabelle BigQuery.

Per ulteriori informazioni sulle integrazioni di dati, consulta Introduzione al caricamento, alla trasformazione e all'esportazione dei dati.

Metodi di trasformazione dei dati

Puoi trasformare i dati in BigQuery nei seguenti modi:

  • Utilizza il Data Manipulation Language (DML) per trasformare i dati nelle tabelle BigQuery.
  • Utilizza le viste materializzate per memorizzare automaticamente nella cache i risultati di una query per migliorare le prestazioni e l'efficienza.
  • Utilizza le query continue per analizzare i dati in entrata in tempo reale e inserire continuamente le righe di output in una tabella BigQuery o esportarle in Pub/Sub o Bigtable.
  • Utilizza Dataform per sviluppare, testare, controllare le versioni e pianificare flussi di lavoro SQL in BigQuery.
  • Utilizza la preparazione dei dati con consigli di trasformazione basati sull'AI e consapevoli del contesto per pulire i dati per l'analisi.

La tabella seguente mostra le diverse caratteristiche di ciascun metodo di trasformazione.

Metodo di trasformazione Destinazione della trasformazione Metodo di definizione Frequenza di trasformazione
Data Manipulation Language (DML) Tabella (in situ) DML SQL Avviata dall'utente o programmata
Viste materializzate Vista materializzata Query SQL Aggiornamento automatico o manuale
Query continue Tabella, Argomento Pub/Sub, Tabella Bigtable Query SQL con EXPORT DATA Continua
Dataform Tabella Dataform core (SQLX) Pianificata (flussi di lavoro)
Preparazione dei dati Tabella Editor visivo Pianificato

Puoi anche esaminare la cronologia delle modifiche di una tabella BigQuery per esaminare le trasformazioni apportate a una tabella in un intervallo di tempo specificato.

Trasformare i dati con DML

Puoi utilizzare il Data Manipulation Language (DML) per trasformare i dati nelle tabelle BigQuery. Le istruzioni DML sono query GoogleSQL che manipolano i dati delle tabelle esistenti per aggiungere o eliminare righe, modificare i dati nelle righe esistenti o unire i dati con i valori di un'altra tabella. Le trasformazioni DML sono supportate anche nelle tabelle partizionate.

Puoi eseguire più istruzioni DML contemporaneamente, in cui BigQuery mette in coda diverse istruzioni DML che trasformano i dati uno dopo l'altro. BigQuery gestisce il modo in cui vengono eseguite le istruzioni DML concorrenti, in base al tipo di trasformazione.

Trasformare i dati con le viste materializzate

Le viste materializzate sono viste predeterminate che memorizzano nella cache i risultati di una query SQL periodicamente per migliorare le prestazioni e l'efficienza. BigQuery sfrutta i risultati precalcolati dalle viste materializzate e ogni volta che è possibile legge solo le modifiche dalle tabella di base per calcolare i risultati aggiornati.

Le viste materializzate vengono precalcolate in background quando le tabelle di base cambiano. Eventuali modifiche incrementali dei dati delle tabelle di base vengono aggiunte automaticamente alle viste materializzate, senza alcuna azione da parte dell'utente.

Trasformare i dati con query continue

Le query continue sono istruzioni SQL eseguite continuamente. Le query continue ti consentono di analizzare i dati in entrata in BigQuery in tempo reale. Puoi inserire le righe di output prodotte da una query continua in una tabella BigQuery o esportarle in Pub/Sub o Bigtable.

Trasformare i dati con Dataform

Dataform ti consente di gestire la trasformazione dei dati nel processo di estrazione, caricamento e trasformazione (ELT) per l'integrazione dei dati. Dopo aver estratto i dati non elaborati dai sistemi di origine e averli caricati in BigQuery, puoi utilizzare Dataform per trasformarli in una suite di tabelle organizzata, testata e documentata. Mentre in DML utilizzi un approccio imperativo indicando a BigQuery come trasformare esattamente i dati, in Dataform scrivi dichiarazioni dichiarative in base alle quali Dataform determina la trasformazione necessaria per raggiungere lo stato in questione.

In Dataform, puoi sviluppare, testare e controllare la versione dei flussi di lavoro SQL per la trasformazione dei dati dalle dichiarazioni delle origini dati alle tabelle di output, alle viste o alle viste materializzate. Puoi sviluppare flussi di lavoro SQL con Dataform core o con JavaScript puro. Dataform core è un metalinguaggio open source che estende SQL con SQLX e JavaScript. Puoi utilizzare Dataform Core per gestire le dipendenze, configurare test automatici della qualità dei dati e documentare le descrizioni delle tabelle o delle colonne all'interno del codice.

Dataform archivia il codice del tuo flusso di lavoro SQL nei repositories e utilizza Git per monitorare le modifiche ai file. Le aree di lavoro di sviluppo in Dataform ti consentono di lavorare sui contenuti del repository senza influire sul lavoro di altri che lavorano nello stesso repository. Puoi collegare i repository Dataform a provider Git di terze parti, tra cui Azure DevOps Services, Bitbucket, GitHub e GitLab.

Puoi eseguire o pianificare i flussi di lavoro SQL con le configurazioni delle release e dei flussi di lavoro di Dataform. In alternativa, puoi pianificare le esecuzioni con Cloud Composer o con Workflows e Cloud Scheduler. Durante l'esecuzione, Dataform esegue le query SQL in BigQuery in ordine di dipendenze degli oggetti nel flusso di lavoro SQL. Dopo l'esecuzione, puoi utilizzare le tabelle e le viste definite per l'analisi in BigQuery.

Per scoprire di più sulla creazione di flussi di lavoro SQL per la trasformazione dei dati in Dataform, consulta la panoramica di Dataform e la panoramica delle funzionalità di Dataform.

Prepara i dati in BigQuery

Per ridurre la complessità della preparazione dei dati, BigQuery ti consente di pulirli con suggerimenti di trasformazione generati da Gemini. La preparazione dei dati in BigQuery offre la seguente assistenza:

  • Applicazione di trasformazioni e regole di qualità dei dati
  • Standardizzazione e arricchimento dei dati
  • Automatizzare la mappatura dello schema

Puoi convalidare i risultati in un'anteprima dei dati prima di eseguire le modifiche su tutti i dati.

Per ulteriori informazioni, consulta Introduzione alla preparazione dei dati di BigQuery.

Passaggi successivi