Introduzione alla preparazione dei dati di BigQuery

Questo documento descrive la preparazione dei dati con l'IA in BigQuery. Le pre-preparazioni dei dati sono risorse di BigQuery Studio che utilizzano Gemini in BigQuery per analizzare i dati e fornire suggerimenti intelligenti per la loro pulizia, trasformazione e arricchimento. Puoi ridurre notevolmente il tempo e lo sforzo necessari per le attività di preparazione manuale dei dati. L'orchestrazione delle preparazioni dei dati è basata su Dataform.

Vantaggi

  • Puoi ridurre il tempo impiegato per lo sviluppo della pipeline di dati con suggerimenti di trasformazione generati da Gemini e basati sul contesto.
  • Puoi convalidare i risultati generati in un'anteprima e ricevere suggerimenti per la pulizia e l'arricchimento della qualità dei dati con la mappatura dello schema automatica.
  • Dataform ti consente di utilizzare un processo di integrazione e sviluppo continui (CI/CD) che supporta la collaborazione tra team per le revisioni del codice e il controllo del codice sorgente.

Ruoli obbligatori

Gli utenti che preparano i dati e gli account di servizio Dataform che eseguono i job richiedono i ruoli di Identity and Access Management (IAM). Per maggiori informazioni, consulta Ruoli obbligatori e Configurare Gemini per BigQuery.

Punti di contatto per la preparazione dei dati

Puoi creare e gestire le preparazioni dei dati nella pagina BigQuery Studio (vedi Aprire l'editor di preparazione dei dati in BigQuery).

Quando apri una tabella nella preparazione dei dati di BigQuery, viene eseguito un job BigQuery utilizzando le tue credenziali. L'esecuzione crea righe di esempio dalla tabella scelta e scrive i risultati in una tabella temporanea nello stesso progetto. Gemini utilizza i dati di esempio e lo schema per generare suggerimenti per la preparazione dei dati mostrati nell'editor di preparazione dei dati.

Visualizzazioni nell'editor di preparazione dei dati

Le preparazioni dei dati vengono visualizzate come schede nella pagina BigQuery Studio. Ogni scheda contiene una serie di schede secondarie, o visualizzazioni di preparazione dei dati, in cui puoi progettare e gestire le preparazioni dei dati.

Visualizzazione dei dati

Quando crei una nuova preparazione dei dati, si apre una scheda dell'editor di preparazione dei dati che mostra la visualizzazione dei dati, contenente un campione rappresentativo della tabella. Per le pre-elaborazioni dei dati esistenti, puoi passare alla visualizzazione dei dati facendo clic su un nodo nella visualizzazione del grafico della pipeline di preparazione dei dati.

La visualizzazione dei dati ti consente di:

  • Interagisci con i dati per creare i passaggi di preparazione dei dati.
  • Applica i suggerimenti di Gemini.
  • Migliora la qualità dei suggerimenti di Gemini inserendo valori di esempio nelle celle.

Sopra ogni colonna della tabella, un profilo statistico (un istogramma) mostra il conteggio dei valori principali di ogni colonna nelle righe di anteprima.

Visualizzazione grafico

La visualizzazione del grafico è una panoramica visiva della preparazione dei dati. Viene visualizzato come scheda nella pagina BigQuery Studio della console quando apri la preparazione dei dati. Il grafico mostra i nodi per tutti i passaggi della pipeline di preparazione dei dati. Puoi selezionare un nodo sul grafico per configurare i passaggi di preparazione dei dati che rappresenta.

Visualizzazione dello schema

La visualizzazione dello schema di preparazione dei dati mostra lo schema corrente del passaggio di preparazione dei dati attivo. Lo schema mostrato corrisponde alle colonne nella visualizzazione dei dati.

Nella visualizzazione dello schema, puoi eseguire operazioni di schema dedicate, ad esempio la rimozione di colonne, che crea anche passaggi nell'elenco Passaggi applicati.

Suggerimenti di Gemini

Gemini fornisce suggerimenti contestuali per aiutarti a svolgere le seguenti attività di preparazione dei dati:

  • Applicazione di trasformazioni e regole di qualità dei dati
  • Standardizzazione e arricchimento dei dati
  • Automatizzare la mappatura dello schema

Ogni suggerimento viene visualizzato in una scheda nell'elenco dei suggerimenti dell'editor di preparazione dei dati. La scheda contiene le seguenti informazioni:

  • La categoria di alto livello del passaggio, ad esempio Conserva righe o Trasformazione
  • Una descrizione del passaggio, ad esempio Mantieni righe se COLUMN_NAME non è NULL
  • L'espressione SQL corrispondente utilizzata per eseguire il passaggio

Puoi visualizzare l'anteprima della scheda del suggerimento, applicarla o perfezionarla. Puoi anche aggiungere i passaggi manualmente. Per saperne di più, consulta Preparare i dati con Gemini.

Per perfezionare i suggerimenti di Gemini, fornisci un esempio di cosa modificare in una colonna.

Campionamento dei dati

BigQuery utilizza il campionamento dei dati per fornirti un'anteprima della preparazione dei dati. Puoi visualizzare il sample nella visualizzazione dei dati per ciascun nodo. I dati nel campione non vengono aggiornati automaticamente. Per saperne di più, consulta Aggiornare i sample di preparazione dei dati.

Modalità di scrittura

Per ottimizzare i costi e i tempi di elaborazione, puoi modificare le impostazioni della modalità di scrittura per elaborare in modo incrementale i nuovi dati dell'origine. Ad esempio, se hai una tabella in BigQuery in cui i record vengono inseriti quotidianamente e una dashboard di Looker che deve riflettere i dati modificati, puoi pianificare la preparazione dei dati di BigQuery in modo da leggere in modo incrementale i nuovi record dalla tabella di origine e propagarli alla tabella di destinazione.

Per configurare il modo in cui i dati preparati vengono scritti in una tabella di destinazione, consulta Ottimizzare la preparazione dei dati mediante l'elaborazione incrementale dei dati.

Sono supportate le seguenti modalità di scrittura:

Opzione di modalità di scrittura Descrizione
Aggiornamento completo Inserisce i dati preparati per sostituire tutti i dati nella tabella di destinazione. La tabella viene ricreata, non troncata. L'aggiornamento completo è la modalità predefinita quando si scrive in una tabella di destinazione.
Aggiungi Inserisce i dati preparati in nuove righe nella tabella di destinazione.
Incrementale Inserisce solo i dati nuovi o, a seconda della scelta della colonna incrementale, modificati nella tabella di destinazione.

Passaggi di preparazione dei dati supportati

BigQuery supporta i seguenti tipi di passaggi di preparazione dei dati:

Tipo di passaggio Descrizione
Origine Aggiunge un'origine quando selezioni una tabella BigQuery da leggere o quando aggiungi un passaggio di join.
Trasformazione Pulisce e trasforma i dati utilizzando un'espressione SQL. Ricevi schede di suggerimenti per le seguenti espressioni:
  • Funzioni di conversione di tipo, ad esempio CAST
  • Funzioni di stringa, ad esempio SUBSTR, CONCAT, REPLACE, UPPER, LOWER e TRIM
  • Funzioni di data/ora, ad esempio PARSE_DATE, TIMESTAMP, EXTRACT e DATE_ADD
  • Funzioni JSON, ad esempio JSON_EXTRACT

Puoi anche utilizzare qualsiasi espressione SQL di BigQuery valida nei passaggi di trasformazione manuale. Ad esempio:
  • Matematica con numeri, ad esempio la conversione di watt-ora in kilowattora
  • Funzioni di array, ad esempio ARRAY_AGG, ARRAY_CONCAT e UNNEST
  • Funzioni finestra, ad esempio ROW_NUMBER, LAG, LEAD, RANK e NTILE


Per ulteriori informazioni, vedi Aggiungere una trasformazione.
Filtro Rimuove le righe tramite la sintassi della clausola WHERE. Quando aggiungi un passaggio di filtro, puoi scegliere di trasformarlo in un passaggio di convalida.

Per ulteriori informazioni, vedi Filtrare le righe.
Convalida Invia le righe che soddisfano i criteri della regola di convalida a una tabella degli errori. Se i dati non soddisfano la regola di convalida e non è configurata alcuna tabella degli errori, la preparazione dei dati non riesce durante l'esecuzione.

Per ulteriori informazioni, consulta Configurare la tabella degli errori e aggiungere una regola di convalida.
Partecipa Unisce i valori di due origini. Le tabelle devono trovarsi nella stessa posizione. Le colonne delle chiavi di join devono avere lo stesso tipo di dati. Le preparazioni dei dati supportano le seguenti operazioni di join:
  • Unioni interne
  • Join a sinistra
  • Join a destra
  • Unioni esterne complete
  • Join esterni (se non sono selezionate colonne di chiave di join, viene utilizzato un join esterno)


Per ulteriori informazioni, vedi Aggiungere un'operazione di join.
Destinazione Definisce una destinazione per l'output dei passaggi di preparazione dei dati. Se inserisci una tabella di destinazione inesistente, la preparazione dei dati ne crea una nuova utilizzando le informazioni dello schema attuale.

Per ulteriori informazioni, vedi Aggiungere o modificare una tabella di destinazione.
Eliminare le colonne Consente di eliminare le colonne dallo schema. Esegui questo passaggio dalla visualizzazione dello schema.

Per ulteriori informazioni, consulta Eliminare una colonna.

Pianificazione delle esecuzioni di preparazione dei dati

Per eseguire i passaggi di preparazione dei dati e caricare i dati preparati nella tabella di destinazione, pianifica un'esecuzione di preparazione dei dati una tantum o ricorrente. Puoi pianificare le preparazioni dei dati dall'editor di preparazione dei dati e gestirle dalla pagina Orchestration di BigQuery. Per saperne di più, consulta Pianificare le preparazioni dei dati.

API

La preparazione dei dati di BigQuery non ha una propria API. Per scoprire di più sull'utilizzo della preparazione dei dati di BigQuery con Dataform, contatta bq-datapreparation-feedback@google.com.

Limitazioni

La preparazione dei dati è disponibile con le seguenti limitazioni:

  • Tutti i set di dati di origine e di destinazione della preparazione dei dati di BigQuery di una determinata preparazione dei dati devono trovarsi nella stessa posizione. Per ulteriori informazioni, consulta Località supportate.
  • Durante la modifica della pipeline, i dati e le interazioni vengono inviati a un data center degli Stati Uniti per l'elaborazione. Per ulteriori informazioni, consulta Località supportate.
  • La preparazione dei dati non supporta la generazione di query SQL in linguaggio naturale.
  • Le preparazioni dei dati di BigQuery non supportano la visualizzazione, il confronto o il ripristino delle versioni di preparazione dei dati.
  • Le risposte di Gemini si basano su un campione del set di dati fornito al momento della progettazione della pipeline di preparazione dei dati. Per ulteriori informazioni, consulta in che modo Gemini for Google Cloud utilizza i tuoi dati e i termini del programma Trusted Tester di Gemini for Google Cloud.

Località

Le preparazioni dei dati supportano l'elaborazione dei dati in tutte le località BigQuery. I set di dati di origine e di destinazione di una determinata preparazione dei dati devono trovarsi nella stessa posizione.

Prezzi

L'esecuzione delle preparazioni dei dati e la creazione di esempi di anteprima dei dati utilizzano le risorse BigQuery, che vengono addebitate alle tariffe indicate nella pagina Prezzi di BigQuery.

La preparazione dei dati è inclusa nei prezzi di Gemini in BigQuery. Puoi utilizzare la preparazione dei dati di BigQuery durante la visualizzazione in anteprima senza costi aggiuntivi. Per ulteriori informazioni, consulta Configurare Gemini in BigQuery.

Quote

Per ulteriori informazioni, consulta le quote di Gemini in Google Cloud.

Passaggi successivi