Crea ed esegui un flusso di lavoro SQL in Dataform
Questa guida rapida illustra il processo seguente in Dataform per creare un flusso di lavoro SQL ed eseguirlo in BigQuery:
Prima di iniziare
- Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
-
Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
Abilita le API BigQuery and Dataform.
-
Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
Abilita le API BigQuery and Dataform.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per eseguire tutte le attività in questo tutorial, chiedi all'amministratore di concederti i seguenti ruoli IAM:
-
Amministratore Dataform (
roles/dataform.admin
) sui repository -
Dataform Editor (
roles/dataform.editor
) per le aree di lavoro e il flusso di lavoroInvocations
Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso.
Potresti anche essere in grado di ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Crea un repository Dataform
Nella console Google Cloud, vai alla pagina Dataform.
Fai clic su
Crea repository.Nella pagina Crea repository, segui questi passaggi:
Nel campo ID repository, inserisci
quickstart-repository
.Nell'elenco Regione, seleziona
europe-west4
.Fai clic su Crea.
Crea e inizializza un'area di lavoro di sviluppo Dataform
Nella console Google Cloud, vai alla pagina Dataform.
Fai clic su
quickstart-repository
.Fai clic su
Crea area di lavoro di sviluppo.Nella finestra Crea area di lavoro di sviluppo, segui questi passaggi:
Nel campo ID area di lavoro, inserisci
quickstart-workspace
.Fai clic su Crea.
Viene visualizzata la pagina dell'area di lavoro di sviluppo.
Fai clic su Inizializza area di lavoro.
Crea una vista
Nelle sezioni seguenti definisci una vista che utilizzerai in seguito come origine dati per una tabella.
Crea un file SQLX per definire una vista
Nel riquadro File, accanto a
definitions/
, fai clic sul menu Altro .Fai clic su Crea file.
Nel riquadro Crea nuovo file, segui questi passaggi:
Nel campo Aggiungi un percorso del file, inserisci
definitions/quickstart-source.sqlx
.Fai clic su Crea file.
Definisci una vista
Nel riquadro File, espandi la cartella delle definizioni.
Fai clic su
definitions/quickstart-source.sqlx
.Nel file, inserisci il seguente snippet di codice:
config { type: "view" } SELECT "apples" AS fruit, 2 AS count UNION ALL SELECT "oranges" AS fruit, 5 AS count UNION ALL SELECT "pears" AS fruit, 1 AS count UNION ALL SELECT "bananas" AS fruit, 0 AS count
Fai clic su Formato.
Creare una tabella
Nelle sezioni seguenti, definisci il tipo di tabella in un file SQLX e poi scrivi un'istruzione SELECT
per definire la struttura della tabella all'interno dello stesso file.
Crea un file SQLX per definire una tabella
Nel riquadro File, accanto a
definitions/
, fai clic sul menu Altro , quindi seleziona Crea file.Nel campo Aggiungi un percorso file, inserisci
definitions/quickstart-table.sqlx
.Fai clic su Crea file.
Definisci il tipo di tabella, la struttura e le dipendenze
Nel riquadro File, espandi la directory
definitions/
.Seleziona
quickstart-table.sqlx
, quindi inserisci il seguente tipo di tabella e l'istruzioneSELECT
:config { type: "table" } SELECT fruit, SUM(count) as count FROM ${ref("quickstart-source")} GROUP BY 1
Fai clic su Formato.
Dopo aver definito il tipo di tabella, Dataform genera un errore di convalida della query perché quickstart-source
non esiste ancora in BigQuery. Questo errore
viene risolto eseguendo il flusso di lavoro SQL più avanti in questo tutorial.
Concedi l'accesso Dataform a BigQuery
Per eseguire flussi di lavoro in BigQuery, l'account di servizio Dataform deve avere i seguenti ruoli richiesti:
- Editor dati BigQuery sui progetti a cui Dataform richiede l'accesso in lettura e scrittura. Di solito includono il progetto che ospita il repository Dataform.
- Visualizzatore dati BigQuery sui progetti a cui Dataform richiede l'accesso in sola lettura.
- Utente job BigQuery sul progetto che ospita il repository Dataform.
Per concedere questi ruoli:
Nella console Google Cloud, vai alla pagina IAM.
Fai clic su Aggiungi.
Nel campo Nuove entità, inserisci il tuo ID account di servizio Dataform.
Nell'elenco a discesa Seleziona un ruolo, seleziona il ruolo Utente job BigQuery.
Fai clic su Aggiungi un altro ruolo e nell'elenco a discesa Seleziona un ruolo seleziona il ruolo Editor dati BigQuery.
Fai clic su Aggiungi un altro ruolo e seleziona Visualizzatore dati BigQuery nell'elenco a discesa Seleziona un ruolo.
Fai clic su Salva.
Esegui il flusso di lavoro
Nella console Google Cloud, vai alla pagina Dataform.
Nella pagina
quickstart-workspace
, fai clic su Avvia esecuzione.Fai clic su Tutte le azioni.
Nel riquadro Esegui, fai clic su Avvia esecuzione.
Dataform utilizza le impostazioni predefinite del repository per creare i contenuti del tuo flusso di lavoro in un set di dati BigQuery chiamato
dataform
.
Visualizza i log di esecuzione in Dataform
Nella pagina
quickstart-repository
, fai clic su Log di esecuzione del flusso di lavoro.Per visualizzare i dettagli dell'esecuzione, fai clic sull'ultima esecuzione.
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi:
Elimina il set di dati creato in BigQuery
Per evitare che ti vengano addebitati dei costi per gli asset BigQuery, elimina il set di dati denominato dataform
.
Nella console Google Cloud, vai alla pagina BigQuery.
Nel riquadro Explorer, espandi il progetto e seleziona
dataform
.Fai clic sul menu Azioni di
e seleziona Elimina.Nella finestra di dialogo Elimina set di dati, inserisci
delete
nel campo, quindi fai clic su Elimina.
Elimina l'area di lavoro di sviluppo Dataform
La creazione dell'area di lavoro di sviluppo Dataform non prevede costi, ma per eliminare l'area di lavoro di sviluppo puoi seguire questi passaggi:
Nella console Google Cloud, vai alla pagina Dataform.
Fai clic su
quickstart-repository
.Nella scheda Aree di lavoro di sviluppo, fai clic sul menu
Altro perquickstart-workspace
, poi seleziona Elimina.Per confermare, fai clic su Elimina.
Elimina il repository Dataform
La creazione di repository Dataform non prevede costi, ma per eliminare il repository puoi seguire questi passaggi:
Nella console Google Cloud, vai alla pagina Dataform.
In
quickstart-repository
, fai clic sul menu Altro di e seleziona Elimina.Nella finestra Elimina repository, inserisci il nome del repository per confermare l'eliminazione.
Per confermare, fai clic su Elimina.
Passaggi successivi
Per saperne di più su Dataform, consulta Panoramica di Dataform.
Per scoprire di più sulle funzionalità di Dataform, consulta la panoramica delle funzionalità di Dataform.
Per scoprire di più su Dataform core, consulta la Panoramica del core di Dataform.
Per scoprire come eseguire l'override delle impostazioni predefinite di Dataform del tuo repository, consulta Configurare le impostazioni di Dataform.
Per saperne di più sulla gestione dei set di dati in BigQuery, consulta Gestione dei set di dati.
Per saperne di più sulla gestione delle tabelle in BigQuery, consulta Gestione delle tabelle.