Crea ed esegui un flusso di lavoro SQL in Dataform

Questa guida rapida illustra il processo seguente in Dataform per creare un flusso di lavoro SQL ed eseguirlo in BigQuery:

Prima di iniziare

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the BigQuery and Dataform APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the BigQuery and Dataform APIs.

    Enable the APIs

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per eseguire tutte le attività in questo tutorial: chiedi all'amministratore di concederti i seguenti ruoli IAM sul tuo progetto:

  • Amministratore Dataform (roles/dataform.admin) - repository
  • Editor Dataform (roles/dataform.editor) - aree di lavoro e chiamate del flusso di lavoro

Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite la ruoli o altri ruoli predefiniti ruoli.

Crea un repository Dataform

  1. Nella console Google Cloud, vai alla pagina Dataform.

    Vai a Dataform

  2. Fai clic su Crea repository.

  3. Nella pagina Crea repository, segui questi passaggi:

    1. Nel campo ID repository, inserisci quickstart-repository.

    2. Nell'elenco Regione, seleziona europe-west4.

    3. Fai clic su Crea.

Crea e inizializza un'area di lavoro di sviluppo Dataform

  1. Nella console Google Cloud, vai alla pagina Dataform.

    Vai a Dataform

  2. Fai clic su quickstart-repository.

  3. Fai clic su Crea sviluppo Workspace.

  4. Nella finestra Crea area di lavoro di sviluppo:

    1. Nel campo ID area di lavoro, inserisci quickstart-workspace.

    2. Fai clic su Crea.

    Viene visualizzata la pagina dell'area di lavoro di sviluppo.

  5. Fai clic su Inizializza area di lavoro.

di Gemini Advanced.

Crea una vista

Nelle sezioni seguenti viene definita una vista da utilizzare in seguito come dati. l'origine di una tabella.

Crea un file SQLX per definire una vista

  1. Nel riquadro File, accanto a definitions/, fai clic sull'icona Menu Altro.

  2. Fai clic su Crea file.

  3. Nel riquadro Crea nuovo file, segui questi passaggi:

    1. Nel campo Aggiungi un percorso del file, inserisci definitions/quickstart-source.sqlx.

    2. Fai clic su Crea file.

Definisci una vista

  1. Nel riquadro File, espandi la cartella delle definizioni.

  2. Fai clic su definitions/quickstart-source.sqlx.

  3. Nel file, inserisci il seguente snippet di codice:

    config {
     type: "view"
    }
    
    SELECT
     "apples" AS fruit,
     2 AS count
    UNION ALL
    SELECT
     "oranges" AS fruit,
     5 AS count
    UNION ALL
    SELECT
     "pears" AS fruit,
     1 AS count
    UNION ALL
    SELECT
     "bananas" AS fruit,
     0 AS count
    
  4. Fai clic su Formato.

Creare una tabella

Nelle sezioni seguenti viene descritto il tipo di tabella in un file SQLX e quindi scrivere un'istruzione SELECT per definire la struttura della tabella all'interno dello stesso file.

Crea un file SQLX per definire una tabella

  1. Nel riquadro File, accanto a definitions/, fai clic sull'icona Menu Altro, quindi seleziona Crea file.

  2. Nel campo Aggiungi un percorso file, inserisci definitions/quickstart-table.sqlx.

  3. Fai clic su Crea file.

Definisci il tipo di tabella, la struttura e le dipendenze

  1. Nel riquadro File, espandi la directory definitions/.

  2. Seleziona quickstart-table.sqlx, poi inserisci il seguente tipo di tabella e Istruzione SELECT:

    config {
     type: "table"
    }
    
    SELECT
     fruit,
     SUM(count) as count
    FROM ${ref("quickstart-source")}
    GROUP BY 1
    
  3. Fai clic su Formato.

Dopo aver definito il tipo di tabella, Dataform genera un errore di convalida della query perché quickstart-source non esiste ancora in BigQuery. Questo viene risolto quando eseguirai il flusso di lavoro SQL più avanti in questo tutorial.

Concedi l'accesso Dataform a BigQuery

Per eseguire flussi di lavoro in BigQuery, il Dataform l'account di servizio deve avere i seguenti ruoli obbligatori:

  • Editor dati BigQuery sui progetti per i quali Dataform ha bisogno dell'accesso in lettura e in scrittura. Loro di solito includono il progetto che ospita il repository Dataform.
  • Visualizzatore dati BigQuery sui progetti a cui Dataform ha bisogno dell'accesso in sola lettura.
  • Utente job BigQuery del progetto che ospita il tuo repository Dataform.

Per concedere questi ruoli:

  1. Nella console Google Cloud, vai alla pagina IAM.

    Vai alla pagina IAM

  2. Fai clic su Aggiungi.

  3. Nel campo Nuove entità, inserisci il servizio Dataform dell'account di servizio.

  4. Nell'elenco a discesa Seleziona un ruolo, seleziona la Ruolo Utente job BigQuery.

  5. Fai clic su Aggiungi un altro ruolo e poi nel menu a discesa Seleziona un ruolo. seleziona il ruolo Editor dati BigQuery.

  6. Fai clic su Aggiungi un altro ruolo e poi nel menu a discesa Seleziona un ruolo. seleziona il ruolo Visualizzatore dati BigQuery.

  7. Fai clic su Salva.

Esegui il flusso di lavoro

  1. Nella console Google Cloud, vai alla pagina Dataform.

    Vai a Dataform

  2. Nella pagina quickstart-workspace, fai clic su Avvia esecuzione.

  3. Fai clic su Tutte le azioni.

  4. Nel riquadro Esegui, fai clic su Avvia esecuzione.

    Dataform utilizza le impostazioni predefinite del repository per creare dei contenuti del flusso di lavoro in un set di dati BigQuery dataform.

Visualizza i log di esecuzione in Dataform

  1. Nella pagina quickstart-repository, fai clic su Log di esecuzione del flusso di lavoro.

  2. Per visualizzare i dettagli dell'esecuzione, fai clic sull'ultima esecuzione.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi per le risorse utilizzate in questa pagina, segui questi passaggi.

Elimina il set di dati creato in BigQuery

Per evitare che ti vengano addebitati costi per gli asset BigQuery, elimina il file chiamato dataform.

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, espandi il progetto e seleziona dataform.

  3. Fai clic sul menu Azioni e seleziona Elimina.

  4. Nella finestra di dialogo Elimina set di dati, inserisci delete nel campo, quindi fai clic su Elimina.

Elimina l'area di lavoro di sviluppo Dataform

La creazione dell'area di lavoro di sviluppo Dataform non comporta costi, ma l'eliminazione nell'area di lavoro di sviluppo, puoi seguire questi passaggi:

  1. Nella console Google Cloud, vai alla pagina Dataform.

    Vai a Dataform

  2. Fai clic su quickstart-repository.

  3. Nella scheda Aree di lavoro di sviluppo, fai clic sulla Menu Altro di quickstart-workspace, quindi seleziona Elimina.

  4. Per confermare, fai clic su Elimina.

Elimina il repository Dataform

La creazione del repository Dataform non comporta costi, ma l'eliminazione di archiviazione, puoi seguire questi passaggi:

  1. Nella console Google Cloud, vai alla pagina Dataform.

    Vai a Dataform

  2. Entro quickstart-repository, fai clic sul menu Altro , e poi seleziona Elimina.

  3. Nella finestra Elimina repository, inserisci il nome del repository per confermare l'eliminazione.

  4. Per confermare, fai clic su Elimina.

Passaggi successivi