Questo documento mostra come dichiarare le origini dati BigQuery con Dataform Core.
Puoi dichiarare qualsiasi tipo di tabella BigQuery come origine dati in Dataform. La dichiarazione di origini dati BigQuery esterne a Dataform ti consente di trattarle come oggetti Dataform.
La dichiarazione delle origini dati è facoltativa, ma può essere utile quando vuoi:
- Fai riferimento o risolvi le origini dichiarate nello stesso modo di qualsiasi altra tabella in Dataform.
- Visualizza le origini dichiarate nel grafico di Dataform visualizzato.
- Utilizza Dataform per gestire le descrizioni a livello di tabella e di colonna delle tabelle create esternamente.
- Attiva le invocazioni del flusso di lavoro che includono tutti i dipendenti di un'origine dati esterna.
Puoi dichiarare le origini dati utilizzando file JavaScript o SQLX. In un file JavaScript puoi dichiarare più origini dati per file. In un file SQLX puoi dichiarare un'origine dati per file.
Prima di iniziare
Prima di dichiarare un'origine dati, crea e inizializza uno spazio di lavoro di sviluppo nel tuo repository.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per dichiarare un'origine dati,
chiedi all'amministratore di concederti il ruolo IAM Editor di Dataform (roles/dataform.editor
) in Workspaces.
Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Creare un file JavaScript per più dichiarazioni di origini dati
Memorizza i file JavaScript per le dichiarazioni delle origini dati nella directory definitions/
.
Per creare un nuovo file JavaScript nella directory definitions/
:
Nella console Google Cloud, vai alla pagina Dataform.
Seleziona un repository.
Seleziona uno spazio di lavoro di sviluppo.
Nel riquadro File, accanto a
definitions/
, fai clic sul menu Altro.Fai clic su Crea file.
Nel riquadro Crea nuovo file:
Nel campo Aggiungi un percorso del file, dopo
definitions/
, inserisci il nome del file seguito da.js
. Ad esempio,definitions/declarations.js
.I nomi dei file possono includere solo numeri, lettere, trattini e trattini bassi.
Fai clic su Crea file.
Aggiungere una dichiarazione a un file JavaScript
Puoi dichiarare più origini dati per file JavaScript. Per aggiungere una nuova dichiarazione:
- Nell'area di lavoro di sviluppo, nel riquadro File, fai clic sul file JavaScript per le dichiarazioni delle origini dati.
Nel file, aggiungi il seguente snippet di codice per ogni origine dati:
declaration({ database: "DATABASE", schema: "SCHEMA", name: "NAME", })
Sostituisci quanto segue:
DATABASE
: l'ID del progetto che contiene l'origine dati.SCHEMA
: il set di dati BigQuery in cui esiste l'origine dati.NAME
: il nome della tabella o della vista da utilizzare come origine dati. In un secondo momento, puoi utilizzare questo nome per fare riferimento all'origine dati in Dataform.
Crea un file SQLX per la dichiarazione dell'origine dati
Memorizza i file SQLX per le dichiarazioni delle origini dati nella directory definitions/
.
Per creare un nuovo file SQLX nella directory definitions/
:
Nella console Google Cloud, vai alla pagina Dataform.
Seleziona un repository.
Seleziona uno spazio di lavoro di sviluppo.
Nel riquadro File, accanto a
definitions/
, fai clic sul menu Altro.Fai clic su Crea file.
Nel riquadro Crea nuovo file:
Nel campo Aggiungi un percorso del file, dopo
definitions/
, inserisci il nome del file seguito da.sqlx
. Ad esempio,definitions/dataset-declaration.sqlx
.I nomi dei file possono includere solo numeri, lettere, trattini e trattini bassi.
Fai clic su Crea file.
Dichiarare un'origine dati
Puoi dichiarare un'origine dati per file di dichiarazione SQLX. Per dichiarare un'origine dati nel blocco di configurazione di un file SQLX:
- Nell'area di lavoro di sviluppo, nel riquadro File, fai clic sul file SQLX per la dichiarazione dell'origine dati.
Nel file, inserisci il seguente snippet di codice:
config { type: "declaration", database: "DATABASE", schema: "SCHEMA", name: "NAME", }
Sostituisci quanto segue:
DATABASE
: l'ID del progetto che contiene l'origine dati.SCHEMA
: il set di dati BigQuery in cui esiste l'origine dati.NAME
: il nome della tabella o della vista da utilizzare come origine dati. In un secondo momento, puoi utilizzare questo nome per fare riferimento all'origine dati in Dataform.
(Facoltativo) Fai clic su Formato.
Il seguente esempio di codice mostra una dichiarazione di esempio della tabella shakespeare
nel set di dati samples
del progetto bigquery-public-data
come origine dati:
config {
type: "declaration",
database: "bigquery-public-data",
schema: "samples",
name: "shakespeare",
}
Passaggi successivi
- Per scoprire come dichiarare un'origine dati con JavaScript, consulta Creare flussi di lavoro SQL con JavaScript.
- Per scoprire come definire una tabella, consulta Creare una tabella.
- Per scoprire come configurare partizioni e cluster di tabelle, consulta Creare partizioni e cluster di tabelle.