Utilizza l'interfaccia a riga di comando open source Dataform

Questo documento mostra come utilizzare il Dataform open source interfaccia a riga di comando (CLI) per sviluppare localmente flussi di lavoro SQL utilizzando il terminale.

Con l'interfaccia a riga di comando open source Dataform, puoi inizializzare, compilare, testare ed eseguire Dataform core in locale, al di fuori di Google Cloud.

L'interfaccia a riga di comando Dataform supporta le Credenziali predefinite dell'applicazione (ADC). Con ADC, puoi rendere disponibili le credenziali per la tua applicazione in diverse di ambienti, come lo sviluppo o la produzione locale, senza la necessità modificare il codice dell'applicazione. Per utilizzare ADC, devi prima fornisci le tue credenziali ad ADC.

Prima di iniziare

Prima di installare l'interfaccia a riga di comando Dataform, installa Gestione dei partner di rete.

Installa l'interfaccia a riga di comando Dataform

  • Per installare l'interfaccia a riga di comando Dataform, esegui questo comando:

    npm i -g @dataform/cli@^3.0.0-beta
    

Inizializzare un progetto Dataform

  • Per inizializzare un nuovo progetto Dataform, esegui questo comando nella directory del tuo progetto:

    dataform init . PROJECT_NAME DEFAULT_LOCATION
    

    Sostituisci quanto segue:

    • PROJECT_NAME: il nome del progetto.
    • DEFAULT_LOCATION: la regione in cui vuoi Dataform per scrivere dati BigQuery. Per ulteriori informazioni sulle regioni BigQuery, consulta Località di BigQuery

Aggiornamento Dataform

  • Per aggiornare il framework Dataform, aggiorna dataformCoreVersion nel file workflow_settings.yaml, quindi esegui di nuovo l'installazione di Gestione dei partner di rete:

    npm i
    

Aggiorna interfaccia a riga di comando Dataform

  • Per aggiornare lo strumento dell'interfaccia a riga di comando Dataform, esegui questo comando:

    npm i -g @dataform/cli@^3.0.0-beta.2
    

Crea un file delle credenziali

Dataform richiede un file di credenziali per connettersi ai servizi remoti e crea il file .df-credentials.json sul tuo disco.

Per creare il file delle credenziali:

  1. Esegui questo comando:

    dataform init-creds
    
  2. Segui la procedura guidata di init-creds che ti guida nella creazione dei file delle credenziali.

Crea un progetto

Un progetto Dataform vuoto nel core Dataform 3.0.0-beta.0 o successive ha la seguente struttura:

   project-dir
   ├── definitions
   ├── includes
   └── workflow_settings.yaml
  • Per creare un progetto Dataform per eseguire il deployment degli asset in BigQuery, esegui questo comando:

    dataform init PROJECT_NAME --default-project YOUR_GOOGLE_CLOUD_PROJECT_ID
    

    Sostituisci quanto segue:

    • PROJECT_NAME: il nome del progetto.
    • YOUR_GOOGLE_CLOUD_PROJECT_ID: l'ID del tuo progetto Google Cloud.

Clona un progetto

Per clonare un progetto Dataform esistente da un repository Git di terze parti, segui le istruzioni del tuo provider Git.

  • Una volta clonato il repository, esegui questo comando all'interno nella directory del repository clonato:

    dataform install
    

Definisci una tabella

Archivia le definizioni nella cartella definitions/.

  • Per definire una tabella, esegui questo comando:

    echo "config { type: 'TABLE_TYPE' } SELECT_STATEMENT" > definitions/FILE.sqlx
    

    Sostituisci quanto segue:

    • TABLE_TYPE: il tipo di tabella: table, incremental o view.
    • SELECT_STATEMENT: un'istruzione SELECT che definisce la tabella.
    • FILE: il nome del file di definizione della tabella.

Il seguente esempio di codice definisce una vista nel file SQLX example.

echo "config { type: 'view' } SELECT 1 AS test" > definitions/example.sqlx

Definisci un'asserzione manuale

Archivia le definizioni nella cartella definitions/.

  • Per definire un'asserzione manuale, esegui questo comando:

    echo "config { type: 'assertion' } SELECT_STATEMENT" > definitions/FILE.sqlx
    

    Sostituisci quanto segue:

    • SELECT_STATEMENT: un'istruzione SELECT che definisce l'asserzione.
    • FILE: il nome dell'operazione SQL personalizzata file di definizione.

Definisci un'operazione SQL personalizzata

Archivia le definizioni nella cartella definitions/.

  • Per definire un'operazione SQL personalizzata, esegui questo comando:

    echo "config { type: 'operations' } SQL_QUERY" > definitions/FILE.sqlx
    

    Sostituisci quanto segue:

    • SQL_QUERY: l'operazione SQL personalizzata.
    • FILE: il nome dell'operazione SQL personalizzata file di definizione.

Visualizza output della compilazione

Dataform compila il codice in tempo reale.

  • Per visualizzare l'output del processo di compilazione nel terminale, esegui questo comando:

    dataform compile
    
  • Per visualizzare l'output del processo di compilazione come oggetto JSON, esegui questo comando:

    dataform compile --json
    
  • Per visualizzare l'output della compilazione con variabili di compilazione personalizzate, esegui questo comando:

    dataform compile --vars=SAMPLE_VAR=SAMPLE_VALUE,foo=bar
    

    Sostituisci quanto segue:

    • SAMPLE_VAR: la variabile di compilazione personalizzata.
    • SAMPLE_VALUE: il valore del tuo variabile di compilazione personalizzata.

Esegui codice

Per eseguire il codice, Dataform accede a BigQuery determinarne lo stato attuale e personalizzare di conseguenza l'SQL risultante.

  • Per eseguire il codice del tuo progetto Dataform, esegui questo comando:

    dataform run
    
  • Per eseguire il codice del tuo progetto Dataform in BigQuery: con variabili di compilazione personalizzate, esegui questo comando:

    dataform run --vars=SAMPLE_VAR=SAMPLE_VALUE,sampleVar2=sampleValue2
    

    Sostituisci quanto segue:

    • SAMPLE_VAR: la variabile di compilazione personalizzata.
    • SAMPLE_VALUE: il valore del tuo variabile di compilazione personalizzata.
  • Per eseguire il codice del tuo progetto Dataform in BigQuery e ricreare tutte le tabelle da zero, esegui questo comando:

    dataform run --full-refresh
    

Senza --full-refresh, Dataform aggiorna le tabelle incrementali senza ricrearli da zero.

  • per vedere il codice SQL compilato finale adattato allo stato attuale in BigQuery, senza eseguirlo all'interno di BigQuery, esegui questo comando:

    dataform run --dry-run
    

Assistenza

  • Per elencare tutti i comandi e le opzioni disponibili, esegui questo comando:

    dataform help
    
  • Per visualizzare la descrizione di un comando specifico, esegui questo comando:

    dataform help COMMAND
    

    Sostituisci COMMAND con il comando su cui vuoi scoprire di più.

Passaggi successivi