Introduzione al ciclo di vita del codice in Dataform

Questo documento descrive il ciclo di vita del codice in Dataform e i modi per configurare la compilazione e l'esecuzione all'interno di Dataform.

Informazioni sul ciclo di vita del codice in Dataform

Il ciclo di vita del codice Dataform è costituito dalle seguenti fasi:

Sviluppo
Sviluppi un flusso di lavoro SQL in un'area di lavoro Dataform.
Compilation

Dataform compila il codice del flusso di lavoro SQL nell'area di lavoro in SQL in tempo reale, creando un risultato di compilazione dell'area di lavoro che puoi eseguire in BigQuery. Dataform utilizza le impostazioni che hai definito nel file dataform.json per creare il risultato della compilazione.

La compilazione Dataform è ermetica per garantire la coerenza della compilazione, ovvero lo stesso codice viene compilato ogni volta sullo stesso risultato di compilazione SQL. Dataform compila il codice in un ambiente sandbox senza accesso a Internet. Durante la compilazione non sono disponibili azioni aggiuntive, come la chiamata di API esterne.

Esecuzione

In una chiamata di flusso di lavoro, Dataform esegue il risultato della compilazione dell'area di lavoro in BigQuery.

Per personalizzare il ciclo di vita del codice Dataform in base alle tue esigenze, puoi configurare il risultato della compilazione per influenzare dove e come Dataform esegue il tuo flusso di lavoro SQL. Successivamente, puoi attivare o pianificare manualmente le esecuzioni per determinare quando Dataform esegue l'intero flusso di lavoro SQL o gli elementi selezionati.

Modi per configurare la compilazione Dataform

Per impostazione predefinita, Dataform utilizza le impostazioni nel file dataform.json per creare risultati di compilazione. Puoi eseguire l'override delle impostazioni predefinite con gli override delle compilazioni per creare risultati di compilazione personalizzati. Puoi quindi attivare manualmente l'esecuzione di un risultato di compilazione personalizzato o pianificarne l'esecuzione.

Dataform fornisce le seguenti opzioni per configurare i risultati di compilazione:

Override di compilazione dell'area di lavoro
Puoi configurare override di compilazione che si applicano a tutte le aree di lavoro in un repository. Puoi utilizzare gli override di compilazione delle aree di lavoro per creare ambienti di sviluppo isolati.
Configurazioni di release
Puoi creare configurazioni di release per configurare i modelli per creare risultati di compilazione di un repository Dataform. Puoi quindi creare una configurazione del flusso di lavoro per pianificare le esecuzioni dei risultati di compilazione creati in una configurazione di release selezionata.
Override di compilazione dell'API Dataform
Puoi trasmettere le richieste API Dataform nel terminale per creare ed eseguire un singolo risultato di compilazione con override di compilazione.

Configura gli override di compilazione dell'area di lavoro

Con gli override delle compilazioni delle aree di lavoro, puoi creare override di compilazione per tutte le aree di lavoro in un repository Dataform. Puoi creare una configurazione di override di compilazione dell'area di lavoro per repository.

Quando attivi manualmente l'esecuzione in un'area di lavoro in un repository con override di compilazione dell'area di lavoro, Dataform applica questi override al risultato della compilazione dell'area di lavoro.

Puoi configurare i seguenti override di compilazione dell'area di lavoro:

  • Progetto Google Cloud in cui Dataform esegue i contenuti dell'area di lavoro
  • Prefisso tabella
  • Suffisso schema

Puoi utilizzare gli override di compilazione delle aree di lavoro per creare ambienti di sviluppo isolati, isolando i risultati di compilazione delle aree di lavoro in BigQuery con gli override di compilazione dinamica. Gli override della compilazione del prefisso della tabella dinamica e dei suffissi dello schema contengono la variabile ${workspaceName}. Quando attivi l'esecuzione in un'area di lavoro, Dataform sostituisce la variabile ${workspaceName} con il nome dell'area di lavoro corrente, creando override di compilazione univoci per l'area di lavoro.

Tieni presente che non puoi pianificare le esecuzioni dei risultati di compilazione creati con gli override di compilazione dell'area di lavoro.

Crea configurazioni di release

Con le configurazioni di release, puoi configurare modelli di impostazioni per creare risultati di compilazione dei repository.

In una configurazione di release, puoi configurare gli override di compilazione delle impostazioni dataform.json, delle variabili di compilazione e la frequenza di creazione dei risultati di compilazione dell'intero repository.

In una configurazione della release, puoi configurare i seguenti override di compilazione:

Puoi creare più configurazioni di release in un repository Dataform, una per ogni fase del ciclo di vita di sviluppo, creando risultati di compilazione di repository isolati.

Puoi quindi creare configurazioni di flusso di lavoro per pianificare le esecuzioni dei risultati di compilazione creati in una configurazione di release selezionata.

Puoi anche attivare manualmente l'esecuzione di un risultato di compilazione in una configurazione di release selezionata.

Configura un singolo risultato di compilazione con gli override di compilazione dell'API Dataform

Se trasmetti le richieste dell'API Dataform nel terminale, puoi configurare gli override delle compilazioni per un singolo risultato di compilazione.

Nella richiesta compilationResults.create, puoi creare un singolo risultato di compilazione di un'area di lavoro Dataform o di uncomittish Git specificato.

Nell'oggetto CodeCompilationConfig della richiesta compilationResults.create, puoi configurare gli override di compilazione per la richiesta di compilazione.

Puoi configurare i seguenti override di compilazione dell'API Dataform:

Tieni presente che gli override di compilazione dell'API Dataform si applicano a un singolo risultato di compilazione e a una singola esecuzione. Non puoi usarli per pianificare le esecuzioni di Dataform.

Puoi eseguire un risultato di compilazione nella richiesta workflowInvocations.create.

Modi per configurare l'esecuzione di Dataform

Dataform offre le seguenti opzioni per configurare l'esecuzione:

Esecuzione manuale in un'area di lavoro
Puoi attivare manualmente l'esecuzione istantanea di un flusso di lavoro SQL in un'area di lavoro Dataform, al di fuori di qualsiasi pianificazione. Puoi eseguire azioni selezionate nel flusso di lavoro SQL.
Configurazioni del flusso di lavoro
Puoi pianificare le esecuzioni dei risultati delle compilazioni create in una configurazione di release selezionata. Puoi selezionare le azioni da eseguire nel flusso di lavoro SQL e impostare la frequenza e il fuso orario delle esecuzioni.

Attiva l'esecuzione istantanea in un'area di lavoro

In un'area di lavoro Dataform, puoi eseguire manualmente l'esecuzione istantanea del flusso di lavoro SQL nell'area di lavoro al di fuori di qualsiasi pianificazione.

Nella tua area di lavoro puoi eseguire manualmente i seguenti elementi del flusso di lavoro SQL:

Se il repository contiene override di compilazione dell'area di lavoro, puoi visualizzare quale compilazione sostituisce Dataform al risultato della compilazione dell'area di lavoro.

Creazione di configurazioni del flusso di lavoro

Con le configurazioni dei flussi di lavoro, puoi pianificare le esecuzioni dei risultati di compilazione da una configurazione di release selezionata. Puoi creare più configurazioni del flusso di lavoro in un repository Dataform.

In una configurazione di flusso di lavoro, puoi configurare le seguenti impostazioni di esecuzione:

  • Configurazione della release della compilazione applicata
  • Selezione delle azioni del flusso di lavoro SQL da eseguire
  • Pianificazione e fuso orario delle esecuzioni

Puoi selezionare le seguenti azioni del flusso di lavoro SQL da eseguire:

  • Tutte le azioni
  • Azioni selezionate
  • Azioni con i tag selezionati

Quindi, durante un'esecuzione pianificata della configurazione del flusso di lavoro, Dataform esegue il deployment della tua selezione di azioni dal risultato della compilazione applicato a BigQuery.

Le configurazioni di rilascio e i flussi di lavoro di Dataform consentono di configurare la compilazione e la pianificazione delle esecuzioni all'interno di Dataform, senza dover fare affidamento su servizi aggiuntivi.

Scadenza delle risorse del ciclo di vita

Dataform archivia i risultati della compilazione e le chiamate del flusso di lavoro per un periodo di tempo specifico.

Scadenza delle chiamate al flusso di lavoro

Le chiamate del flusso di lavoro scadono dopo 90 giorni o quando le elimini manualmente.

In una configurazione del flusso di lavoro, puoi visualizzare un elenco delle più recenti chiamate del flusso di lavoro create dalla configurazione. Quando una chiamata del flusso di lavoro creata da una configurazione del flusso di lavoro scade, Dataform rimuove tale chiamata del flusso di lavoro dall'elenco delle chiamate recenti.

Scadenza dei risultati della compilazione

La scadenza dei risultati della compilazione dipende dal modo in cui vengono creati: in un'area di lavoro di sviluppo, in una configurazione di release o tramite una chiamata di un flusso di lavoro.

Quando sviluppi un flusso di lavoro SQL in un'area di lavoro Dataform, Dataform compila il tuo codice in una compilazione con un risultato in tempo reale per fornire la convalida delle query. I risultati delle compilazioni create in questo modo scadono dopo 24 ore.

In una configurazione della release, l'ultimo risultato della compilazione diventa il risultato della compilazione in tempo reale. Un nuovo risultato di compilazione sostituisce l'attuale risultato di compilazione in tempo reale. Dataform conserva il risultato della compilazione in tempo reale finché non viene sostituito con un nuovo risultato della compilazione. Un risultato di compilazione sostituito scade tra 24 ore.

Dataform rimuove i risultati delle compilazioni scadute dall'elenco dei risultati di compilazione precedenti nella pagina Dettagli di una configurazione di release.

Dataform conserva i risultati delle compilazioni create dalle chiamate del flusso di lavoro per l'intera durata della chiamata del flusso di lavoro, fino a 24 ore dopo la scadenza o l'eliminazione della chiamata del flusso di lavoro.

Passaggi successivi