Introduzione al ciclo di vita del codice in Dataform

Questo documento descrive il ciclo di vita del codice in Dataform e i modi per configurare la compilazione e l'esecuzione all'interno di Dataform.

Informazioni sul ciclo di vita del codice in Dataform

Il ciclo di vita del codice Dataform è costituito dalle seguenti fasi:

Sviluppo
Sviluppi un flusso di lavoro SQL in un'area di lavoro Dataform.
Compilation

Dataform compila il codice del flusso di lavoro SQL nella tua area di lavoro in SQL in tempo reale, creando un risultato di compilazione dell'area di lavoro che puoi eseguire in BigQuery. Dataform utilizza le impostazioni che hai definito nel file di impostazioni del flusso di lavoro per creare il risultato della compilazione.

La compilazione di Dataform è ermetica per garantire la coerenza della compilazione, ovvero che lo stesso codice venga compilato nello stesso risultato di compilazione SQL ogni volta. Dataform compila il codice in un ambiente sandbox senza accesso a internet. Durante la compilazione non sono disponibili azioni aggiuntive, come le chiamate alle API esterne.

Esecuzione

In un'invocazione del workflow, Dataform esegue il risultato della compilazione dello spazio di lavoro in BigQuery.

Per personalizzare il ciclo di vita del codice Dataform in base alle tue esigenze, puoi configurare il risultato della compilazione in modo da influire su dove e come Dataform esegue il flusso di lavoro SQL. Dopodiché, puoi attivare o pianificare manualmente le esecuzioni per decidere quando Dataform deve eseguire l'intero flusso di lavoro SQL o alcuni suoi elementi selezionati.

Metodi per configurare la compilazione di Dataform

Per impostazione predefinita, Dataform utilizza le impostazioni nel file delle impostazioni del flusso di lavoro per creare i risultati della compilazione. Puoi sostituire le impostazioni predefinite con gli override di compilazione per creare risultati di compilazione personalizzati. Puoi quindi attivare manualmente l'esecuzione di un risultato di compilazione personalizzato o pianificare le esecuzioni.

Dataform fornisce le seguenti opzioni per la configurazione risultati della compilazione:

Override di compilazione dello spazio di lavoro
Puoi configurare gli override della compilazione che si applicano a tutte le aree di lavoro in un repository. Puoi utilizzare gli override di compilazione dell'area di lavoro per creare ambienti di sviluppo isolati.
Configurazioni della release
Puoi creare configurazioni della release per configurare i modelli per la creazione dei risultati di compilazione di un repository Dataform. Puoi quindi creare una configurazione del workflow per pianificare le esecuzioni dei risultati di compilazione creati in una configurazione di release selezionata.
Sostituzioni di compilazione dell'API Dataform
Puoi passare le richieste dell'API Dataform nel terminale per creare ed eseguire un singolo risultato di compilazione con sostituzioni di compilazione.

Configura gli override di compilazione dell'area di lavoro

Con gli override della compilazione dell'area di lavoro, puoi creare override della compilazione per tutte le aree di lavoro in un repository Dataform. Puoi creare una configurazione di override della compilazione dell'area di lavoro per repository.

Quando attivi manualmente l'esecuzione in uno spazio di lavoro in un repository con override di compilazione dello spazio di lavoro, Dataform applica questi override al risultato della compilazione dello spazio di lavoro.

Puoi configurare i seguenti override di compilazione dell'area di lavoro:

  • ProgettoGoogle Cloud in cui Dataform esegue i contenuti dell'area di lavoro
  • Prefisso tabella
  • Suffisso schema

Puoi utilizzare gli override di compilazione dell'area di lavoro per creare ambienti di sviluppo isolati isolando i risultati della compilazione dell'area di lavoro in BigQuery con gli override di compilazione dinamica. Gli override delle compilazioni del prefisso della tabella e del suffisso dello schema dinamico contengono la variabile ${workspaceName}. Quando attivi l'esecuzione in uno spazio di lavoro, Dataform sostituisce la variabile ${workspaceName} con il nome dello spazio di lavoro corrente, creando override di compilazione univoci per lo spazio di lavoro.

Tieni presente che non puoi pianificare le esecuzioni dei risultati della compilazione creati con gli override di compilazione dell'area di lavoro.

Crea configurazioni della release

Con le configurazioni della release, puoi configurare modelli di impostazioni per creare risultati di compilazione dei repository.

In una configurazione della release, puoi configurare gli override della compilazione delle impostazioni del flusso di lavoro, delle variabili di compilazione e della frequenza di creazione dei risultati della compilazione dell'intero repository.

In una configurazione della release, puoi configurare i seguenti override della compilazione:

Puoi creare più configurazioni di release in un repository Dataform, una per ogni fase del ciclo di vita di sviluppo, creando risultati di compilazione del repository isolati.

Puoi quindi creare configurazioni del flusso di lavoro per pianificare le esecuzioni dei risultati di compilazione creati in una configurazione di release selezionata.

Puoi anche attivare manualmente l'esecuzione di un risultato di compilazione in una configurazione di release selezionata.

Configurare un singolo risultato di compilazione con le sostituzioni di compilazione dell'API Dataform

Passando le richieste dell'API Dataform nel terminale, puoi configurare le sostituzioni di compilazione per un singolo risultato di compilazione.

Nella richiesta compilationResults.create, puoi creare un singolo risultato di compilazione di uno spazio di lavoro Dataform o di un commit Git specificato.

Nell'oggetto CodeCompilationConfig della richiestacompilationResults.create, puoi configurare le sostituzioni di compilazione per la richiesta di compilazione.

Puoi configurare i seguenti override di compilazione dell'API Dataform:

Tieni presente che le sostituzioni della compilazione dell'API Dataform si applicano a un singolo risultato di compilazione e a una singola esecuzione. Non puoi utilizzarli per pianificare le esecuzioni di Dataform.

Puoi eseguire un risultato di compilazione nella richiesta workflowInvocations.create.

Metodi per configurare l'esecuzione di Dataform

Dataform offre le seguenti opzioni per la configurazione dell'esecuzione:

Esecuzione manuale in uno spazio di lavoro
Puoi attivare manualmente l'esecuzione istantanea di un flusso di lavoro SQL in uno spazio di lavoro Dataform, al di fuori di qualsiasi pianificazione. Puoi eseguire alcune azioni nel flusso di lavoro SQL.
Configurazioni dei flussi di lavoro
Puoi pianificare le esecuzioni dei risultati della compilazione creati in una configurazione di release selezionata. Puoi selezionare le azioni di flusso di lavoro SQL da eseguire e impostare la frequenza e il fuso orario delle esecuzioni.

Attivare l'esecuzione istantanea in uno spazio di lavoro

In un'area di lavoro Dataform, puoi eseguire manualmente l'esecuzione immediata del flusso di lavoro SQL al di fuori di qualsiasi pianificazione.

Puoi eseguire manualmente i seguenti elementi del flusso di lavoro SQL nella tua area di lavoro:

Se il tuo repository contiene override della compilazione dell'area di lavoro, puoi visualizzare gli override della compilazione che Dataform applicherà al risultato della compilazione dell'area di lavoro.

Creare configurazioni dei workflow

Con le configurazioni dei flussi di lavoro, puoi pianificare le esecuzioni dei risultati di compilazione da una selezionata configurazione della release. Puoi creare più configurazioni del flusso di lavoro in un repository Dataform.

In una configurazione del workflow, puoi configurare le seguenti impostazioni di esecuzione:

  • Configurazione della release di compilazione applicata
  • Selezione delle azioni del flusso di lavoro SQL da eseguire
  • Pianificazione e fuso orario delle esecuzioni

Puoi selezionare le seguenti azioni del flusso di lavoro SQL da eseguire:

  • Tutte le azioni
  • Azioni selezionate
  • Azioni con i tag selezionati

Poi, durante un'esecuzione pianificata della configurazione del workflow, Dataform esegue il deployment della selezione di azioni dal risultato della compilazione applicata a BigQuery.

Le configurazioni delle release e dei flussi di lavoro di Dataform ti consentono di configurare la compilazione e pianificare le esecuzioni in Dataform senza dover fare affidamento su servizi aggiuntivi.

Scadenza delle risorse del ciclo di vita

Dataform memorizza i risultati della compilazione e le chiamate dei flussi di lavoro per un periodo di tempo specifico.

Scadenza delle invocazioni del flusso di lavoro

Le chiamate di workflow scadono dopo 90 giorni o quando le elimini manualmente.

In una configurazione del flusso di lavoro, puoi visualizzare un elenco delle invocazioni del flusso di lavoro più recenti create dalla configurazione. Quando un'invocazione del flusso di lavoro creata da una configurazione del flusso di lavoro scade, Dataform la rimuove dall'elenco delle invocazioni recenti.

Scadenza dei risultati della compilazione

La scadenza dei risultati di compilazione dipende dal modo in cui vengono creati: in uno spazio di lavoro di sviluppo, in una configurazione di release o tramite un'invocazione del flusso di lavoro.

Quando sviluppi un flusso di lavoro SQL in uno spazio di lavoro Dataform, Dataform compila il codice in un risultato di compilazione in tempo reale per fornire la convalida delle query. I risultati della compilazione creati in questo modo scadono dopo 24 ore.

In una configurazione della release, l'ultimo risultato di compilazione diventa il risultato di compilazione in produzione. Un nuovo risultato della compilazione sostituisce il risultato della compilazione in tempo reale corrente. Dataform conserva il risultato della compilazione in tempo reale finché non viene sostituito con un nuovo risultato della compilazione. Un risultato di compilazione sostituito scade tra 24 ore.

Dataform rimuove i risultati di compilazione scaduti dall'elenco dei risultati di compilazione passati nella pagina Dettagli di una configurazione di release.

Dataform conserva i risultati di compilazione creati dalle invocazioni del flusso di lavoro per l'intera durata dell'invocazione, fino a 24 ore dopo la scadenza o l'eliminazione dell'invocazione del flusso di lavoro.

Passaggi successivi