Vista geral dos fluxos de trabalho

Este documento ajuda a compreender a arquitetura e a execução dos fluxos de trabalho no Dataform.

Pode usar o Dataform para desenvolver, testar e controlar as versões de fluxos de trabalho que pode executar no BigQuery para transformar dados para fins de estatísticas. Pode desenvolver fluxos de trabalho com o Dataform core, usando ficheiros SQLX e, opcionalmente, ficheiros JavaScript, ou com JavaScript.

Um fluxo de trabalho pode consistir nos seguintes objetos:

Declarações de origens de dados
Declarações de origens de dados do BigQuery que lhe permitem referenciar estas origens de dados em definições de tabelas do Dataform e operações SQL.
Tabelas
Tabelas que cria no Dataform com base nas origens de dados declaradas ou noutras tabelas no seu fluxo de trabalho. O Dataform suporta os seguintes tipos de tabelas: tabela, tabela incremental, vista e vista materializada.
Afirmações
Consultas de teste de qualidade de dados que pode usar para validar os dados das tabelas. O Dataform executa validações sempre que atualiza o fluxo de trabalho e envia-lhe um alerta se alguma validação falhar.
Operações SQL personalizadas
Declarações SQL que o Dataform executa no BigQuery tal como estão, sem modificações.
Inclui
Ficheiros JavaScript com definições de variáveis e funções que pode reutilizar no seu fluxo de trabalho.

Visualização de um fluxo de trabalho

Pode ver o seu fluxo de trabalho visualizado sob a forma de um gráfico acíclico orientado (DAG). O DAG apresenta todos os objetos do fluxo de trabalho definidos no seu espaço de trabalho e as relações entre eles. Pode aumentar/diminuir o zoom e usar a navegação de arrastar e largar no DAG. Se existirem erros de compilação no seu fluxo de trabalho, o Dataform apresenta uma mensagem de erro em vez do DAG.

Para ver o DAG do seu fluxo de trabalho, no espaço de trabalho, clique em Gráfico compilado.

Execução de um fluxo de trabalho

No espaço de trabalho de desenvolvimento, pode acionar manualmente uma execução de todo o fluxo de trabalho, de uma seleção de ações ou de uma seleção de etiquetas.

Pode agendar execuções com as configurações de lançamento e as configurações de fluxo de trabalho do Dataform. Primeiro, crie uma configuração de lançamento para criar resultados de compilação do seu repositório. Em seguida, crie uma configuração do fluxo de trabalho, selecione uma configuração de lançamento, selecione as ações do fluxo de trabalho que quer executar e defina o horário de execução.

Em alternativa, pode agendar execuções com o Cloud Composer ou com os fluxos de trabalho e o Cloud Scheduler.

Durante a execução, o Dataform executa consultas SQL no BigQuery, seguindo a ordem das dependências de objetos no seu fluxo de trabalho. Após a execução, pode usar as tabelas e as vistas definidas para todos os seus fins de análise no BigQuery.

Opções de configuração de execução

Para executar um grupo específico das ações do fluxo de trabalho, pode adicionar etiquetas de execução do Dataform aos ficheiros que selecionar. Em seguida, pode executar apenas os ficheiros com uma etiqueta selecionada quando aciona manualmente uma execução.

Por predefinição, o Dataform executa o fluxo de trabalho com as definições de execução definidas no ficheiro dataform.json. Pode substituir estas definições de execução com substituições de compilação.

Com as substituições de compilação do espaço de trabalho, pode transformar os espaços de trabalho em ambientes de execução isolados. Isto significa que, quando aciona manualmente a execução num espaço de trabalho, o Dataform executa a saída numa localização isolada no BigQuery.

Para criar e executar um único resultado de compilação com substituições de compilação, pode transmitir pedidos com a API Dataform.

Com as configurações de lançamento, pode configurar substituições de compilação para todo o seu repositório, bem como a frequência de criação de resultados de compilação com as definições aplicadas.

Para saber mais sobre as formas de configurar a compilação e o ciclo de vida do código no Dataform, consulte o artigo Introdução ao ciclo de vida do código no Dataform.

O que se segue?