Este documento ajuda a entender a arquitetura e a execução de fluxos de trabalho SQL no Dataform.
Use o Dataform para desenvolver, testar e controlar fluxos de trabalho SQL que podem ser executados no BigQuery para transformar dados para fins de análise. É possível desenvolver fluxos de trabalho SQL com o Núcleo do Dataform, usando arquivos SQLX e , opcionalmente, arquivos JavaScript, ou com JavaScript.
Um fluxo de trabalho SQL pode consistir nos seguintes objetos:
- Declarações da fonte de dados
- Declarações de fontes de dados do BigQuery que permitem referenciar essas fontes em definições de tabela do Dataform e operações SQL.
- Tabelas
- Tabelas que você cria no Dataform com base nas fontes de dados declaradas ou outras tabelas no seu fluxo de trabalho SQL. O Dataform é compatível com os seguintes tipos de tabela: tabela, tabela incremental, visualização e visualização materializada.
- Declarações
- Consultas de teste de qualidade de dados que podem ser usadas para validar dados de tabelas. O Dataform executa declarações sempre que atualiza o fluxo de trabalho SQL e alerta se alguma declaração falhar.
- Operações SQL personalizadas
- Instruções SQL que o Dataform executa no BigQuery como estão, sem modificações.
- Inclui
- Arquivos JavaScript com definições de variáveis e funções que podem ser reutilizadas no fluxo de trabalho SQL.
Visualização de um fluxo de trabalho SQL
É possível ver seu fluxo de trabalho SQL na forma de um gráfico acíclico dirigido (DAG, na sigla em inglês). O DAG exibe todos os objetos do fluxo de trabalho SQL definido no espaço de trabalho e as relações entre eles. É possível aumentar e diminuir o zoom e arrastar e soltar para navegar pelo DAG. Se houver erros de compilação no fluxo de trabalho SQL, o Dataform exibirá uma mensagem de erro em vez do DAG.
Para ver o DAG do fluxo de trabalho SQL, clique em Gráfico compilado no seu espaço de trabalho.
Execução de um fluxo de trabalho SQL
No espaço de trabalho de desenvolvimento, é possível acionar manualmente a execução de todo o fluxo de trabalho SQL, uma seleção de ações ou uma seleção de tags.
É possível programar execuções com as configurações de lançamento e as configurações de fluxo de trabalho do Dataform. Primeiro, crie uma configuração de versão para gerar resultados de compilação do repositório. Em seguida, crie uma configuração de fluxo de trabalho, selecione uma configuração de lançamento, escolha as ações do fluxo de trabalho SQL que você quer executar e defina a programação de execução.
Como alternativa, é possível programar execuções com o Cloud Composer ou com fluxos de trabalho e Cloud Scheduler.
Durante a execução, o Dataform executa consultas SQL no BigQuery, seguindo a ordem de dependências de objetos no fluxo de trabalho SQL. Após a execução, é possível usar as tabelas e visualizações definidas para todas as finalidades de análise no BigQuery.
Opções de configuração de execução
Para executar um grupo específico de objetos de fluxo de trabalho SQL, adicione tags de execução do Dataform aos arquivos selecionados. Em seguida, será possível executar apenas os arquivos com uma tag selecionada ao acionar manualmente a execução.
Por padrão, o Dataform executa seu fluxo de trabalho SQL com as configurações
de execução definidas no arquivo dataform.json
.
É possível substituir essas configurações de execução por substituições de compilação.
Com as substituições de compilação do Workspace, é possível transformar os espaços de trabalho em ambientes de execução isolados. Isso significa que, quando você aciona manualmente a execução em um espaço de trabalho, o Dataform executa a saída em um local isolado no BigQuery.
Para criar e executar um único resultado de compilação com substituições, transmita solicitações com a API Dataform.
Com as configurações de versão, é possível definir substituições de compilação para todo o repositório, bem como a frequência de criação de resultados de compilação com as configurações aplicadas.
Para saber mais sobre maneiras de configurar a compilação e o ciclo de vida do código no Dataform, consulte Introdução ao ciclo de vida do código no Dataform.
A seguir
- Para saber como declarar uma fonte de dados, consulte Declarar uma fonte de dados.
- Para aprender a declarar dependências a fim de definir relações entre objetos no fluxo de trabalho SQL, consulte Declarar dependências.
- Para saber como definir operações SQL personalizadas, consulte Adicionar operações SQL personalizadas.
- Para aprender a reutilizar o código em todo o fluxo de trabalho do SQL com inclusões, consulte Reutilizar variáveis e funções com inclusões.