Este documento ajuda você a entender a arquitetura e a execução de fluxos de trabalho SQL no Dataform.
Você pode usar o Dataform para desenvolver, testar e controlar versões de fluxos de trabalho SQL que podem ser executados no BigQuery para transformar dados para fins de análise. É possível desenvolver fluxos de trabalho SQL com o núcleo do Dataform, usando arquivos SQLX e, opcionalmente, arquivos JavaScript ou JavaScript.
Um fluxo de trabalho SQL pode consistir nos seguintes objetos:
- Declarações de fontes de dados
- Declarações de origens de dados do BigQuery que permitem fazer referência a essas origens nas definições de tabela do Dataform e nas operações SQL.
- Tabelas
- Tabelas criadas no Dataform com base nas fontes de dados declaradas ou em outras tabelas no fluxo de trabalho SQL. O Dataform oferece suporte a estes tipos de tabela: tabela, tabela incremental, visualização e visualização materializada.
- Afirmações
- Consultas de teste de qualidade de dados que podem ser usadas para validar dados de tabelas. O Dataform executa declarações sempre que atualiza seu fluxo de trabalho SQL e alerta você se alguma delas falhar.
- Operações SQL personalizadas
- Instruções SQL que o Dataform executa no BigQuery como estão, sem modificações.
- Inclui
- Arquivos JavaScript com definições de variáveis e funções que podem ser reutilizadas no fluxo de trabalho SQL.
Visualização de um fluxo de trabalho SQL
É possível visualizar o fluxo de trabalho SQL na forma de um gráfico acíclico dirigido (DAG). O DAG mostra todos os objetos do fluxo de trabalho do SQL definidos no seu espaço de trabalho e as relações entre eles. É possível aumentar e diminuir o zoom e usar o recurso de arrastar e soltar para navegar pelo DAG. Se houver erros de compilação no fluxo de trabalho do SQL, o Dataform vai mostrar uma mensagem de erro em vez do DAG.
Para conferir o DAG do seu fluxo de trabalho SQL, no espaço de trabalho, clique em Gráfico compilado.
Execução de um fluxo de trabalho SQL
No espaço de trabalho de desenvolvimento, é possível acionar manualmente a execução de todo o fluxo de trabalho SQL, uma seleção de ações ou uma seleção de tags.
É possível programar execuções com as configurações de versão e de fluxo de trabalho do Dataform. Primeiro, crie uma configuração de lançamento para criar resultados de compilação do repositório. Em seguida, crie uma configuração de fluxo de trabalho, selecione uma configuração de lançamento, selecione as ações de fluxo de trabalho SQL que você quer executar e defina a programação de execução.
Como alternativa, é possível programar execuções com o Cloud Composer ou com o Workflows e o Cloud Scheduler.
Durante a execução, o Dataform executa consultas SQL no BigQuery, seguindo a ordem de dependências de objetos no fluxo de trabalho SQL. Após a execução, é possível usar as tabelas e visualizações definidas para todas as finalidades de análise no BigQuery.
Opções de configuração da execução
Para executar um grupo específico de objetos de fluxo de trabalho SQL, adicione tags de execução do Dataform aos arquivos selecionados. Você pode executar apenas os arquivos com uma tag selecionada ao acionar a execução manualmente.
Por padrão, o Dataform executa seu fluxo de trabalho SQL com as configurações
de execução definidas no arquivo dataform.json
.
É possível substituir essas configurações de execução com substituições de compilação.
Com as substituições de compilação do espaço de trabalho, é possível transformar espaços de trabalho em ambientes de execução isolados. Isso significa que, quando você aciona manualmente a execução em um espaço de trabalho, o Dataform executa a saída em um local isolado no BigQuery.
Para criar e executar um único resultado de compilação com substituições de compilação, é possível transmitir solicitações com a API Dataform.
Com as configurações de versão, é possível configurar substituições de compilação para todo o repositório, bem como a frequência de criação de resultados de compilação com as configurações aplicadas.
Para saber mais sobre como configurar a compilação e o ciclo de vida do código no Dataform, consulte Introdução ao ciclo de vida do código no Dataform.
A seguir
- Para saber como declarar uma fonte de dados, consulte Declarar uma fonte de dados.
- Para saber como declarar dependências para definir relações entre objetos no fluxo de trabalho SQL, consulte Declarar dependências.
- Para saber como definir operações SQL personalizadas, consulte Adicionar operações SQL personalizadas.
- Para saber como reutilizar variáveis e funções no seu fluxo de trabalho SQL com inclusões, consulte Reutilizar código em um único repositório com inclusões.