O Dataform é um serviço sem servidor para os analistas de dados desenvolverem e implantar tabelas, tabelas incrementais ou visualizações no BigQuery. O Dataform oferece um ambiente da Web para desenvolvimento de fluxo de trabalho SQL, com GitHub, GitLab, Azure DevOps Services e Bitbucket, integração contínua, implantação contínua e execução de fluxo de trabalho.
Repositórios
Cada projeto do Dataform é armazenado em repositório. Um repositório do Dataform abriga uma coleção de arquivos de configuração JSON, SQLX e JavaScript.
Os repositórios do Dataform contêm os seguintes tipos de arquivos:
Arquivos de configuração
Os arquivos de configuração JSON ou SQLX permitem configurar seus fluxos de trabalho SQL. Eles contêm configuração geral, programações de execução ou esquemas para criar novas tabelas e visualizações.
Definições
As definições são arquivos SQLX e JavaScript que definem novas tabelas, visualizações e outras operações de SQL para execução no BigQuery.
Inclui
Inclui são arquivos JavaScript em que você pode definir variáveis e funções para usar em seu projeto.
Cada repositório do Dataform está conectado a uma conta de serviço. Você pode Selecionar uma conta de serviço ao criar um repositório. ou edite a conta de serviço mais tarde.
Por padrão, o Dataform usa uma conta de serviço derivada número do projeto no seguinte formato:
service-YOUR_PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com
Controle de versão
O Dataform usa o sistema de controle de versões Git para manter um registro dos cada alteração feita em arquivos de projeto e para gerenciar versões de arquivos.
Cada repositório do Dataform pode gerenciar seu próprio repositório Git ou ser conectada a um repositório Git remoto de terceiros. Você pode conectar um repositório do Dataform a um repositório GitHub, GitLab, Azure DevOps Services ou Bitbucket.
os usuários controlam a versão do código do fluxo de trabalho SQL; nos espaços de trabalho do Dataform. Em um espaço de trabalho do Dataform, é possível extrair alterações do repositório, confirmar todas as alterações ou apenas algumas selecionadas, e enviá-las para as ramificações Git do repositório.
Desenvolvimento de fluxo de trabalho
No Dataform, você faz alterações nos arquivos e diretórios dentro de um espaço de trabalho de desenvolvimento. Um espaço de trabalho de desenvolvimento é uma cópia virtual e editável o conteúdo de um repositório Git. O Dataform preserva o estado no espaço de trabalho de desenvolvimento entre as sessões.
Em um espaço de trabalho de desenvolvimento, é possível desenvolver ações de fluxo de trabalho SQL. usando o Dataform Core com SQLX e JavaScript, ou exclusivamente com JavaScript. É possível formatar automaticamente o código JavaScript ou principal do Dataform.
Cada elemento de um fluxo de trabalho SQL do Dataform, como uma tabela ou declaração, corresponde a uma ação que o Dataform realiza no BigQuery. Por exemplo, um arquivo de definição de tabela é uma ação de criar ou atualizar a no BigQuery.
Em um espaço de trabalho do Dataform, é possível desenvolver os seguintes Ações do fluxo de trabalho SQL:
- Declarações de dados de origem
- Tabelas e visualizações
- Tabelas incrementais
- Partições e clusters de tabela
- Dependências entre ações
- Documentação de tabelas
- Operações SQL personalizadas
- Rótulos do BigQuery
- Tags de política do BigQuery
- Tags do Dataform
- Testes de qualidade de dados, chamados de declarações
É possível usar JavaScript para reutilizar o código do fluxo de trabalho SQL do Dataform das seguintes maneiras:
- Em um arquivo com encapsulamento de código
- Em um repositório com inclusões
- Em repositórios com pacotes
O Dataform compila o código do fluxo de trabalho SQL no seu espaço de trabalho em tempo real. No seu espaço de trabalho, é possível conferir as consultas compiladas e os detalhes das ações em cada arquivo. Você também pode ver o status e os erros da compilação em no arquivo editado ou no repositório.
Para testar a saída de uma consulta SQL compilada antes de executá-la, no BigQuery, é possível executar uma visualização da consulta no espaço de trabalho do Dataform.
Para inspecionar todo o fluxo de trabalho SQL definido no seu espaço de trabalho, ver um gráfico compilado interativo que mostra todas as ações compiladas em seu fluxo de trabalho SQL e as relações entre elas.
Compilação do fluxo de trabalho
O Dataform usa as configurações de compilação padrão, definidas no arquivo de configurações do fluxo de trabalho, para compilar o fluxo de trabalho SQL código em seu espaço de trabalho para SQL em tempo real, criando um resultado de compilação do espaço de trabalho.
Você pode substituir as configurações de compilação para personalizar como o Dataform compila seu fluxo de trabalho SQL em um resultado de compilação.
Com as substituições de compilação do espaço de trabalho, é possível configurar substituições de compilação para todos os espaços de trabalho em um repositório. Defina substituições dinâmicas do espaço de trabalho para criar resultados de compilação personalizados para cada espaço de trabalho, transformando-os em ambientes de desenvolvimento isolados. É possível substituir o projeto do Google Cloud em que o Dataform será executado o conteúdo de um espaço de trabalho, adicionar um prefixo aos nomes de todas as tabelas compiladas e adicionar um sufixo ao esquema padrão.
Com as configurações de lançamento, é possível definir modelos de configurações de compilação para criar resultados de compilação de um repositório do Dataform. Em uma versão é possível modificar o projeto do Google Cloud em que O Dataform vai executar os resultados de compilação e adicionar um prefixo aos nomes todas as tabelas compiladas, adicione um sufixo ao esquema padrão, e adicionar variáveis de compilação. Também é possível definir a frequência criando resultados de compilação. Para programar execuções de resultados de compilação em uma configuração de versão selecionada, criar uma configuração de fluxo de trabalho.
Execução do fluxo de trabalho
Durante a execução do fluxo de trabalho, o Dataform executa os resultados de compilação Fluxos de trabalho SQL para criar ou atualizar recursos no BigQuery.
Para criar ou atualizar as tabelas e visualizações definidas no fluxo de trabalho SQL no no BigQuery, é possível iniciar uma execução de fluxo de trabalho manualmente; em um espaço de trabalho de desenvolvimento ou programar execuções.
É possível programar execuções do Dataform no BigQuery na da seguinte maneira:
- Crie configurações de fluxo de trabalho para programar execuções de resultados de compilação criados nas configurações de versão
- Programar execuções com o Cloud Composer
- Programar execuções com o Workflows e o Cloud Scheduler
Para depurar erros, monitore as execuções das seguintes maneiras:
- Visualizar registros detalhados de execução do Dataform
- Acessar registros de auditoria do Dataform
- Veja os registros do Cloud Logging para o Dataform
A seguir
- Para saber mais sobre o Dataform Core, acesse Visão geral do Dataform Core.
- Para saber mais sobre os repositórios do Dataform, consulte Introdução aos repositórios.
- Para saber mais sobre os espaços de trabalho do Dataform, consulte Introdução ao desenvolvimento em um espaço de trabalho.
- Para saber mais sobre o desenvolvimento de fluxos de trabalho SQL no Dataform, consulte Introdução aos fluxos de trabalho SQL.
- Para saber mais sobre como usar JavaScript no Dataform, consulte Introdução ao JavaScript no Dataform.
- Para saber mais sobre o ciclo de vida do código no Dataform, consulte Introdução ao ciclo de vida do código no Dataform.