Visão geral do Dataform

Neste documento, apresentamos os conceitos e processos do Dataform.

O Dataform é um serviço para analistas de dados desenvolverem, testarem, controlarem versões e programarem fluxos de trabalho SQL complexos para transformações de dados no BigQuery.

O Dataform permite gerenciar a transformação de dados no processo de extração, carregamento e transformação (ELT) para integração de dados. Depois que os dados brutos são extraídos dos sistemas de origem e carregados no BigQuery, o Dataform ajuda você a transformá-los em um conjunto de tabelas de dados bem definido, testado e documentado.

O Dataform permite realizar as seguintes ações de transformação de dados:

  • Desenvolva e execute fluxos de trabalho SQL para transformação de dados.
  • Colabore com membros da equipe no desenvolvimento de fluxos de trabalho SQL com o Git.
  • Gerenciar um grande número de tabelas e as dependências delas.
  • Declarar dados de origem e gerenciar dependências de tabela.
  • Confira uma visualização da árvore de dependências do seu fluxo de trabalho SQL.
  • Gerenciar dados com código SQL em um repositório central.
  • Reutilizar código com JavaScript.
  • Testar a exatidão dos dados com testes de qualidade nas tabelas de origem e de saída.
  • Código SQL de controle de versões
  • Documentar tabelas de dados no código SQL.

Processos de transformação de dados no Dataform

O fluxo de trabalho de transformação de dados do Dataform é o seguinte:

  1. O Dataform permite criar repositórios para gerenciar o código.
  2. O Dataform permite criar espaços de trabalho para desenvolvimento.
  3. O Dataform permite desenvolver fluxos de trabalho SQL em um espaço de trabalho de desenvolvimento.
  4. O Dataform compila o núcleo do Dataform em SQL.
  5. O Dataform executa a árvore de dependências.

O Dataform permite criar repositórios para gerenciar seu código

Em um repositório do Dataform, use o Dataform Core, uma extensão do SQL, para gravar arquivos SQLX em que você define seu fluxo de trabalho. Os repositórios do Dataform oferecem suporte ao controle de versões. É possível vincular um repositório do Dataform a um provedor Git de terceiros.

O Dataform permite criar espaços de trabalho para desenvolvimento

É possível criar espaços de trabalho de desenvolvimento em um repositório do Dataform para o desenvolvimento principal do Dataform. Em um espaço de trabalho de desenvolvimento, é possível fazer alterações no repositório, compilar, testar e enviá-las para o repositório principal pelo Git.

Com o Dataform, você desenvolve o núcleo do Dataform em um espaço de trabalho de desenvolvimento

Em um espaço de trabalho de desenvolvimento, é possível definir e documentar tabelas, as dependências delas e a lógica de transformação para criar seu fluxo de trabalho SQL. Também é possível configurar ações em JavaScript.

O Dataform compila o Dataform Core

Durante a compilação, o Dataform executa as seguintes tarefas:

  • Compila o núcleo do Dataform em um fluxo de trabalho do SQL padrão.
  • Adiciona instruções SQL padrão, como CREATE TABLE ou INSERT, ao código inline com a configuração da sua consulta.
  • Transcompila (compila da origem para a origem) JavaScript em SQL.
  • Resolve dependências e verifica se há erros, incluindo dependências ausentes ou circulares.
  • Cria a árvore de dependências de todas as ações a serem executadas no BigQuery.

A compilação do Dataform é hermética para garantir a consistência, o que significa que o mesmo código é compilado no mesmo resultado de compilação SQL todas as vezes. O Dataform compila o código em um ambiente de sandbox sem acesso à Internet. Nenhuma outra ação, como chamar APIs externas, está disponível durante a compilação.

Para depurar em tempo real, inspecione o fluxo de trabalho SQL compilado do projeto em um gráfico interativo no espaço de trabalho de desenvolvimento.

O Dataform executa a árvore de dependências

No BigQuery, o Dataform executa as seguintes tarefas:

  • Executa comandos SQL, seguindo a ordem da árvore de dependências.
  • Executa consultas de declaração nas suas tabelas e visualizações para verificar a precisão dos dados.
  • Executa outras operações SQL que você definiu.

Após a execução, será possível usar as tabelas e visualizações para todos os fins de análise.

Você pode ver registros para saber quais tabelas foram criadas, se as declarações foram aprovadas ou falharam, quanto tempo cada ação levou para ser concluída e outras informações. Também é possível conferir o código SQL exato que foi executado no BigQuery.

Framework de modelagem do Dataform

O Dataform oferece um framework de modelagem de dados de código aberto, que consiste no núcleo do Dataform e na CLI do Dataform para uso fora do Google Cloud.

A seguir