Introdução aos repositórios

Neste documento, você entenderá o conceito de repositórios no Dataform.

Cada repositório do Dataform abriga uma coleção de arquivos SQLX e JavaScript que compõem o fluxo de trabalho SQL, além de pacotes e arquivos de configuração do Dataform. Você interage com o conteúdo do seu repositório em um espaço de trabalho de desenvolvimento.

O Dataform mostra seus repositórios na página do Dataform em ordem alfabética dos IDs dos repositórios. Você pode classificá-las e filtrá-las.

Acesse o Dataform

Cada repositório do Dataform está conectado a uma conta de serviço. É possível selecionar uma conta de serviço ao criar um repositório ou editar a conta de serviço mais tarde.

Por padrão, o Dataform usa uma conta de serviço derivada do número do projeto no seguinte formato:

service-YOUR_PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com

O Dataform usa o Git para registrar mudanças e gerenciar versões de arquivos. Cada repositório do Dataform corresponde a um repositório Git. Depois de criar um repositório do Dataform, é possível conectá-lo a um repositório remoto do GitHub, do GitLab ou do Bitbucket.

Em um repositório do Dataform, o Dataform armazena o código do repositório. Em um repositório conectado, o de terceiros armazena o código do repositório. O Dataform interage com o repositório de terceiros para permitir que você edite e execute o conteúdo dele em um espaço de trabalho de desenvolvimento do Dataform.

Uma página de repositório do Dataform consiste nos seguintes componentes:

Guia "Espaços de trabalho de desenvolvimento"
Exibe os espaços de trabalho de desenvolvimento criados no repositório.
Guia "Configurações de versão"
Permite inspecionar, criar, editar e excluir versões.
Guia "Registros de execução do fluxo de trabalho"
Exibe os registros de execução do fluxo de trabalho do Dataform.
Guia "Configurações de fluxo de trabalho"
Permite inspecionar, criar, editar e excluir configurações de fluxo de trabalho.
Guia "Configurações"
Exibe o nome e o local do repositório. Para um repositório conectado a um repositório Git de terceiros, são exibidos a origem do repositório de terceiros, o nome da ramificação padrão e o token secreto. Exibe os botões para conectar o repositório a um repositório Git de terceiros e editar a conexão do Git.
Botão "Criar espaço de trabalho de desenvolvimento"
Permite criar um espaço de trabalho de desenvolvimento.

Depois de criar e inicializar um espaço de trabalho de desenvolvimento, é possível editar o arquivo workflow_settings.yaml para definir as seguintes configurações do Dataform do seu repositório:

  • O banco de dados padrão (ID do projeto do Google Cloud)
  • O esquema padrão (ID do conjunto de dados do BigQuery)
  • O local padrão do BigQuery
  • O esquema padrão (ID do conjunto de dados do BigQuery) para declarações
  • O warehouse, que precisa ser definido como bigquery
  • Variáveis definidas pelo usuário que são disponibilizadas para o código do projeto durante a compilação.

Para mais informações sobre as configurações do repositório do Dataform, consulte IProjectConfig na referência principal do Dataform.

A seguir