Neste documento, você vai entender o conceito de repositórios no Dataform.
Cada repositório do Dataform abriga uma coleção de arquivos SQLX e JavaScript que compõem seu fluxo de trabalho SQL, além de arquivos de configuração e pacotes do Dataform. Você interage com o conteúdo do seu repositório em um espaço de trabalho de desenvolvimento.
O Dataform exibe os repositórios na página do Dataform em ordem alfabética dos IDs dos repositórios. Você pode classificá-las e filtrá-las.
Cada repositório do Dataform está conectado a uma conta de serviço. É possível selecionar uma conta de serviço ao criar um repositório ou editar a conta de serviço mais tarde.
Por padrão, o Dataform usa uma conta de serviço derivada do número do projeto no seguinte formato:
service-YOUR_PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com
O Dataform usa o Git para registrar mudanças e gerenciar versões de arquivos. Cada repositório do Dataform corresponde a um repositório Git. Depois de criar um repositório do Dataform, é possível conectá-lo a um repositório remoto do GitHub, do GitLab ou do Bitbucket.
O Dataform armazena o código do repositório em um repositório do Dataform. Em um repositório conectado, o repositório de terceiros armazena o código do repositório. O Dataform interage com o repositório de terceiros para permitir que você edite e execute o conteúdo em um espaço de trabalho de desenvolvimento do Dataform.
Uma página do repositório do Dataform consiste nos seguintes componentes:
- Guia "Espaços de trabalho de desenvolvimento"
- Exibe os espaços de trabalho de desenvolvimento criados no repositório.
- Guia "Configurações da versão"
- Permite inspecionar, criar, editar e excluir versões.
- Guia "Registros de execução do fluxo de trabalho"
- Exibe os registros de execução de fluxo de trabalho do Dataform.
- Guia "Configurações do fluxo de trabalho"
- Permite inspecionar, criar, editar e excluir configurações de fluxo de trabalho.
- Guia "Configurações"
- Exibe o nome e o local do repositório. No caso de repositórios conectados a um repositório Git de terceiros, são exibidos a origem do repositório de terceiros, o nome da ramificação padrão e o token secreto. Exibe os botões para conectar o repositório a um repositório Git de terceiros e editar a conexão do Git.
- Botão "Criar espaço de trabalho de desenvolvimento"
- Permite criar um espaço de trabalho de desenvolvimento.
Depois de criar e inicializar um espaço de trabalho de desenvolvimento, é possível
editar o arquivo dataform.json
para definir
as seguintes configurações do Dataform do seu repositório:
- O banco de dados padrão (ID do projeto do Google Cloud)
- O esquema padrão (ID do conjunto de dados do BigQuery)
- O local padrão do BigQuery
- O esquema padrão (ID do conjunto de dados do BigQuery) para declarações
- O warehouse, que precisa ser definido como
bigquery
- Variáveis definidas pelo usuário que são disponibilizadas para o código do projeto durante a compilação
Para mais informações sobre as configurações do repositório do Dataform, consulte IProjectConfig na referência principal do Dataform.
A seguir
- Para saber como criar e inicializar um espaço de trabalho, consulte Criar um espaço de trabalho.
- Para saber como definir as configurações do repositório do Dataform, consulte Definir configurações do Dataform.
- Para saber como conectar um repositório do Dataform a um repositório Git de terceiros, consulte Conectar um repositório Git de terceiros.
- Para saber como visualizar os registros de execução de fluxo de trabalho, consulte Monitorar registros de execução.
- Para saber como criar versões de compilação do Dataform, consulte Criar uma versão de compilação.
- Para saber mais sobre como o tamanho do repositório afeta o desenvolvimento no Dataform, consulte a Visão geral do tamanho do repositório.
- Para saber como programar execuções do Dataform com configurações de fluxo de trabalho, consulte Programar execuções com configurações de fluxo de trabalho.
- Para saber mais sobre como dividir um repositório no Dataform, consulte Introdução à divisão de repositórios.