Criar um repositório do Dataform

Neste documento, mostramos como criar um repositório, definir e editar a conta de serviço do repositório e excluir um repositório no Dataform.

Ao criar um repositório do Dataform, você precisa definir as seguintes configurações de repositório:

ID do repositório
Um ID exclusivo do repositório. Os IDs podem incluir apenas números, letras, hifens e sublinhados.
Região

Região do Dataform para armazenar o repositório e o conteúdo dele.

Essa região de armazenamento pode ser diferente da região de processamento em que o Dataform processa seu código e armazena a saída das execuções. Por padrão, a região de processamento é definida como a do conjunto de dados do BigQuery. É possível editar a região de processamento no arquivo dataform.json depois de criar o repositório. Saiba mais em Definir configurações do Dataform.

Conta de serviço

Conta de serviço associada ao repositório. É possível selecionar a conta de serviço padrão do Dataform, uma conta de serviço associada ao projeto do Google Cloud ou inserir manualmente uma conta de serviço diferente. Por padrão, o Dataform usa uma conta de serviço derivada do número do projeto no seguinte formato:

service-YOUR_PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com

O Dataform usa a conta de serviço padrão para todas as operações do repositório. É possível usar uma conta de serviço diferente para executar fluxos de trabalho no seu repositório, mas a conta de serviço padrão ainda é usada para todas as outras operações do repositório.

Criptografia

Método de criptografia para o repositório. Use a criptografia padrão ou aplique uma chave de criptografia do Cloud KMS gerenciada pelo cliente. Para mais informações sobre como usar chaves de criptografia gerenciadas pelo cliente (CMEK) no Dataform, consulte Usar chaves de criptografia gerenciadas pelo cliente.

Depois de criar um repositório, conecte-o ao GitHub ou ao GitLab.

Antes de começar

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  4. Ative as APIs BigQuery and Dataform.

    Ative as APIs

  5. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  6. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  7. Ative as APIs BigQuery and Dataform.

    Ative as APIs

  8. Para usar a criptografia da CMEK no repositório, ative a criptografia da CMEK dos repositórios do Dataform.

Funções exigidas

Para receber as permissões necessárias para criar e excluir um repositório, peça ao administrador para conceder a você o papel do IAM de Administrador do Dataform (roles/dataform.admin) nos repositórios. Para mais informações sobre como conceder papéis, consulte Gerenciar acesso.

Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.

Para usar uma conta de serviço diferente da conta de serviço padrão do Dataform, conceda acesso à conta de serviço personalizada.

Criar um repositório

Para criar um repositório do Dataform, siga estas etapas:

  1. No console do Google Cloud, acesse a página do Dataform.

    Acesse o Dataform

  2. Clique em Criar repositório.

  3. Na página Criar repositório, no campo ID do repositório, insira um ID exclusivo.

    Os IDs podem conter apenas números, letras, hifens e sublinhados.

  4. Na lista suspensa Região, selecione uma região do Dataform para armazenar o repositório e o conteúdo dele. Selecione a região do Dataform mais próxima do seu local.

    Para conferir uma lista de regiões disponíveis do Dataform, consulte Locais. A região do repositório não precisa corresponder ao local dos conjuntos de dados do BigQuery.

    No arquivo dataform.json, é possível definir a região de processamento em que o Dataform processa seu código e armazena a saída das execuções. A região de processamento precisa corresponder ao local dos conjuntos de dados do BigQuery, mas não precisa corresponder à região do repositório. Para mais informações, consulte Definir configurações do Dataform.

  5. No menu suspenso Conta de serviço, selecione uma conta de serviço para o repositório.

    No menu suspenso, selecione a conta de serviço padrão do Dataform ou qualquer conta de serviço associada ao projeto do Google Cloud a que você tenha acesso. Tenha em mente que as contas de serviço personalizadas são usadas apenas para a execução do fluxo de trabalho. Todas as outras operações de repositório ainda são executadas pela conta de serviço padrão do Dataform.

    1. Opcional: para selecionar uma conta de serviço que não aparece na lista suspensa, clique em Inserir manualmente e digite o ID da conta de serviço.
  6. Na seção Criptografia, selecione o método de criptografia do repositório.

    1. Para usar a criptografia padrão, selecione a opção Chave de criptografia gerenciada pelo Google.
    2. Para usar a CMEK, selecione a opção Chaves de criptografia gerenciadas pelo cliente (CMEK).

      1. No menu suspenso Selecionar uma chave gerenciada pelo cliente, selecione uma chave CMEK para o repositório.

    Para mais informações, consulte Restrições de CMEKs do Dataform.

  7. Clique em Criar e em Concluído.

Editar a conta de serviço

É possível associar uma conta de serviço personalizada a um repositório do Dataform para execução do fluxo de trabalho. Todas as outras operações de repositório ainda são realizadas pela conta de serviço padrão do Dataform.

Para editar a conta de serviço de um repositório do Dataform, siga estas etapas:

  1. No console do Google Cloud, acesse a página do Dataform.

    Acesse o Dataform

  2. Selecione um repositório e clique em Configurações.

  3. No campo Conta de serviço, clique em Editar conta de serviço.

  4. No menu suspenso Conta de serviço, selecione uma conta de serviço para o repositório.

    No menu suspenso, selecione a conta de serviço padrão do Dataform ou qualquer conta de serviço associada ao projeto do Google Cloud a que você tenha acesso.

    1. Opcional: para selecionar uma conta de serviço que não aparece na lista suspensa, clique em Inserir manualmente e digite o ID da conta de serviço.
  5. Clique em Salvar.

Excluir um repositório.

Para excluir um repositório e todo o conteúdo dele, siga estas etapas:

  1. No console do Google Cloud, acesse a página do Dataform.

    Acesse o Dataform

  2. Ao lado do repositório que você quer excluir, clique no menu Mais e selecione Excluir.

  3. Na janela Excluir repositório, insira o nome do repositório para confirmar a exclusão.

  4. Clique em Excluir.

A seguir