criar um repositório do Dataform

Neste documento, mostramos como criar, configurar e editar um repositório conta de serviço e excluir um repositório no Dataform.

Ao criar um repositório do Dataform, você precisa definir as seguintes configurações:

ID do repositório
Um ID exclusivo do repositório. Os IDs podem incluir apenas números, letras, hifens e sublinhados.
Região

Região do Dataform para armazenar o repositório e o conteúdo dele.

Essa região de armazenamento pode ser diferente da região de processamento O Dataform processa seu código e armazena a saída das execuções. Por padrão, a região de processamento é definida como o padrão do BigQuery região do conjunto de dados. É possível editar a região de processamento no arquivo de configurações do fluxo de trabalho depois de criar o repositório. Para mais informações, consulte Defina as configurações do Dataform.

Conta de serviço

Conta de serviço associada ao repositório. É possível selecionar a conta de serviço padrão do Dataform, uma conta de serviço associada ao seu projeto do Google Cloud ou inserir manualmente uma conta de serviço diferente. Por padrão, o Dataform usa uma conta de serviço derivada do número do projeto no seguinte formato:

service-YOUR_PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com

O Dataform usa a conta de serviço padrão para todas as operações do repositório. É possível usar uma conta de serviço diferente para executar fluxos de trabalho no repositório, mas a conta de serviço padrão ainda é usada para todas as outras operações do repositório.

Encryption

Método de criptografia do repositório. Você pode usar o criptografia padrão, um modelo exclusivo chave de criptografia do Cloud KMS gerenciada pelo cliente, ou uma chave CMEK padrão do Dataform. Para mais informações sobre como usar chaves de criptografia gerenciadas pelo cliente (CMEK) no Dataform, consulte Usar chaves de criptografia gerenciadas pelo cliente.

Depois de criar um repositório, é possível conecte-o ao GitHub ou ao GitLab (em inglês).

Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  4. Enable the BigQuery and Dataform APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  7. Enable the BigQuery and Dataform APIs.

    Enable the APIs

  8. Para usar a criptografia CMEK no repositório, ative a criptografia CMEK dos repositórios do Dataform.

Funções exigidas

Para receber as permissões necessárias para criar e excluir um repositório, peça ao administrador que conceda a você o papel do IAM Administrador do Dataform (roles/dataform.admin) nos repositórios. Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.

Para usar uma conta de serviço diferente do serviço padrão do Dataform conceda acesso à conta de serviço personalizada.

Crie um repositório

Para criar um repositório do Dataform, siga estas etapas:

  1. No Console do Google Cloud, acesse a página Dataform.

    Acessar o Dataform

  2. Clique em Criar repositório.

  3. Na página Criar repositório, no campo ID do repositório, insira um ID exclusivo.

    Os IDs podem incluir apenas números, letras, hifens e sublinhados.

  4. Na lista suspensa Região, selecione uma região do Dataform para armazenar o repositório e o conteúdo dele. Selecione a região do Dataform mais próxima de você.

    Para conferir uma lista de regiões disponíveis do Dataform, consulte Locais. A região do repositório não precisa corresponder ao local dos conjuntos de dados do BigQuery.

    No arquivo workflow_settings.yaml, é possível definir a região de processamento em que O Dataform processa seu código e armazena a saída das execuções. A região de processamento precisa corresponder ao local do BigQuery conjuntos de dados, mas não precisa corresponder à região do repositório. Para mais informações, consulte Configurar as configurações do Dataform.

  5. No menu suspenso Conta de serviço, selecione uma conta de serviço para o repositório.

    No menu suspenso, selecione a conta de serviço padrão do Dataform ou qualquer conta de serviço associada ao seu projeto do Google Cloud que você acesso. As contas de serviço personalizadas são usadas apenas para a execução do fluxo de trabalho. Todas as outras operações do repositório ainda são realizadas pela conta de serviço padrão do Dataform.

    1. Opcional: para selecionar uma conta de serviço que não aparece no menu suspenso, clique em Entrar manualmente e insira um ID da conta de serviço.
  6. Configure o mecanismo de criptografia selecionado para o repositório:

    Chave CMEK padrão

    O Dataform mostra a caixa de seleção Use the default KMS key e a seleciona por padrão.

    • Para criptografar o repositório com a chave CMEK padrão do Dataform, faça o seguinte: deixe a caixa de seleção Usar a chave KMS padrão marcada.

    Chave CMEK exclusiva

    Para criptografar o repositório com uma chave CMEK exclusiva, faça o seguinte:

    1. Se a caixa de seleção Usar a chave KMS padrão estiver marcada por padrão, desmarque a caixa de seleção.
    2. Na seção Criptografia, selecione a opção Chaves de criptografia gerenciadas pelo cliente (CMEK).
    3. No menu suspenso Selecione uma chave gerenciada pelo cliente, selecione uma chave CMEK exclusiva.

    Criptografia em repouso

    • Para usar a criptografia padrão: na seção Criptografia, Selecione a opção Chave de criptografia gerenciada pelo Google.
  7. Clique em Criar e em Concluído.

Editar a conta de serviço

É possível associar uma conta de serviço personalizada a um repositório do Dataform para execução de fluxos de trabalho. Todas as outras operações de repositório são ainda é realizada pela conta de serviço padrão do Dataform.

Para editar a conta de serviço de um repositório do Dataform, siga estas etapas:

  1. No Console do Google Cloud, acesse a página Dataform.

    Acessar o Dataform

  2. Selecione um repositório e clique em Configurações.

  3. No campo Conta de serviço, clique em Editar conta de serviço.

  4. No menu suspenso Conta de serviço, selecione uma conta de serviço para o repositório.

    No menu suspenso, selecione a conta de serviço padrão do Dataform ou qualquer conta de serviço associada ao seu projeto do Google Cloud que você acesso.

    1. Opcional: para selecionar uma conta de serviço que não aparece no menu suspenso, Clique em Inserir manualmente e informe o ID da conta de serviço.
  5. Clique em Salvar.

Excluir um repositório.

Para excluir um repositório e todo o conteúdo dele, siga estas etapas:

  1. No Console do Google Cloud, acesse a página Dataform.

    Acessar o Dataform

  2. No repositório que você quer excluir, clique no menu Mais e selecione Excluir.

  3. Na janela Excluir repositório, insira o nome do repositório para confirmar a exclusão.

  4. Clique em Excluir.

A seguir