Gerenciar regras de qualidade de dados como código com o Terraform

Neste tutorial, explicamos como gerenciar as regras de qualidade de dados do Dataplex como código com o Terraform, o Cloud Build e o GitHub.

Muitas opções diferentes de regras de qualidade de dados estão disponíveis para definir e medir a qualidade dos seus dados. Ao automatizar o processo de implantação de regras de qualidade de dados como parte de sua estratégia maior de gerenciamento de infraestrutura, você garante que seus dados estejam sujeitos de maneira consistente e previsível às regras atribuídas a eles.

Se você tem versões diferentes de um conjunto de dados para vários ambientes, como dev e prod, o Terraform oferece uma maneira confiável de atribuir regras de qualidade de dados a versões de conjuntos de dados específicas do ambiente.

O controle de versões também é uma importante prática recomendada de DevOps. Gerenciar suas regras de qualidade de dados como código fornece versões delas que estão disponíveis no histórico do GitHub. O Terraform também pode salvar o estado no Cloud Storage, que pode armazenar versões anteriores do arquivo de estado.

Para mais informações sobre o Terraform e o Cloud Build, consulte Visão geral do Terraform no Google Cloud e Cloud Build.

Arquitetura

Para entender como este tutorial usa o Cloud Build para gerenciar execuções do Terraform, considere o diagrama de arquitetura a seguir. Ele usa ramificações GitHub (dev e prod) para representar ambientes reais.

Infraestrutura com ambientes de desenvolvimento e produção.

O processo começa quando você envia o código do Terraform para a ramificação dev ou prod. Nesse cenário, o Cloud Build aciona e aplica manifestos do Terraform para atingir o estado desejado no respectivo ambiente. Por outro lado, quando você aplica o código do Terraform a qualquer outra ramificação, por exemplo, a uma ramificação de recurso, o Cloud Build é executado para terraform plan, mas nada é aplicado a ambiente algum.

O ideal é que desenvolvedores ou operadores precisem fazer propostas de infraestrutura para branches não protegidos e enviá-las por meio de solicitações de envio (links em inglês). O app GitHub do Cloud Build, discutido posteriormente neste tutorial, aciona automaticamente os jobs de criação e vincula os relatórios terraform plan a essas solicitações de envio. Dessa forma, é possível discutir e analisar as possíveis alterações com os colaboradores e adicionar confirmações de acompanhamento antes que as alterações sejam mescladas no branch básico.

Se não houver preocupações, mescle as alterações no branch dev. Essa mescla aciona uma implantação de infraestrutura para o ambiente dev, o que permite testá-lo. Depois de testar e ter certeza do que foi implantado, mescle o branch dev no branch prod para acionar a instalação da infraestrutura no ambiente de produção.

Objetivos

  • Configurar seu repositório GitHub.
  • Configurar o Terraform para armazenar o estado em um bucket do Cloud Storage.
  • Conceder permissões à conta de serviço do Cloud Build.
  • Conectar o Cloud Build ao seu repositório GitHub.
  • Estabelecer regras de qualidade de dados do Dataplex.
  • Altere a configuração do ambiente em uma ramificação de recurso e faça um teste.
  • Promover mudanças no ambiente de desenvolvimento.
  • Promover mudanças no ambiente de produção.

Custos

Neste documento, você usará os seguintes componentes faturáveis do Google Cloud:

Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços. Novos usuários do Google Cloud podem estar qualificados para uma avaliação gratuita.

Ao concluir as tarefas descritas neste documento, é possível evitar o faturamento contínuo excluindo os recursos criados. Saiba mais em Limpeza.

Pré-requisitos

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  4. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  5. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  6. No Console do Google Cloud, ative o Cloud Shell.

    Ativar o Cloud Shell

    Na parte inferior do Console do Google Cloud, uma sessão do Cloud Shell é iniciada e exibe um prompt de linha de comando. O Cloud Shell é um ambiente shell com a CLI do Google Cloud já instalada e com valores já definidos para o projeto atual. A inicialização da sessão pode levar alguns segundos.

  7. No Cloud Shell, consiga o código do projeto que você acabou de selecionar:
    gcloud config get-value project
    Se este comando não retornar o código, configure o Cloud Shell para usar seu projeto. Substitua PROJECT_ID pelo código do seu projeto.
    gcloud config set project PROJECT_ID
  8. Ative as APIs necessárias:
    gcloud services enable bigquery.googleapis.com cloudbuild.googleapis.com compute.googleapis.com dataplex.googleapis.com
    Esta etapa pode levar alguns minutos.
  9. Se você nunca usou o Git no Cloud Shell, configure-o com seu nome e endereço de e-mail:
    git config --global user.email "YOUR_EMAIL_ADDRESS"
    git config --global user.name "YOUR_NAME"
    
    O Git usa essas informações para identificar você como o autor das confirmações que você cria no Cloud Shell.

Como configurar seu repositório GitHub

Neste tutorial, você usa um único repositório Git para definir a infraestrutura em nuvem. Você orquestra essa infraestrutura ao ter branches diferentes correspondentes a ambientes diferentes:

  • A ramificação dev contém as alterações mais recentes aplicadas ao ambiente de desenvolvimento.
  • A ramificação prod contém as últimas alterações que são aplicadas ao ambiente de produção.

Com essa infraestrutura, sempre é possível fazer referência ao repositório para saber qual configuração é esperada em cada ambiente e propor novas alterações, primeiro fundindo-as ao ambiente dev. Em seguida, você promove as alterações mesclando a ramificação dev na ramificação prod subsequente.

Para começar, você bifurca o repositório terraform-google-dataplex-auto-data-quality.

  1. No GitHub, acesse https://github.com/GoogleCloudPlatform/terraform-google-dataplex-auto-data-quality.git.

  2. Clique em Bifurcar.

    Agora você tem uma cópia do repositório terraform-google-dataplex-auto-data-quality com arquivos de origem.

  3. No Cloud Shell, clone este repositório bifurcado, substituindo YOUR_GITHUB_USERNAME pelo seu nome de usuário do GitHub:

    cd ~
    git clone https://github.com/YOUR_GITHUB_USERNAME/terraform-google-dataplex-auto-data-quality.git
    cd ~/terraform-google-dataplex-auto-data-quality
    
  4. Crie ramificações dev e prod:

    git checkout -b prod
    git checkout -b dev
    

O código nesse repositório está estruturado da seguinte maneira:

  • A pasta environments/ contém subpastas que representam ambientes, como dev e prod, que fornecem separação lógica entre cargas de trabalho em diferentes estágios de maturidade, desenvolvimento e produção, respectivamente.

  • A pasta modules/ contém módulos in-line do Terraform. Esses módulos representam agrupamentos lógicos de recursos relacionados e são usados para compartilhar código em diferentes ambientes. O módulo modules/deploy/ aqui representa um modelo para uma implantação e é reutilizado para diferentes ambientes de implantação.

  • Em modules/deploy/:

    • A pasta rule/ contém arquivos yaml contendo regras de qualidade de dados. Um arquivo representa um conjunto de regras de qualidade de dados para uma tabela. Esse arquivo é usado nos ambientes dev e prod.

    • A pasta schemas/ contém o esquema da tabela do BigQuery implantada na infraestrutura.

    • O arquivo bigquery.tf contém a configuração das tabelas do BigQuery criadas nesta implantação.

    • O arquivo dataplex.tf contém uma verificação de dados do Dataplex para a qualidade de dados. Esse arquivo é usado com rules_file_parsing.tf para ler regras de qualidade de dados de um arquivo yaml no ambiente.

  • O cloudbuild.yaml é um arquivo de configuração de versão que contém instruções para o Cloud Build, como executar tarefas com base em um conjunto de etapas. Esse arquivo especifica uma execução condicional, dependendo do branch em que o Cloud Build está buscando o código. Por exemplo:

    • Para ramificações dev e prod, as seguintes etapas são executadas:

      1. terraform init
      2. terraform plan
      3. terraform apply
    • Para qualquer outra ramificação, as etapas a seguir são executadas:

      1. terraform init para todas as subpastas environments
      2. terraform plan para todas as subpastas environments

Para garantir que as alterações propostas sejam adequadas para todos os ambientes, terraform init e terraform plan são executados em todos eles. Antes de mesclar a solicitação de envio, é possível analisar os planos para garantir que o acesso não esteja sendo concedido a uma entidade não autorizada, por exemplo.

Como configurar o Terraform para armazenar o estado em buckets do Cloud Storage

Por padrão, o Terraform armazena o state localmente em um arquivo chamado terraform.tfstate. Essa configuração padrão pode dificultar o uso do Terraform para as equipes, especialmente quando muitos usuários o executam ao mesmo tempo e cada máquina tem o próprio entendimento da infraestrutura atual.

Para ajudar a evitar esses problemas, esta seção configura um estado remoto (em inglês) que aponta para um bucket do Cloud Storage. O estado remoto é um recurso de back-ends e, neste tutorial, é configurado no arquivo backend.tf.

# Copyright 2024 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

terraform {
  backend "gcs" {
    bucket = "PROJECT_ID-tfstate-dev"
  }
}

Há um arquivo backend.tf separado em cada um dos ambientes dev e prod. Usar um bucket do Cloud Storage diferente para cada ambiente é uma prática recomendada.

Nas etapas a seguir, crie dois buckets do Cloud Storage para dev e prod e altere alguns arquivos para apontar para seus novos buckets e seu projeto do Google Cloud.

  1. No Cloud Shell, crie os dois buckets do Cloud Storage:

    DEV_BUCKET=gs://PROJECT_ID-tfstate-dev
    gcloud storage buckets create ${DEV_BUCKET}
    
    PROD_BUCKET=gs://PROJECT_ID-tfstate-prod
    gcloud storage buckets create ${PROD_BUCKET}
    
  2. Ative o Controle de versões do objeto para manter o histórico das implantações:

    gcloud storage buckets update ${DEV_BUCKET} --versioning
    gcloud storage buckets update ${PROD_BUCKET} --versioning
    

    Ativar o controle de versões do objeto aumenta os custos de armazenamento, que podem ser reduzidos com a configuração do Gerenciamento do ciclo de vida de objetos para excluir versões mais antigas.

  3. Substitua o marcador PROJECT_ID pelo ID do projeto nos arquivos main.tf e backend.tf em cada ambiente:

    cd ~/terraform-google-dataplex-auto-data-quality
    sed -i s/PROJECT_ID/PROJECT_ID/g environments/*/main.tf
    sed -i s/PROJECT_ID/PROJECT_ID/g environments/*/backend.tf
    

    No OS X ou macOS, talvez seja necessário adicionar duas aspas ("") após sed -i, da seguinte maneira:

    cd ~/solutions-terraform-cloudbuild-gitops
    sed -i "" s/PROJECT_ID/PROJECT_ID/g environments/*/main.tf
    sed -i "" s/PROJECT_ID/PROJECT_ID/g environments/*/backend.tf
    
  4. Verifique se todos os arquivos foram atualizados:

    git status
    

    O resultado será semelhante ao seguinte:

    On branch dev
    Your branch is up-to-date with 'origin/dev'.
    Changes not staged for commit:
     (use "git add <file>..." to update what will be committed)
     (use "git checkout -- <file>..." to discard changes in working directory)
           modified:   environments/dev/backend.tf
           modified:   environments/dev/main.tf
           modified:   environments/prod/backend.tf
           modified:   environments/prod/main.tf
    no changes added to commit (use "git add" and/or "git commit -a")
    
  5. Confirme e envie suas alterações por push:

    git add --all
    git commit -m "Update project IDs and buckets"
    git push origin dev
    

    Dependendo da sua configuração do GitHub, será preciso se autenticar para enviar as alterações anteriores.

Como conceder permissões à sua conta de serviço do Cloud Build

Para permitir que a conta de serviço do Cloud Build execute scripts do Terraform com o objetivo de gerenciar recursos do Google Cloud, você precisa conceder acesso adequado ao projeto. Para simplificar, o acesso ao editor do projeto é concedido neste tutorial. Porém, quando o papel de editor do projeto tem uma permissão ampla, em ambientes de produção, siga as práticas recomendadas de segurança de TI da sua empresa, geralmente fornecendo acesso com menos privilégios.

  1. No Cloud Shell, recupere o e-mail da conta do serviço do Cloud Build do seu projeto:

    CLOUDBUILD_SA="$(gcloud projects describe $PROJECT_ID \
        --format 'value(projectNumber)')@cloudbuild.gserviceaccount.com"
    
  2. Conceda o acesso necessário à sua conta de serviço do Cloud Build:

    gcloud projects add-iam-policy-binding $PROJECT_ID \
        --member serviceAccount:$CLOUDBUILD_SA --role roles/editor
    

Como conectar diretamente o Cloud Build ao seu repositório GitHub

Nesta seção, mostramos como instalar o app GitHub do Cloud Build. Essa instalação permite conectar seu repositório do GitHub ao projeto do Google Cloud para que o Cloud Build possa aplicar automaticamente seus manifestos do Terraform sempre que você criar uma nova ramificação ou enviar um código ao GitHub.

As etapas a seguir fornecem instruções para instalar o app apenas para o repositório terraform-google-dataplex-auto-data-quality, mas você pode optar por instalar o app para mais ou todos os seus repositórios.

  1. No Marketplace do GitHub, acesse a página do app Cloud Build.

    • Se esta for a primeira vez que você configura um aplicativo no GitHub, clique em Configurar com o Google Cloud Build na parte inferior da página. Em seguida, clique em Conceder acesso a este aplicativo à sua conta do GitHub.
    • Se esta não for a primeira vez que você configura um aplicativo no GitHub, clique em Configurar acesso. A página Aplicativos da sua conta pessoal é aberta.
  2. Clique em Configurar na linha do Cloud Build.

  3. Selecione Somente repositórios selecionados e, em seguida, selecione terraform-google-dataplex-auto-data-quality para se conectar ao repositório.

  4. Clique em Salvar ou Instalar. O rótulo do botão muda dependendo do fluxo de trabalho. Você será redirecionado para o Google Cloud para continuar a instalação.

  5. Faça login com sua conta do Google Cloud. Se solicitado, autorize a integração do Cloud Build com o GitHub.

  6. Na página Cloud Build, selecione o projeto. Um assistente será exibido.

  7. Na seção Selecionar repositório, selecione sua conta do GitHub e o repositório terraform-google-dataplex-auto-data-quality.

  8. Se você concordar com os termos e condições, marque a caixa de seleção e clique em Conectar.

  9. Na seção Criar um acionador, clique em Criar um acionador:

    1. Adicione um nome de gatilho, como push-to-branch. Anote esse nome do gatilho porque você vai precisar dele mais tarde.
    2. Na seção Evento, selecione Enviar para uma ramificação.
    3. Na seção Origem, selecione .* no campo Ramificação.
    4. Clique em Criar.

O app GitHub do Cloud Build agora está configurado, e seu repositório do GitHub está vinculado ao seu projeto do Google Cloud. A partir de agora, as alterações no repositório GitHub acionam execuções do Cloud Build, que informam os resultados de volta ao GitHub usando as Verificações do GitHub (em inglês).

Como alterar a configuração do ambiente em um novo branch de recurso

Até agora, você configurou a maior parte do seu ambiente. Por isso, é hora de fazer algumas alterações no código do seu ambiente local.

  1. No GitHub, acesse a página principal do seu repositório bifurcado.

    https://github.com/YOUR_GITHUB_USERNAME/terraform-google-dataplex-auto-data-quality
    
  2. Verifique se você está na ramificação dev.

  3. Para abrir o arquivo para edição, acesse o arquivo modules/deploy/dataplex.tf.

  4. Na linha 19, altere o rótulo the_environment para environment.

  5. Adicione uma mensagem de confirmação na parte inferior da página, como "modificando rótulo", e selecione Create a new branch for this commit and start a pull request.

  6. Clique em Propor alterações.

  7. Na página seguinte, clique em Criar solicitação de envio para abrir uma nova solicitação com sua alteração na ramificação dev.

    Depois que a solicitação de envio for aberta, um job do Cloud Build será iniciado automaticamente.

  8. Clique em Mostrar todas as verificações e aguarde a verificação ficar verde. Não mescle a solicitação de envio ainda. A mesclagem é feita em uma etapa posterior do tutorial.

  9. Clique em Detalhes para ver mais informações, incluindo a saída do terraform plan em Ver mais detalhes no Google Cloud Build.

Observe que o job Cloud Build executou o pipeline definido no arquivo cloudbuild.yaml. Como discutido anteriormente, esse pipeline tem comportamentos diferentes, dependendo do branch que está sendo buscado. A construção verifica se a variável $BRANCH_NAME corresponde a alguma pasta do ambiente. Nesse caso, o Cloud Build executa terraform plan para esse ambiente. Caso contrário, o Cloud Build executa terraform plan em todos os ambientes para garantir que a alteração proposta seja apropriada para todos eles. Se a execução de algum desses planos falhar, a compilação falhará.

- id: 'tf plan'
  name: 'hashicorp/terraform:1.0.0'
  entrypoint: 'sh'
  args:
  - '-c'
  - |
      if [ -d "environments/$BRANCH_NAME/" ]; then
        cd environments/$BRANCH_NAME
        terraform plan
      else
        for dir in environments/*/
        do
          cd ${dir}
          env=${dir%*/}
          env=${env#*/}
          echo ""
          echo "*************** TERRAFORM PLAN ******************"
          echo "******* At environment: ${env} ********"
          echo "*************************************************"
          terraform plan || exit 1
          cd ../../
        done
      fi

Da mesma forma, o comando terraform apply é executado para ramificações do ambiente, mas é completamente ignorado em qualquer outro caso. Nesta seção, você enviou uma alteração de código para uma nova filial, portanto, nenhuma implantação de infraestrutura foi aplicada ao seu projeto do Google Cloud.

- id: 'tf apply'
  name: 'hashicorp/terraform:1.0.0'
  entrypoint: 'sh'
  args:
  - '-c'
  - |
      if [ -d "environments/$BRANCH_NAME/" ]; then
        cd environments/$BRANCH_NAME
        terraform apply -auto-approve
      else
        echo "***************************** SKIPPING APPLYING *******************************"
        echo "Branch '$BRANCH_NAME' does not represent an official environment."
        echo "*******************************************************************************"
      fi

Como aplicar o sucesso da execução do Cloud Build antes de mesclar branches

Para garantir que as mesclagens possam ser aplicadas apenas quando as respectivas execuções do Cloud Build forem bem-sucedidas, continue com as seguintes etapas:

  1. No GitHub, acesse a página principal do seu repositório bifurcado.

    https://github.com/YOUR_GITHUB_USERNAME/terraform-google-dataplex-auto-data-quality
    
  2. No nome do repositório, clique em Settings.

  3. No menu esquerdo, clique em Branches.

  4. Em Branch protection rules, clique em Add rule.

  5. Em Branch name pattern, digite dev.

  6. Na seção Proteger ramificações correspondentes, selecione Exigir que as verificações de status sejam aprovadas antes da mesclagem.

  7. Pesquise o nome do gatilho do Cloud Build criado anteriormente.

  8. Clique em Criar.

  9. Repita as etapas 3 a 7, definindo Padrão de nome da ramificação como prod.

Essa configuração é importante para proteger as ramificações dev e prod. Ou seja, as confirmações precisam primeiro ser enviadas para outro branch e somente então podem ser mescladas ao branch protegido. Neste tutorial, a proteção exige que a execução do Cloud Build seja bem-sucedida para que a mesclagem seja permitida.

Como promover alterações no ambiente de desenvolvimento

Você tem uma solicitação de envio aguardando para ser mesclada. É hora de aplicar o estado que você quer ao seu ambiente dev.

  1. No GitHub, acesse a página principal do seu repositório bifurcado.

    https://github.com/YOUR_GITHUB_USERNAME/terraform-google-dataplex-auto-data-quality
    
  2. No nome do seu repositório, clique em Pull requests.

  3. Clique na solicitação de envio que você acabou de criar.

  4. Clique em Mesclar solicitação de envio e depois em Confirmar mesclagem.

  5. Verifique se um novo Cloud Build foi acionado:

    Acessar a página do Cloud Build

  6. Abra a compilação e verifique os registros. Ele vai mostrar todos os recursos que o Terraform está criando e gerenciando.

Como promover alterações no ambiente de produção

Agora que seu ambiente de desenvolvimento está totalmente testado, promova seu código de regras de qualidade de dados para produção.

  1. No GitHub, acesse a página principal do seu repositório bifurcado.

    https://github.com/YOUR_GITHUB_USERNAME/terraform-google-dataplex-auto-data-quality
    
  2. No nome do seu repositório, clique em Pull requests.

  3. Clique em New pull request.

  4. Para base repository, selecione seu repositório recém-bifurcado.

  5. Para base, selecione prod do seu próprio repositório base. Para comparar, selecione dev.

  6. Clique em Criar solicitação de envio.

  7. Para title, digite um título como Changing label name e clique em Criar solicitação de envio.

  8. Revise as alterações propostas, incluindo os detalhes de terraform plan do Cloud Build e clique em Mesclar solicitação de envio.

  9. Clique em Confirmar mesclagem.

  10. No console do Google Cloud, abra a página Histórico da compilação para ver as alterações sendo aplicadas ao ambiente de produção:

    Acessar a página do Cloud Build

Você configurou regras de qualidade de dados gerenciadas usando o Terraform e o Cloud Build.

Limpar

Depois de concluir o tutorial, limpe os recursos que você criou no Google Cloud para não receber cobranças por eles no futuro.

Excluir o projeto

  1. No Console do Google Cloud, acesse a página Gerenciar recursos.

    Acessar "Gerenciar recursos"

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
  3. Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

Como excluir o repositório do GitHub

Para evitar o bloqueio de novas solicitações de pull no repositório do GitHub, exclua as regras de proteção do branch:

  1. No GitHub, acesse a página principal do seu repositório bifurcado.
  2. No nome do repositório, clique em Settings.
  3. No menu esquerdo, clique em Branches.
  4. Na seção Regras de proteção do branch, clique no botão Excluir das linhas dev e prod.

Se preferir, desinstale completamente o app Cloud Build do GitHub:

  1. No GitHub, acesse a página Aplicativos do GitHub.

  2. Na guia Apps instalados do GitHub, clique em Configurar na linha Cloud Build. Em seguida, na seção Zona de perigo, clique no botão Desinstalar na linha Desinstalar o Google Cloud Builder.

    Na parte superior da página, você verá uma mensagem dizendo "Tudo pronto. Um job foi colocado na fila para desinstalar o Google Cloud Build."

  3. Na guia Apps autorizados do GitHub, clique no botão Revogar na linha Google Cloud Build e depois em Eu entendo, revogue o acesso.

Se você não quiser manter seu repositório do GitHub:

  1. No GitHub, acesse a página principal do seu repositório bifurcado.
  2. No nome do repositório, clique em Settings.
  3. Acesse Zona de perigo.
  4. Clique em Excluir este repositório e siga as etapas de confirmação.

A seguir