Monitorar a qualidade dos dados com verificações

Neste documento, explicamos como usar o BigQuery e o Dataplex juntos para garantir que os dados atendam às suas expectativas de qualidade. O BigQuery usa o Dataplex para definir verificações de dados contínuas, monitorar resultados e resolver problemas com a qualidade de dados.

Para mais informações sobre a qualidade de dados automática, consulte Sobre a qualidade de dados automática.

Antes de começar

Para criar e modificar verificações no projeto: ative a API Dataplex.

Ativar a API Dataplex
Para verificações entre projetos: crie um identificador de serviço do Dataplex com o comando gcloud beta services identity create. Se não houver um identificador de serviço do Dataplex, esse comando vai retornar um novo. Se já houver um identificador de serviço, o comando retornará o atual. Esse comando pode solicitar a instalação do componente de comandos da CLI Beta da gcloud.
```
gcloud beta services identity create
--service=dataplex.googleapis.com
```

Funções exigidas

Peça ao administrador para conceder os papéis a seguir aos principais da conta apropriados com base nos casos de uso a que eles precisam acessar. Para mais informações sobre como conceder papéis, consulte Gerenciar acesso.

Papéis do BigQuery

Visualizador de dados do BigQuery em uma tabela para criar uma verificação nela sem publicar os resultados.
Editor de dados do BigQuery em uma tabela para criar uma verificação nela com publicação.
Se a tabela do BigQuery e a verificação de qualidade de dados estiverem em projetos diferentes, será necessário conceder à conta de serviço do Dataplex a permissão de leitura bigquery.tables.getData ou o papel Leitor de dados do BigQuery) na tabela correspondente do BigQuery. Para conseguir a identidade de uma conta de serviço, consulte Antes de começar.
Se você estiver verificando uma tabela externa do BigQuery no Cloud Storage, atribua o papel do Cloud Storage (roles/storage.objectViewer) à conta de serviço do Dataplex.

Papéis do Dataplex

Administrador do DataScan Dataplex no nível do projeto: para criar verificações.
Editor do DataScan Dataplex em uma verificação: para editar as propriedades de uma verificação (exceto permissões), bem como executar e excluir a verificação.
Leitor de dados do DataScan Dataplex em uma verificação para ver os resultados dela.

Esses papéis contêm as permissões necessárias para os casos de uso anteriores. Para conferir as permissões exatas necessárias, expanda a seção Permissões necessárias:

Permissões necessárias

As permissões a seguir são necessárias para usar vários aspectos das verificações de qualidade de dados:

Para mudar a configuração de uma verificação de dados: dataplex.datascans.update: no recurso de verificação de dados
Para alterar a política de uma verificação de dados: dataplex.datascans.setIamPolicy: no recurso de verificação de dados
Para criar uma verificação de dados em uma tabela do BigQuery: bigquery.tables.getData - a tabela a ser verificada
Para criar verificações de dados em um projeto: dataplex.datascans.create - no projeto
Para excluir uma verificação de dados: dataplex.datascans.delete, no recurso de verificação de dados
Para exportar os resultados da verificação de dados para um conjunto de dados do BigQuery: bigquery.datasets.get, bigquery.tables.create, bigquery.tables.get, bigquery.tables.update, bigquery.tables.updateData: o conjunto de dados de destino.
Para publicar os resultados de uma verificação de dados em uma tabela: bigquery.tables.update - a tabela de destino
Para executar uma verificação de dados: dataplex.datascans.run, no recurso de verificação de dados
Para verificar uma tabela externa do Cloud Storage: storage.buckets.get, storage.objects.get: o bucket que contém as tabelas a serem verificadas
Para ver os resultados de uma verificação de dados: dataplex.datascans.getData: no recurso de verificação de dados
Para ver os resultados de uma verificação de dados: dataplex.datascans.get: no recurso de verificação de dados
Para ver os resultados de uma verificação de dados: dataplex.datascans.list - no recurso de verificação de dados

Essas permissões também podem ser concedidas com papéis personalizados ou outros papéis predefinidos.

Criar uma verificação de qualidade de dados

No console do Google Cloud, acesse a página do BigQuery.

Acessar o BigQuery
No painel Explorer, clique em uma tabela para a verificação da qualidade dos dados.
Clique na guia Qualidade dos dados.
Clique em Verificação da qualidade de dados > Criar nova verificação.
Opcional: edite os seguintes valores:
- Nome de exibição: o nome mutável do recurso no console.
- ID: um identificador exclusivo da verificação. Ele não pode ser alterado após a criação da verificação.
- Descrição: uma descrição da verificação.
- Região: define a região em que a verificação de dados é processada.
- Escopo: o intervalo de dados disponíveis para verificação. Selecione Incremental ou Dados inteiros. Se você escolher Incremental, recomendamos incluir uma coluna DATE ou TIMESTAMP que aumenta linearmente. Essa coluna pode ser usada para identificar novos registros. Para tabelas particionadas em colunas do tipo DATE ou TIMESTAMP, é recomendável usar a coluna de partição como o campo de carimbo de data/hora.
- Filtros: são aplicados aos dados antes da execução da verificação. Para filtrar linhas, marque a caixa de seleção Filtrar linhas e insira uma expressão SQL válida no campo de texto de entrada. A expressão precisa estar na sintaxe SQL padrão do BigQuery e pode ser usada em uma cláusula WHERE.
- Tamanho da amostragem: a porcentagem de dados que você quer usar na amostragem. Nas verificações de dados incrementais, somente o incremento mais recente é amostrado.
- Publique resultados na IU do Dataplex Catalog e do BigQuery: essa opção disponibiliza os resultados mais recentes da verificação de criação de perfil de dados na IU do BigQuery, na guiaQualidade de dados da tabela de origem. Se uma verificação estiver em execução e configurada para publicação, essa opção pode estar indisponível.
- Programação: é Sob demanda (padrão) ou Repetir. Se você selecionar Repetir, especifique a frequência da verificação programada com Diária, Semanal, Mensal. ou Personalizado. Já o personalizado usa o formato de tempo cron para especificar a programação. Por exemplo, uma verificação definida para ser executada na segunda terça-feira do mês à 1h teria esta aparência: 0 1 8-14 * 2.
Para avançar o painel e mostrar as configurações das regras de qualidade de dados, clique em Continuar.
Clique em Adicionar regras e adicione uma ou mais das seguintes regras, conforme apropriado. As regras também podem ser excluídas com Remover.
- Recomendações com base no perfil
- Tipos de regra integrados
- Regra de verificação de linhas SQL
- Regra de verificação agregada do SQL
Opcional: para avançar o painel e mostrar outras configurações opcionais, clique em Continuar e edite os seguintes valores:
- Exportar os resultados da verificação para a tabela do BigQuery: selecione um conjunto de dados do BigQuery e uma tabela para salvar os resultados da verificação de qualidade. Se um conjunto de dados for definido, mas nenhuma tabela, o Dataplex criará uma tabela para você. As tabelas criadas dessa maneira podem gerar custos de armazenamento.
- Rótulos: adicione um rótulo à verificação.
Clique em um dos botões a seguir de acordo com suas necessidades:
- Para salvar as configurações de verificação, clique em Create.
- Para salvar e executar a verificação, clique em Executar.

Gerenciar permissões de verificação de qualidade de dados

Para alterar as permissões de acesso das verificações de qualidade, faça o seguinte:

Acesse a página do BigQuery.

Acessar o BigQuery
No painel Explorer, selecione em uma tabela para a verificação da qualidade dos dados.
Clique na guia Qualidade dos dados.
Clique em Verificação da qualidade de dados > Gerenciar permissões da verificação. Isso abre o Dataplex em uma nova guia.
Clique na guia Permissões..
- Para conceder acesso a um principal, clique em Conceder acesso e conceda Dataplex DataScan DataViewer ao principal associado.
- Para remover o acesso de um principal, clique em Remover acesso e remova Dataplex DataScan DataViewer do principal associado.

Editar uma verificação de qualidade de dados

No console do Google Cloud, acesse a página do BigQuery.

Acessar o BigQuery
No painel Explorer, selecione em uma tabela para a verificação da qualidade dos dados.
Clique em Verificação da qualidade de dados > Editar configuração da verificação.

Isso abre as configurações de verificação de qualidade de dados, que podem ser modificadas e salvas para verificações futuras.

Ver resultados da verificação de qualidade de dados

Há várias maneiras de ver os resultados da verificação de qualidade de dados. Selecione a opção mais adequada às suas necessidades.

Ver resultados publicados

No console do Google Cloud, acesse a página do BigQuery.

Acessar o BigQuery
No painel Explorer, selecione em uma tabela para a verificação da qualidade dos dados.
Clique na guia Qualidade dos dados.

Os resultados publicados mais recentes são mostrados nesta visualização.

Ver o histórico de resultados das verificações

No console do Google Cloud, acesse a página do BigQuery.

Acessar o BigQuery
No painel Explorer, selecione em uma tabela para a verificação da qualidade dos dados.
Clique na guia Qualidade dos dados.
Clique em Verificação da qualidade de dados > Ver resultados históricos.

Conferir todas as verificações de qualidade de dados em uma tabela

Para abrir o Dataplex com um histórico de verificação de uma tabela específica, faça o seguinte:

No console do Google Cloud, acesse a página do BigQuery.

Acessar o BigQuery
No painel Explorer, selecione em uma tabela para a verificação da qualidade dos dados.
Clique em Verificação da qualidade de dados > Ver todas as verificações.