Usar tarefas de qualidade de dados do Dataplex com o BigQuery

Este documento fornece uma visão geral conceitual de como usar o BigQuery e o Dataplex para executar tarefas de qualidade de dados.

Sobre tarefas de qualidade de dados com o BigQuery

O BigQuery usa o Dataplex para definir, programar e executar verificações de qualidade de dados em tabelas do BigQuery. Essas tabelas podem ser internas do BigQuery, externas ou do BigLake em outras nuvens.

Para instruções sobre como usar o Dataplex com o BigQuery, consulte Criar tarefas de qualidade de dados com o Dataplex.

Quando criar tarefas de qualidade de dados do Dataplex com o BigQuery

As tarefas de qualidade de dados do Dataplex podem ajudar nos seguintes cenários:

  • Crie ferramentas de qualidade de dados. Validar os dados como parte de um pipeline de produção de dados.
  • Mantenha o gerenciamento da qualidade dos dados. Monitorar rotineiramente a qualidade dos conjuntos de dados em relação às suas expectativas.
  • Acompanhe as métricas de qualidade de dados. Criar relatórios de qualidade de dados para atender às exigências regulatórias.

Benefícios

  • Especificações personalizáveis. É possível usar a sintaxe YAML altamente flexível para declarar as regras de qualidade de dados.
  • Implementação sem servidor. O Dataplex não precisa de configuração de infraestrutura.
  • Copiar sem cópia e pushdown automático. As verificações de YAML são convertidas em SQL e enviadas para o BigQuery, o que não gera cópia de dados.
  • Verificações de qualidade de dados programáveis. É possível programar verificações de qualidade de dados por meio do programador sem servidor no Dataplex ou usar a API Dataplex por meio de programadores externos, como o Cloud Composer, para a integração do pipeline.
  • Experiência gerenciada. O Dataplex usa um mecanismo de qualidade de dados de código aberto, o CloudDQ, para executar verificações de qualidade de dados. No entanto, o Dataplex oferece uma experiência gerenciada e perfeita para realizar as verificações de qualidade de dados.

Como funciona

O diagrama a seguir mostra como as tarefas de qualidade de dados do Dataplex funcionam:

image

  • Entrada de usuários
    • Especificação YAML: um conjunto de um ou mais arquivos YAML que definem regras de qualidade de dados com base na sintaxe de especificação. Você armazena os arquivos YAML em um bucket do Cloud Storage no projeto. Os usuários podem executar várias regras simultaneamente, e elas podem ser aplicadas a diferentes tabelas do BigQuery, incluindo tabelas em diferentes conjuntos de dados ou projetos do Google Cloud. A especificação é compatível com execuções incrementais para validar apenas novos dados. Para criar uma especificação YAML, consulte Criar um arquivo de especificação.
    • Tabela de resultados do BigQuery: uma tabela especificada pelo usuário em que os resultados de validação da qualidade dos dados são armazenados. O projeto do Google Cloud em que essa tabela está localizada pode ser diferente do projeto em que a tarefa de qualidade de dados do Dataplex é usada.
  • Tabelas a serem validadas
    • Na especificação YAML, é preciso definir quais tabelas você quer validar para quais regras, também conhecidas como vinculação de regras. As tabelas podem ser nativas do BigQuery ou tabelas externas do BigQuery no Cloud Storage. A especificação YAML permite especificar tabelas dentro ou fora de uma zona do Dataplex.
    • As tabelas do BigQuery e do Cloud Storage validadas em uma única execução podem pertencer a diferentes projetos.
  • Tarefa de qualidade de dados do Dataplex: uma tarefa de qualidade de dados do Dataplex é configurada com um binário pré-criado e mantido do CloudDQ PySpark e usa a especificação YAML e a tabela de resultados do BigQuery como entrada. Semelhante a outras tarefas do Dataplex (em inglês), a tarefa de qualidade de dados do Dataplex é executada em um ambiente Spark sem servidor, converte a especificação YAML para consultas do BigQuery e executa essas consultas nas tabelas definidas no arquivo de especificação.

Custos

Quando você executa tarefas de qualidade de dados do Dataplex, você é cobrado pelo uso do BigQuery e do Dataproc sem servidor (Batches).

  • A tarefa de qualidade de dados do Dataplex converte o arquivo de especificação em consultas do BigQuery e as executa no projeto do usuário. Consulte Preços do BigQuery.

  • O Dataplex usa o Spark para executar o programa de driver CloudDQ de código aberto e pré-criado pelo Google para converter a especificação do usuário em consultas do BigQuery. Consulte Preços do Dataproc sem servidor.

Não há cobranças pelo uso do Dataplex para organizar dados ou pelo uso do programador sem servidor no Dataplex para agendar verificações de qualidade. Consulte Preços do Dataplex.

A seguir