Visão geral das tarefas de qualidade de dados

As tarefas de qualidade de dados do Dataplex permitem definir e executar verificações de qualidade de dados em tabelas no BigQuery e no Cloud Storage. As tarefas de qualidade de dados do Dataplex também permitem aplicar controles de dados regulares em ambientes do BigQuery.

Quando criar tarefas de qualidade de dados do Dataplex

As tarefas de qualidade de dados do Dataplex podem ajudar você com o seguinte:

  • Validar os dados como parte de um pipeline de produção de dados.
  • Monitorar rotineiramente a qualidade dos conjuntos de dados em relação às suas expectativas.
  • Criar relatórios de qualidade de dados para atender às exigências regulatórias.

Benefícios

  • Especificações personalizáveis. Use a sintaxe YAML altamente flexível para declarar as regras de qualidade de dados.
  • Implementação sem servidor. O Dataplex não precisa de configuração de infraestrutura.
  • Copiar sem cópia e pushdown automático. As verificações YAML são convertidas em SQL e enviadas ao BigQuery, resultando em nenhuma cópia de dados.
  • Verificações de qualidade de dados programáveis. É possível programar verificações de qualidade de dados com o programador sem servidor no Dataplex ou usar a API Dataplex com programadores externos, como o Cloud Composer, para integração de pipelines.
  • Experiência gerenciada. O Dataplex usa um mecanismo de qualidade de dados de código aberto, o CloudDQ, para executar verificações de qualidade de dados. No entanto, o Dataplex oferece uma experiência gerenciada e integrada para realizar verificações de qualidade de dados.

Como funciona

O diagrama a seguir mostra como as tarefas de qualidade de dados do Dataplex funcionam:

imagem

  • Entrada de usuários
    • Especificação YAML: um conjunto de um ou mais arquivos YAML que definem regras de qualidade de dados com base na sintaxe da especificação. Armazene os arquivos YAML em um bucket do Cloud Storage no seu projeto. Os usuários podem executar várias regras simultaneamente e essas regras podem ser aplicadas a diferentes tabelas do BigQuery, inclusive tabelas em diferentes conjuntos de dados ou projetos do Google Cloud. A especificação é compatível com execuções incrementais para validar apenas dados novos. Para criar uma especificação YAML, consulte Criar um arquivo de especificação.
    • Tabela de resultados do BigQuery: uma tabela especificada pelo usuário em que são armazenados os resultados da validação da qualidade de dados. O projeto do Google Cloud em que essa tabela está localizada pode ser diferente daquele em que a tarefa de qualidade de dados do Dataplex é usada.
  • Tabelas para validação
    • Na especificação YAML, é necessário especificar as tabelas que você quer validar para quais regras, o que também é conhecido como vinculação de regra. Podem ser tabelas nativas do BigQuery ou tabelas externas do BigQuery no Cloud Storage. A especificação YAML permite definir tabelas dentro ou fora de uma zona do Dataplex.
    • As tabelas do BigQuery e do Cloud Storage validadas em uma única execução podem pertencer a projetos diferentes.
  • Tarefa de qualidade de dados do Dataplex: uma tarefa de qualidade de dados do Dataplex é configurada com um binário PySpark do CloudDQ pré-criado e mantido. Ela usa a especificação YAML e a tabela de resultados do BigQuery como entrada. Semelhante a outras tarefas do Dataplex, essa tarefa é executada em um ambiente Spark sem servidor, converte a especificação YAML em consultas do BigQuery e executa essas consultas nas tabelas definidas no arquivo de especificação.

Custos

Quando você executa tarefas de qualidade de dados do Dataplex, você é cobrado pelo uso do BigQuery e do Dataproc sem servidor (Batches).

  • Essa tarefa converte o arquivo de especificação em consultas do BigQuery e as executa no projeto do usuário. Consulte os preços do BigQuery.

  • O Dataplex usa o Spark para executar o programa de driver pré-criado e mantido pelo Google, CloudDQ, de código aberto, para converter as especificações do usuário em consultas do BigQuery. Consulte Preços do Dataproc sem servidor.

Não há cobranças pelo uso do Dataplex para organizar dados ou pelo uso do programador sem servidor no Dataplex para programar verificações de qualidade de dados. Consulte Preços do Dataplex.

A seguir