Sobre a criação de perfis de dados

A criação de perfil de dados do Dataplex permite identificar características estatísticas comuns das colunas nas tabelas do BigQuery. Essas informações ajudam você a entender e analisar seus dados de maneira mais eficaz.

Informações como valores de dados típicos, distribuição de dados e contagens nulas podem acelerar a análise. Quando combinada com a classificação de dados, a criação de perfil pode detectar classes de dados ou informações sensíveis que, por sua vez, podem ativar políticas de controle de acesso.

O Dataplex também usa essas informações para recomendar regras para verificações de qualidade de dados.

Modelo conceitual

O Dataplex permite que você entenda melhor o perfil dos dados criando uma verificação de criação de perfil de dados.

O diagrama a seguir mostra como o Dataplex verifica os dados para relatar características estatísticas.

Uma verificação de criação de perfil de dados analisa os dados da tabela para relatar características estatísticas.

Uma verificação de criação de perfil de dados é associada a uma tabela do BigQuery. Ela é verificada para gerar os resultados da criação do perfil de dados. Uma verificação de criação de perfil de dados é compatível com várias opções de configuração.

Opções de configuração

Nesta seção, descrevemos as opções de configuração disponíveis para executar verificações de criação de perfil de dados.

Opções de programação

É possível programar uma verificação de criação de perfil de dados com uma frequência definida ou sob demanda por meio da API ou do console do Google Cloud.

Escopo

Como parte da especificação de uma verificação de criação de perfil de dados, é possível especificar o escopo de um job como uma das seguintes opções:

  • Tabela completa: a tabela inteira é verificada na verificação da criação de perfil de dados. A amostragem, os filtros de linha e de coluna são aplicados à tabela inteira antes de calcular as estatísticas de criação de perfil.

  • Incremental: os dados incrementais que você especifica são verificados na verificação do perfil de dados. Especifique uma coluna Date ou Timestamp na tabela a ser usada como um incremento. Normalmente, essa é a coluna em que a tabela está particionada. A amostragem, os filtros de linha e os filtros de coluna são aplicados aos dados incrementais antes de calcular as estatísticas da criação de perfil.

Filtrar dados

É possível filtrar os dados que serão verificados para criação de perfil usando filtros de linha e de coluna. O uso de filtros ajuda a reduzir o tempo e o custo de execução, além de excluir dados confidenciais e inúteis.

  • Filtros de linha: permitem se concentrar nos dados de um período ou segmento específico, como uma região. Por exemplo, filtre os dados com um carimbo de data/hora anterior a uma determinada data.

  • Filtros de coluna: com eles, é possível incluir e excluir colunas específicas da tabela para executar a verificação da criação de perfil de dados.

Dados de amostra

O Dataplex permite especificar uma porcentagem de registros dos seus dados para amostragem e executar uma verificação de criação de perfil de dados. Criar verificações de criação de perfil de dados em uma amostra menor pode reduzir o tempo de execução e o custo da consulta de todo o conjunto de dados.

Várias verificações de criação de perfil de dados

O Dataplex permite criar várias verificações de criação de perfil de dados de uma só vez usando o console do Google Cloud. É possível selecionar até 100 tabelas de um conjunto de dados e criar uma verificação de criação de perfil de dados para cada conjunto. Saiba mais.

Exportar os resultados da verificação para a tabela do BigQuery

É possível exportar os resultados da verificação da criação de perfil de dados para uma tabela do BigQuery se quiser uma análise mais detalhada. Para personalizar os relatórios, conecte os dados da tabela do BigQuery a um painel do Looker. É possível criar um relatório agregado usando a mesma tabela de resultados em várias verificações.

Resultados da criação de perfil de dados

Os resultados da criação de perfil de dados incluem os seguintes valores:

Tipo de coluna Resultados da criação de perfil de dados
Coluna numérica
  • Porcentagem de valores nulos.
  • Porcentagem de valores exclusivos aproximados (distintos).
  • Os 10 principais valores mais comuns na coluna. Pode ser menor que 10 se o número de valores exclusivos na coluna for menor que 10 (valores nulos não são incluídos). Para cada um desses valores mais comuns, é exibida a porcentagem da ocorrência deles nos dados verificados na verificação atual.
  • Média, desvio padrão, mínimo, quartil inferior aproximado, mediana aproximada, quartil superior aproximado e valores máximos.
Coluna de string
  • Porcentagem de valores nulos.
  • Porcentagem de valores exclusivos aproximados (distintos).
  • Os 10 principais valores mais comuns na coluna, que podem ser menores que 10 se o número de valores exclusivos na coluna for menor que 10.
  • Comprimento médio, mínimo e máximo da string.
Outras colunas não aninhadas (data, hora, carimbo de data/hora, binário etc.)
  • Porcentagem de valores nulos.
  • Porcentagem de valores exclusivos aproximados (distintos).
  • Os 10 principais valores mais comuns na coluna, que podem ser menores que 10 se o número de valores exclusivos na coluna for menor que 10.
Todas as outras colunas de tipo de dados aninhadas ou complexas (como Registro, Matriz, JSON) ou qualquer coluna com o modo repeated.
  • Porcentagem de valores nulos.

Os resultados incluem o número de registros verificados em cada execução.

Relatórios e monitoramento

Monitore e analise os resultados da criação de perfil de dados usando os seguintes relatórios e métodos:

  • Relatórios publicados com a tabela de origem nas páginas do BigQuery e do Data Catalog

    Se você tiver configurado uma verificação de criação de perfil de dados para publicar os resultados nas páginas do BigQuery e do Data Catalog no console do Google Cloud, poderá ver os resultados mais recentes da verificação de criação de perfil de dados nessas páginas na guia Perfil de dados de qualquer projeto.

    Relatórios publicados.

  • Relatório histórico por job no Dataplex

    Na página Perfil do Dataplex, é possível ver relatórios detalhados dos jobs mais recentes e históricos. Isso inclui informações de perfil no nível da coluna e a configuração usada.

    Relatório de histórico por atividade.

  • Guia "Análise"

    Na página Perfil do Dataplex, use a guia Análise para ver as tendências de uma determinada estatística de uma coluna em vários jobs de perfil. Por exemplo, se você tem uma verificação incremental, é possível conferir a tendência da média de um valor ao longo do tempo.

    Guia "Análise".

  • Criar seu próprio painel ou análise de dados

    Se você configurou uma verificação de criação de perfil de dados para exportar ou salvar resultados em uma tabela do BigQuery, poderá criar seus próprios painéis usando ferramentas, como o Looker Studio.

Limitações

  • Os resultados da criação de perfil de dados não são publicados no Data Catalog como tags.
  • A criação de perfil de dados é compatível com tabelas do BigQuery com todos os tipos de coluna, exceto BIGNUMERIC. Uma verificação criada para uma tabela com uma coluna BIGNUMERIC resulta em um erro de validação e não é criada.
  • As tabelas do BigQuery a serem verificadas precisam ter até 300 colunas.

Preços

  • O Dataplex usa a SKU de processamento premium para cobrar pela criação de perfil de dados. Para mais informações, consulte Preços.

  • A publicação de resultados da criação de perfil de dados no Data Catalog ainda não está disponível. Quando estiver disponível, será cobrada a mesma taxa dos preços do armazenamento de metadados do catálogo. Para saber mais informações, consulte Preços.

  • O processamento premium do Dataplex para criação de perfil de dados é cobrado por segundo com um mínimo de um minuto.

  • Você não recebe cobranças por verificações de perfil com falha.

  • A cobrança depende do número de linhas, do número de colunas, da quantidade de dados verificados, das configurações de particionamento e clustering na tabela e da frequência da verificação.

  • Há várias opções para reduzir o custo das verificações da criação de perfil de dados:

    • Amostragem
    • Verificações incrementais
    • Filtragem de colunas
    • Filtragem de linhas
  • Para separar as cobranças da criação de perfil de dados de outras cobranças na SKU de processamento premium do Dataplex, use o rótulo goog-dataplex-workload-type com o valor DATA_PROFILE.

  • Para filtrar cobranças agregadas, use os seguintes rótulos:

    • goog-dataplex-datascan-data-source-dataplex-entity
    • goog-dataplex-datascan-data-source-dataplex-lake
    • goog-dataplex-datascan-data-source-dataplex-zone
    • goog-dataplex-datascan-data-source-project
    • goog-dataplex-datascan-data-source-region
    • goog-dataplex-datascan-id
    • goog-dataplex-datascan-job-id

A seguir