Sobre a criação de perfis de dados

A criação de perfil de dados do Dataplex permite identificar as características estatísticas das colunas no BigQuery tabelas. Essas informações ajudam você a entender e analisar seus dados com mais eficiência.

Informações como valores de dados típicos, distribuição de dados e contagens de nulidade podem para acelerar a análise. Quando combinado com a classificação de dados, o perfil de dados pode detectar classes de dados ou informações sensíveis que, por sua vez, podem ativar políticas de controle de acesso.

O Dataplex também usa essas informações para recomendar regras para verificações de qualidade de dados.

Modelo conceitual

O Dataplex permite entender melhor o perfil dos seus dados criando uma verificação de perfil de dados.

O diagrama a seguir mostra como o Dataplex verifica os dados para gerar relatórios características estatísticas.

Uma verificação de perfil de dados analisa os dados da tabela para informar sobre as características estatísticas.

Uma verificação de perfil de dados é associada a uma tabela do BigQuery e verifica a tabela para gerar os resultados do perfil de dados. Uma criação de perfil de dados scan oferece suporte a várias opções de configuração.

Opções de configuração

Esta seção descreve as opções de configuração disponíveis para executar verificações de perfil de dados.

Opções de programação

É possível programar uma verificação de perfil de dados com uma frequência definida ou sob demanda usando a API ou o console do Google Cloud.

Escopo

Como parte da especificação de uma verificação de criação de perfil de dados, é possível definir o escopo de um job como uma das seguintes opções:

  • Tabela completa: a verificação de perfil de dados é feita em toda a tabela. A amostragem e os filtros de linha e de coluna são aplicados em toda a tabela. antes de calcular as estatísticas de criação de perfil.

  • Incremental: os dados incrementais especificados são verificados nos dados verificação de perfil. Especifique uma coluna Date ou Timestamp na tabela a ser usada como incremento. Normalmente, essa é a coluna em que a tabela é particionada. A amostragem, os filtros de linha e de coluna são aplicados nos dados incrementais antes do cálculo das estatísticas de perfil.

Filtrar dados

É possível filtrar dados para a criação de perfis usando filtros de linha e de coluna. O uso de filtros ajuda a reduzir o tempo e o custo de execução, e excluir dados sensíveis e inúteis.

  • Filtros de linha: permitem focar em dados de um período específico ou de um segmento específico, como região. Por exemplo, é possível filtrar dados com um carimbo de data/hora anterior a uma determinada data.

  • Filtros de coluna: com os filtros de coluna, é possível incluir e excluir informações colunas da tabela para executar a verificação de criação de perfil de dados.

Dados de amostra

O Dataplex permite especificar uma porcentagem de registros dos seus dados para amostragem e execução de uma verificação de perfil de dados. Criando as verificações da criação de perfil de dados em uma amostra menor de dados podem reduzir o tempo de execução e o custo da consulta de todo o conjunto de dados.

Várias verificações de perfil de dados

O Dataplex permite criar várias verificações de criação de perfil de dados ao mesmo tempo usando o console do Google Cloud. Você pode selecionar até 100 tabelas de um conjunto de dados e criar uma verificação de criação de perfil para cada conjunto de dados. Saiba mais.

Exportar os resultados da verificação para a tabela do BigQuery

É possível exportar os resultados da verificação de criação de perfil de dados para uma tabela do BigQuery para uma análise mais detalhada. Para personalizar os relatórios, você pode conectar o dados de tabela do BigQuery para um painel do Looker. Você pode criar um relatório agregado usando a mesma tabela de resultados em várias verificações.

Resultados da criação de perfil de dados

Os resultados do perfil de dados incluem os seguintes valores:

Tipo de coluna Resultados da criação de perfil de dados
Coluna numérica
  • Porcentagem de valores nulos.
  • Porcentagem de valores aproximados únicos (distintos).
  • Os 10 valores mais comuns na coluna. Pode ser menor que 10 se o número de valores únicos na coluna for menor que 10 (valores nulos não são incluídos). Para cada um desses valores mais comuns, a porcentagem ocorrência nos dados verificados na verificação atual.
  • média, desvio padrão, mínimo, quartil inferior aproximado, mediana aproximada, quartil superior aproximado e valores máximos.
Coluna de string
  • Porcentagem de valores nulos.
  • Porcentagem de valores únicos (distintos) aproximados.
  • Os 10 principais valores mais comuns na coluna, que podem ser menores que 10 se o número de valores exclusivos na coluna for menor que 10.
  • Comprimento médio, mínimo e máximo da string.
Outras colunas não aninhadas (data, hora, carimbo de data/hora, binário etc.)
  • Porcentagem de valores nulos.
  • Porcentagem de valores únicos (distintos) aproximados.
  • Os 10 principais valores mais comuns na coluna, que podem ser menores que 10 se o número de valores exclusivos na coluna for menor que 10.
Todas as outras colunas de tipo de dados aninhadas ou complexas (como Record, Array, JSON) ou qualquer coluna com o modo repeated.
  • Porcentagem de valores nulos.

Os resultados incluem o número de registros verificados em cada execução.

Relatórios e monitoramento

É possível monitorar e analisar os resultados da criação de perfil de dados usando as seguintes ferramentas: relatórios e métodos:

  • Relatórios publicados com a tabela de origem nas páginas do BigQuery e do Data Catalog

    Se você configurou uma verificação de criação de perfil de dados para publicar os resultados no as páginas do BigQuery e do Data Catalog na console do Google Cloud, então será possível conferir a verificação mais recente de criação de perfil de dados nessas páginas na guia Perfil de dados de qualquer projeto.

    Relatórios publicados.

  • Histórico, por relatório de job no Dataplex

    Na página Perfil do Dataplex, é possível conferir os detalhes relatórios para os jobs mais recentes e históricos. Isso inclui o perfil no nível da coluna e a configuração usada.

    Histórico por relatório de job.

  • Guia "Análise"

    Na página Perfil do Dataplex, use a guia Análise para conferir as tendências de uma determinada estatística de uma coluna em vários jobs de perfil. Por exemplo, se você tiver uma verificação incremental, poderá saber a média de um valor tem sido tendência ao longo do tempo.

    Guia "Análise".

  • Criar seu próprio painel ou análise

    Se você configurou uma verificação de criação de perfil de dados para exportar ou salvar resultados em uma tabela do BigQuery, crie seus próprios painéis usando ferramentas como o Looker Studio.

Limitações

  • Os resultados da criação de perfil de dados não são publicados no Data Catalog como tags.
  • A criação de perfil de dados é compatível com tabelas do BigQuery com todos os exceto BIGNUMERIC. Uma verificação criada para uma tabela com uma coluna BIGNUMERIC resulta em um erro de validação e não é criada.
  • As tabelas do BigQuery que serão verificadas precisam ter 300 colunas ou menos.

Preços

  • O Dataplex usa a SKU de processamento premium para cobrar pelos dados criação de perfis. Para mais informações, consulte Preços.

  • Ainda não é possível publicar os resultados da criação de perfil de dados no Data Catalog disponíveis. Quando ele estiver disponível, será cobrado na mesma taxa do preço de armazenamento de metadados do catálogo. Para saber mais informações, consulte Preços.

  • O processamento premium do Dataplex para criação de perfil de dados é cobrado de acordo segundo, com o mínimo de um minuto.

  • Não há cobrança por verificações de perfil com falha.

  • A cobrança depende do número de linhas, de colunas, da quantidade dados verificados, configurações de particionamento e clustering na tabela e e a frequência da verificação.

  • Há várias opções para reduzir o custo das verificações de perfil de dados:

    • Amostragem
    • Verificações incrementais
    • Filtragem de colunas
    • Filtragem de linhas
  • Para separar as cobranças de criação de perfil de dados de outras no Dataplex SKU de processamento premium, na relatório do Cloud Billing, use o rótulo goog-dataplex-workload-type com o valor DATA_PROFILE.

  • Para filtrar as cobranças agregadas, use os seguintes rótulos:

    • goog-dataplex-datascan-data-source-dataplex-entity
    • goog-dataplex-datascan-data-source-dataplex-lake
    • goog-dataplex-datascan-data-source-dataplex-zone
    • goog-dataplex-datascan-data-source-project
    • goog-dataplex-datascan-data-source-region
    • goog-dataplex-datascan-id
    • goog-dataplex-datascan-job-id

A seguir