Sobre a criação de perfis de dados

A criação de perfil de dados do Dataplex permite identificar as características estatísticas das colunas no BigQuery tabelas. Essas informações ajudam você a entender e analisar seus dados com mais eficiência.

Informações como valores de dados típicos, distribuição de dados e contagens de nulidade podem para acelerar a análise. Quando combinada com a classificação de dados, a criação de perfil detectar classes de dados ou informações sensíveis que, por sua vez, podem permitir o acesso políticas de controle de acesso.

O Dataplex também usa essas informações para recomendar regras para verificações de qualidade de dados.

Modelo conceitual

O Dataplex permite entender melhor o perfil dos seus dados ao criação de uma verificação de criação de perfil de dados.

O diagrama a seguir mostra como o Dataplex verifica os dados para gerar relatórios características estatísticas.

Uma verificação de criação de perfil de dados analisa os dados da tabela para gerar relatórios sobre as características estatísticas.

Uma verificação de criação de perfil de dados está associada a uma tabela do BigQuery e verifica a tabela para gerar os resultados da criação de perfil de dados. Uma criação de perfil de dados scan oferece suporte a várias opções de configuração.

Opções de configuração

Esta seção descreve as opções de configuração disponíveis para executar e verificação de perfis de dados.

Opções de programação

É possível programar uma verificação de perfil de dados com uma frequência definida ou sob demanda usando a API ou o console do Google Cloud.

Escopo

Como parte da especificação de uma verificação de criação de perfil de dados, é possível definir o escopo de um job como uma das seguintes opções:

  • Tabela completa: a tabela inteira é verificada na verificação de criação de perfil de dados. A amostragem e os filtros de linha e de coluna são aplicados em toda a tabela. antes de calcular as estatísticas de criação de perfil.

  • Incremental: os dados incrementais especificados são verificados nos dados verificação de perfil. Especifique uma coluna Date ou Timestamp na tabela a ser usada como incremento. Normalmente, essa é a coluna em que a tabela particionados. A amostragem, os filtros de linha e de coluna são aplicados aos dados incrementais antes do cálculo das estatísticas de perfil.

Filtrar dados

É possível filtrar os dados que serão verificados para a criação de perfil usando filtros de linha e filtros de coluna. O uso de filtros ajuda a reduzir o tempo e o custo de execução, e excluir dados sensíveis e inúteis.

  • Filtros de linha: permitem que você se concentre nos dados de um período específico. período ou de um segmento específico, como região. Por exemplo, é possível filtrar dados com carimbo de data/hora antes de uma certa data.

  • Filtros de coluna: com os filtros de coluna, é possível incluir e excluir informações colunas da tabela para executar a verificação de criação de perfil de dados.

Dados de amostra

O Dataplex permite especificar uma porcentagem de registros dos seus dados que será usado para executar uma verificação de criação de perfil de dados. Criando as verificações da criação de perfil de dados em uma amostra menor de dados podem reduzir o tempo de execução e o custo da consulta de todo o conjunto de dados.

Várias verificações de criação de perfil de dados

O Dataplex permite criar várias verificações de criação de perfil de dados ao mesmo tempo usando o console do Google Cloud. Você pode selecionar até 100 tabelas de um conjunto de dados e criar uma verificação de criação de perfil para cada conjunto de dados. Saiba mais.

Exportar os resultados da verificação para a tabela do BigQuery

É possível exportar os resultados da verificação da criação de perfil de dados para uma tabela do BigQuery para uma análise mais aprofundada. Para personalizar os relatórios, conecte os dados da tabela do BigQuery a um painel do Looker. Você pode criar um relatório agregado usando a mesma tabela de resultados em várias verificações.

Resultados da criação de perfil de dados

Os resultados da criação de perfil de dados incluem os seguintes valores:

Tipo de coluna Resultados da criação de perfil de dados
Coluna numérica
  • Porcentagem de valores nulos.
  • Porcentagem de valores aproximados únicos (distintos).
  • 10 principais valores mais comuns na coluna. Pode ser menor que 10 se o número de valores exclusivos na coluna é menor que 10 (valores nulos não são incluídos). Para cada um desses valores mais comuns, a porcentagem ocorrência nos dados verificados na verificação atual.
  • Média, desvio padrão, mínimo, quartil inferior aproximado, mediana aproximada, quartil superior aproximado e valores máximos.
Coluna de string
  • Porcentagem de valores nulos.
  • Porcentagem de valores aproximados únicos (distintos).
  • Os 10 principais valores mais comuns na coluna, que podem ser menores que 10 se o número de valores exclusivos na coluna for menor que 10.
  • Comprimento médio, mínimo e máximo da string.
Outras colunas não aninhadas (data, hora, carimbo de data/hora, binária etc.)
  • Porcentagem de valores nulos.
  • Porcentagem de valores aproximados únicos (distintos).
  • Os 10 valores mais comuns na coluna, que podem ser menos de 10 se o número de valores únicos na coluna for menor que 10.
Todas as outras colunas aninhadas ou complexas de tipo de dados (como registro, matriz, JSON) ou qualquer coluna com o modo repetido.
  • Porcentagem de valores nulos.

Os resultados incluem o número de registros verificados em cada execução.

Relatórios e monitoramento

É possível monitorar e analisar os resultados da criação de perfil de dados usando as seguintes ferramentas: relatórios e métodos:

  • Relatórios publicados com a tabela de origem nas páginas do BigQuery e do Data Catalog

    Se você configurou uma verificação de criação de perfil de dados para publicar os resultados no as páginas do BigQuery e do Data Catalog na console do Google Cloud, então será possível conferir a verificação mais recente de criação de perfil de dados nessas páginas na guia Perfil de dados de qualquer projeto.

    Relatórios publicados.

  • Histórico, relatório por job no Dataplex

    Na página Perfil do Dataplex, é possível conferir os detalhes relatórios para os jobs mais recentes e históricos. Isso inclui o perfil no nível da coluna e a configuração usada.

    Histórico por relatório de job.

  • Guia "Analysis"

    Na página Perfil do Dataplex, use a ferramenta Analysis. para visualizar as tendências de uma determinada estatística de uma coluna ao longo vagas de perfil. Por exemplo, se você tiver uma verificação incremental, poderá conferir como a média de um valor tem uma tendência ao longo do tempo.

    Guia "Análise".

  • Criar seu próprio painel ou análise

    Se você configurou uma verificação de criação de perfil de dados para exportar ou salvar resultados em um tabela do BigQuery, você pode criar painéis próprios usando ferramentas baseadas na nuvem, como o Looker Studio.

Limitações

  • Os resultados da criação de perfil de dados não são publicados no Data Catalog como .
  • A criação de perfil de dados é compatível com tabelas do BigQuery com todas as colunas exceto BIGNUMERIC. Uma verificação criada para uma tabela com BIGNUMERIC. resulta em um erro de validação e não é criada corretamente.
  • As tabelas do BigQuery que serão verificadas precisam ter 300 colunas ou menos.

Preços

  • O Dataplex usa a SKU de processamento premium para cobrar pelos dados criação de perfis. Para mais informações, consulte Preços.

  • Ainda não é possível publicar os resultados da criação de perfil de dados no Data Catalog disponíveis. Quando estiver disponível, será cobrado o mesmo preço do Preços do armazenamento de metadados de catálogo. Para saber mais informações, consulte Preços.

  • O processamento premium do Dataplex para criação de perfil de dados é cobrado de acordo segundo, com o mínimo de um minuto.

  • Não há cobrança por verificações de perfil com falha.

  • A cobrança depende do número de linhas, de colunas, da quantidade dados verificados, configurações de particionamento e clustering na tabela e e a frequência da verificação.

  • Há várias opções para reduzir os custos das verificações de criação de perfil de dados:

    • Amostragem
    • Verificações incrementais
    • Filtragem de colunas
    • Filtragem de linhas
  • Para separar as cobranças de criação de perfil de dados de outras no Dataplex SKU de processamento premium, na relatório do Cloud Billing, use o rótulo goog-dataplex-workload-type com o valor DATA_PROFILE.

  • Para filtrar as cobranças agregadas, use os seguintes rótulos:

    • goog-dataplex-datascan-data-source-dataplex-entity
    • goog-dataplex-datascan-data-source-dataplex-lake
    • goog-dataplex-datascan-data-source-dataplex-zone
    • goog-dataplex-datascan-data-source-project
    • goog-dataplex-datascan-data-source-region
    • goog-dataplex-datascan-id
    • goog-dataplex-datascan-job-id

A seguir