A criação de perfil de dados do Dataplex permite identificar as características estatísticas das colunas no BigQuery tabelas. Essas informações ajudam você a entender e analisar seus dados com mais eficiência.
Informações como valores de dados típicos, distribuição de dados e contagens de nulidade podem para acelerar a análise. Quando combinada com a classificação de dados, a criação de perfil detectar classes de dados ou informações sensíveis que, por sua vez, podem permitir o acesso políticas de controle de acesso.
O Dataplex também usa essas informações para recomendar regras para verificações de qualidade de dados.
Modelo conceitual
O Dataplex permite entender melhor o perfil dos seus dados ao criação de uma verificação de criação de perfil de dados.
O diagrama a seguir mostra como o Dataplex verifica os dados para gerar relatórios características estatísticas.
Uma verificação de criação de perfil de dados está associada a uma tabela do BigQuery e verifica a tabela para gerar os resultados da criação de perfil de dados. Uma criação de perfil de dados scan oferece suporte a várias opções de configuração.
Opções de configuração
Esta seção descreve as opções de configuração disponíveis para executar e verificação de perfis de dados.
Opções de programação
É possível programar uma verificação de perfil de dados com uma frequência definida ou sob demanda usando a API ou o console do Google Cloud.
Escopo
Como parte da especificação de uma verificação de criação de perfil de dados, é possível definir o escopo de um job como uma das seguintes opções:
Tabela completa: a tabela inteira é verificada na verificação de criação de perfil de dados. A amostragem e os filtros de linha e de coluna são aplicados em toda a tabela. antes de calcular as estatísticas de criação de perfil.
Incremental: os dados incrementais especificados são verificados nos dados verificação de perfil. Especifique uma coluna
Date
ouTimestamp
na tabela a ser usada como incremento. Normalmente, essa é a coluna em que a tabela particionados. A amostragem, os filtros de linha e de coluna são aplicados aos dados incrementais antes do cálculo das estatísticas de perfil.
Filtrar dados
É possível filtrar os dados que serão verificados para a criação de perfil usando filtros de linha e filtros de coluna. O uso de filtros ajuda a reduzir o tempo e o custo de execução, e excluir dados sensíveis e inúteis.
Filtros de linha: permitem que você se concentre nos dados de um período específico. período ou de um segmento específico, como região. Por exemplo, é possível filtrar dados com carimbo de data/hora antes de uma certa data.
Filtros de coluna: com os filtros de coluna, é possível incluir e excluir informações colunas da tabela para executar a verificação de criação de perfil de dados.
Dados de amostra
O Dataplex permite especificar uma porcentagem de registros dos seus dados que será usado para executar uma verificação de criação de perfil de dados. Criando as verificações da criação de perfil de dados em uma amostra menor de dados podem reduzir o tempo de execução e o custo da consulta de todo o conjunto de dados.
Várias verificações de criação de perfil de dados
O Dataplex permite criar várias verificações de criação de perfil de dados ao mesmo tempo usando o console do Google Cloud. Você pode selecionar até 100 tabelas de um conjunto de dados e criar uma verificação de criação de perfil para cada conjunto de dados. Saiba mais.
Exportar os resultados da verificação para a tabela do BigQuery
É possível exportar os resultados da verificação da criação de perfil de dados para uma tabela do BigQuery para uma análise mais aprofundada. Para personalizar os relatórios, conecte os dados da tabela do BigQuery a um painel do Looker. Você pode criar um relatório agregado usando a mesma tabela de resultados em várias verificações.
Resultados da criação de perfil de dados
Os resultados da criação de perfil de dados incluem os seguintes valores:
Tipo de coluna | Resultados da criação de perfil de dados |
---|---|
Coluna numérica |
|
Coluna de string |
|
Outras colunas não aninhadas (data, hora, carimbo de data/hora, binária etc.) |
|
Todas as outras colunas aninhadas ou complexas de tipo de dados (como registro, matriz, JSON) ou qualquer coluna com o modo repetido. |
|
Os resultados incluem o número de registros verificados em cada execução.
Relatórios e monitoramento
É possível monitorar e analisar os resultados da criação de perfil de dados usando as seguintes ferramentas: relatórios e métodos:
Relatórios publicados com a tabela de origem nas páginas do BigQuery e do Data Catalog
Se você configurou uma verificação de criação de perfil de dados para publicar os resultados no as páginas do BigQuery e do Data Catalog na console do Google Cloud, então será possível conferir a verificação mais recente de criação de perfil de dados nessas páginas na guia Perfil de dados de qualquer projeto.
Histórico, relatório por job no Dataplex
Na página Perfil do Dataplex, é possível conferir os detalhes relatórios para os jobs mais recentes e históricos. Isso inclui o perfil no nível da coluna e a configuração usada.
Guia "Analysis"
Na página Perfil do Dataplex, use a ferramenta Analysis. para visualizar as tendências de uma determinada estatística de uma coluna ao longo vagas de perfil. Por exemplo, se você tiver uma verificação incremental, poderá conferir como a média de um valor tem uma tendência ao longo do tempo.
Criar seu próprio painel ou análise
Se você configurou uma verificação de criação de perfil de dados para exportar ou salvar resultados em um tabela do BigQuery, você pode criar painéis próprios usando ferramentas baseadas na nuvem, como o Looker Studio.
Limitações
- Os resultados da criação de perfil de dados não são publicados no Data Catalog como .
- A criação de perfil de dados é compatível com tabelas do BigQuery com todas as colunas
exceto
BIGNUMERIC
. Uma verificação criada para uma tabela comBIGNUMERIC
. resulta em um erro de validação e não é criada corretamente. - As tabelas do BigQuery que serão verificadas precisam ter 300 colunas ou menos.
Preços
O Dataplex usa a SKU de processamento premium para cobrar pelos dados criação de perfis. Para mais informações, consulte Preços.
Ainda não é possível publicar os resultados da criação de perfil de dados no Data Catalog disponíveis. Quando estiver disponível, será cobrado o mesmo preço do Preços do armazenamento de metadados de catálogo. Para saber mais informações, consulte Preços.
O processamento premium do Dataplex para criação de perfil de dados é cobrado de acordo segundo, com o mínimo de um minuto.
Não há cobrança por verificações de perfil com falha.
A cobrança depende do número de linhas, de colunas, da quantidade dados verificados, configurações de particionamento e clustering na tabela e e a frequência da verificação.
Há várias opções para reduzir os custos das verificações de criação de perfil de dados:
- Amostragem
- Verificações incrementais
- Filtragem de colunas
- Filtragem de linhas
Para separar as cobranças de criação de perfil de dados de outras no Dataplex SKU de processamento premium, na relatório do Cloud Billing, use o rótulo
goog-dataplex-workload-type
com o valorDATA_PROFILE
.Para filtrar as cobranças agregadas, use os seguintes rótulos:
goog-dataplex-datascan-data-source-dataplex-entity
goog-dataplex-datascan-data-source-dataplex-lake
goog-dataplex-datascan-data-source-dataplex-zone
goog-dataplex-datascan-data-source-project
goog-dataplex-datascan-data-source-region
goog-dataplex-datascan-id
goog-dataplex-datascan-job-id
A seguir
- Saiba como usar a criação de perfil de dados.
- Saiba mais sobre a qualidade dos dados automáticos.
- Saiba como usar a qualidade de dados automática.