Nesta página, mostramos como criar uma verificação de perfil de dados usando o Console do Google Cloud, a Google Cloud CLI ou a API REST.
Para mais informações sobre as verificações de perfis de dados do Dataplex, consulte Sobre a criação de perfil de dados.
Antes de começar
No console do Google Cloud, ative a API Dataplex.
Permissões
Para criar o perfil das tabelas do BigQuery, são necessárias as seguintes permissões:
Para executar uma verificação de perfil de dados em uma tabela do BigQuery, é preciso ter permissão para ler a tabela do BigQuery e criar um job do BigQuery no projeto usado para verificar a tabela.
Se a tabela do BigQuery e a verificação do perfil de dados estiverem em projetos diferentes, será necessário conceder permissão de leitura à conta de serviço do Dataplex na tabela correspondente do BigQuery.
Se os dados do BigQuery estiverem organizados em um lago do Dataplex, para criar uma verificação de perfil de dados, você precisará dos papéis
roles/dataplex.metadataReader
eroles/dataplex.viewer
do Dataplex. Concede as seguintes permissões:dataplex.lakes.list
dataplex.lakes.get
dataplex.zones.list
dataplex.zones.get
dataplex.entities.list
dataplex.entities.get
dataplex.operations.get
Se você estiver verificando uma tabela externa do BigQuery no Cloud Storage, atribua à conta de serviço do Dataplex o papel de Leitor de objetos do Cloud Storage (
roles/storage.objectViewer
) ou as seguintes permissões para o bucket:storage.buckets.get
storage.objects.get
Se você quiser publicar os resultados da verificação do perfil de dados nas páginas do BigQuery e do Data Catalog no console do Google Cloud para as tabelas de origem, será necessário receber o papel do IAM de editor de dados do BigQuery (
roles/bigquery.dataEditor
) ou a permissãobigquery.tables.update
na tabela.Para exportar os resultados da verificação para uma tabela do BigQuery, sua conta de serviço do Dataplex precisa do papel de editor de dados do BigQuery (
roles/bigquery.dataEditor
). Ela concede as seguintes permissões:bigquery.datasets.get
bigquery.tables.create
bigquery.tables.get
bigquery.tables.getData
bigquery.tables.update
bigquery.tables.updateData
Se você precisar acessar colunas protegidas pelas políticas de acesso no nível da coluna do BigQuery, atribua as permissões da conta de serviço do Dataplex a essas colunas. O usuário que cria ou atualiza uma verificação de dados também precisa de permissões para as colunas.
Se uma tabela tiver as políticas de acesso no nível da linha do BigQuery ativadas, só será possível verificar as linhas visíveis para a conta de serviço do Dataplex. Os privilégios de acesso de cada usuário não são avaliados para políticas no nível da linha.
Papéis e permissões da verificação de dados
Para usar a criação de perfil de dados, um administrador de projeto atribui um papel predefinido com permissões já concedidas ou concede permissões individuais. Os papéis são os seguintes:
roles/dataplex.dataScanAdmin
: acesso total aos recursosDataScan
.roles/dataplex.dataScanEditor
: acesso de gravação aos recursosDataScan
.roles/dataplex.dataScanViewer
: acesso de leitura aos recursos deDataScan
, excluindo os resultados.roles/dataplex.dataScanDataViewer
: acesso de leitura aos recursos doDataScan
, incluindo os resultados.
A tabela a seguir lista as permissões de verificação de dados:
Nome da permissão | Concede permissão para: |
---|---|
dataplex.datascans.create |
Criar um DataScan |
dataplex.datascans.delete |
Excluir um DataScan |
dataplex.datascans.get |
Mostrar detalhes de DataScan sem incluir os resultados |
dataplex.datascans.getData |
Mais detalhes de DataScan , incluindo resultados |
dataplex.datascans.list |
Listar DataScan s |
dataplex.datascans.run |
Executar um DataScan |
dataplex.datascans.update |
Atualizar a descrição de um DataScan |
dataplex.datascans.getIamPolicy |
Conferir as permissões do IAM atuais na verificação |
dataplex.datascans.setIamPolicy |
Definir permissões do IAM na verificação |
Criar uma verificação do perfil de dados
Console
No console do Google Cloud, acesse a página Perfil.
Clique em Criar verificação do perfil de dados.
Digite um Nome de exibição.
Informe um ID de verificação para ser alterado automaticamente. Consulte a Convenção de nomenclatura de recursos.
Opcional: digite uma Descrição.
No campo Tabela, clique em Procurar.
Escolha uma tabela e clique em Selecionar.
No campo Escopo, escolha Incremental ou Dados inteiros.
- Se você escolher Dados incrementais, no campo Coluna de carimbo de data/hora, selecione uma coluna do tipo
DATE
ouTIMESTAMP
na tabela do BigQuery que cresça monotonicamente e possa ser usada para identificar novos registros. Para tabelas particionadas em uma coluna do tipoDATE
ouTIMESTAMP
, recomendamos usar a coluna de partição como o campo de carimbo de data/hora.
- Se você escolher Dados incrementais, no campo Coluna de carimbo de data/hora, selecione uma coluna do tipo
Para aplicar a amostragem à verificação do perfil de dados, selecione uma porcentagem de amostragem na lista Tamanho da amostragem.
- Escolha um valor percentual entre 0% e 100% com até três dígitos decimais.
- Para conjuntos de dados maiores, escolha uma porcentagem de amostragem mais baixa. Por exemplo, para uma tabela de aproximadamente 1 PB, se você inserir um valor entre 0,1% e 1,0%, o Dataplex vai coletar amostras entre 1 e 10 TB de dados.
- Você precisa de pelo menos 100 registros nos dados de amostra para retornar um resultado.
- Para verificações de dados incrementais, o Dataplex aplica a amostragem ao incremento mais recente.
Para filtrar por linha, clique em Filtros e selecione Filtrar linhas.
Insira uma expressão SQL válida que possa ser usada em uma cláusula
WHERE
na sintaxe SQL padrão do BigQuery. Por exemplo:col1 >= 0
.O filtro pode ser uma combinação de condições SQL em várias colunas. Por exemplo,
col1 >= 0 AND col2 < 10
.
Opcional: clique em Filtros. Marque a caixa de seleção Filtrar colunas.
a. No campo Incluir colunas, clique em Procurar.
- Especifique as colunas a serem incluídas na verificação do perfil. Selecione as colunas de sua escolha marcando as caixas e clicando em Selecionar.
b. No campo Excluir colunas, clique em Procurar.
- Especifique as colunas a serem excluídas da verificação de perfil. Selecione as colunas de sua escolha marcando as caixas e clicando em Selecionar.
Opcional: publique os resultados da verificação do perfil de dados nas páginas do BigQuery e do Data Catalog no console do Google Cloud para a tabela de origem. Clique na caixa de seleção Publicar resultados na IU do BigQuery e do Dataplex Catalog.
É possível visualizar os resultados da verificação mais recente na guia Perfil de dados nas páginas do BigQuery e do Data Catalog para a tabela de origem. Para permitir que os usuários acessem os resultados da verificação publicados, consulte Compartilhar os resultados publicados.
A opção de publicação pode não estar disponível nos seguintes casos:
- Você não tem as permissões necessárias na tabela.
- Outra verificação de qualidade de dados está definida para publicar os resultados.
Para mais informações sobre as permissões necessárias para visualizar os resultados publicados, consulte Permissões.
Opcional: exporte os resultados da verificação para uma tabela padrão do BigQuery. Clique em Procurar para selecionar um conjunto de dados atual do BigQuery e armazenar os resultados da verificação do perfil de dados.
Se a tabela especificada não existir, o Dataplex a criará para você. Se você estiver usando uma tabela atual, verifique se ela é compatível com o esquema de tabela descrito mais adiante nesta seção.
Opcional: adicione rótulos. Rótulos são pares de
key:value
que permitem agrupar objetos relacionados entre si ou com outros recursos do Google Cloud.Em Opções de programação, escolha uma das seguintes opções:
Repetir: execute o job de verificação do perfil de dados em uma programação: diária, semanal, mensal ou personalizada. Especifique com que frequência e a que horas a verificação será executada. Se você escolher o personalizado, use o formato cron para especificar a programação.
Sob demanda: crie sua verificação de perfil de dados e execute-a a qualquer momento usando a ação "executar agora".
Clique em Criar.
gcloud
Para criar uma verificação de perfil de dados, execute o seguinte comando:
gcloud dataplex datascans create data-profile DATASCAN \ --location=LOCATION \ --data-source-entity=DATA_SOURCE_ENTITY | --data-source-resource=DATA_SOURCE_RESOURCE
Substitua as seguintes variáveis:
DATASCAN
: o nome da verificação do perfil de dados.LOCATION
: a região do Google Cloud em que a verificação do perfil de dados será criada.DATA_SOURCE_ENTITY
: a entidade do Dataplex que contém os dados para a verificação do perfil de dados. Por exemplo,projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity
.DATA_SOURCE_RESOURCE
: o nome do recurso que contém os dados para a verificação do perfil de dados. Por exemplo,//bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table
.
Para argumentos opcionais, consulte a referência da CLI gcloud.
REST
Use o APIs Explorer para criar uma verificação de perfil de dados.
Criar várias verificações de perfil de dados
Console
No console do Google Cloud, acesse a página Perfil.
Clique em Criar várias verificações de perfil.
Insira um prefixo de ID. O Dataplex gera IDs de verificação automaticamente usando o prefixo e os sufixos exclusivos fornecidos.
Insira uma Descrição para todas as verificações de perfil de dados.
No campo Conjunto de dados, clique em Procurar. Selecione um conjunto de dados para escolher tabelas. Clique em Selecionar.
Se o conjunto de dados for multirregional, selecione uma Região em que as verificações de perfil de dados serão criadas.
Selecione Opções de configuração comuns:
No campo Escopo, escolha Incremental ou Dados inteiros.
Para aplicar a amostragem às verificações de perfil de dados, selecione uma porcentagem de amostragem na lista Tamanho da amostragem.
Escolha um valor percentual entre 0% e 100% com até três dígitos decimais.
Para exibir os resultados de todas as verificações, selecione Publicação. É possível visualizar os resultados na guia Perfil dos detalhes da tabela do BigQuery ou do Data Catalog. Verifique se você tem as permissões
bigquery.tables.update
nas tabelas de origem.Em Opções de programação, escolha uma das seguintes opções:
Repetir: execute os jobs de verificação do perfil de dados em uma programação. Especifique a frequência de execução da verificação (diária, semanal, mensal ou personalizada) e a que horas. Se você escolher o personalizado, use o formato cron para especificar a programação.
Sob demanda: crie seus jobs de verificação de perfil de dados e execute-os a qualquer momento clicando em Executar.
Na opção Escolher tabelas, clique em Procurar. Escolha uma ou mais das tabelas para serem verificadas. Clique em Selecionar.
Selecione Configurações avançadas:
Para salvar os resultados das verificações de perfil de dados em uma tabela do BigQuery de sua escolha, escolha uma tabela em Exportar resultados da verificação para a tabela do BigQuery. O Dataplex copia e salva automaticamente os resultados nessa tabela para cada job de verificação.
Clique em Procurar para selecionar um conjunto de dados.
Insira uma tabela do BigQuery para salvar os resultados. Pode ser uma tabela atual usada por outras verificações de perfil de dados do Dataplex para salvar os resultados. Se não houver essa tabela com o nome especificado, o Dataplex criará a tabela.
Adicione Rótulos para anotar sua verificação de perfil de dados.
Clique em Executar verificação para criar e executar todas as verificações. Essa opção está disponível apenas para verificações sob demanda.
Clique em Criar para criar todas as verificações.
gcloud
Incompatível.
REST
Incompatível.
Exportar esquema da tabela
Se você quiser exportar os resultados da verificação do perfil de dados para uma tabela do BigQuery, verifique se ela é compatível com o seguinte esquema de tabela:
nome da coluna | Tipo de dados da coluna | Nome do subcampo (se aplicável) |
Tipo de dados do subcampo | Modo | Exemplo |
---|---|---|---|---|---|
data_profile_scan | struct/record |
resource_name |
string |
anulável | //dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan |
project_id |
string |
anulável | test-project |
||
location |
string |
anulável | us-central1 |
||
data_scan_id |
string |
anulável | test-datascan |
||
data_source | struct/record |
resource_name |
string |
anulável | Caso da entidade://dataplex.googleapis.com/projects/test-project/locations/europe-west2/lakes/test-lake/zones/test-zone/entities/test-entity
Caso da tabela: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table
|
dataplex_entity_project_id |
string |
anulável | test-project |
||
dataplex_entity_project_number |
integer |
anulável | 123456789012 |
||
dataplex_lake_id |
string |
anulável | (Válido somente se a origem for uma entidade)test-lake
|
||
dataplex_zone_id |
string |
anulável | (Válido somente se a origem for uma entidade)test-zone |
||
dataplex_entity_id |
string |
anulável | (Válido somente se a origem for uma entidade)test-entity |
||
table_project_id |
string |
anulável | dataplex-table |
||
table_project_number |
int64 |
anulável | 345678901234 |
||
dataset_id |
string |
anulável | (Válido somente se a origem for uma tabela)test-dataset |
||
table_id |
string |
anulável | (Válido somente se a origem for uma tabela)test-table |
||
data_profile_job_id | string |
anulável | caeba234-cfde-4fca-9e5b-fe02a9812e38 |
||
data_profile_job_configuration | json |
trigger |
string |
anulável | ondemand /schedule |
incremental |
boolean |
anulável | true /false |
||
sampling_percent |
float |
anulável | (0 a 100)20.0 (indica 20%) |
||
row_filter |
string |
anulável | col1 >= 0 AND col2 < 10 |
||
column_filter |
json |
anulável | {"include_fields":["col1","col2"], "exclude_fields":["col3"]} |
||
job_labels | json |
anulável | {"key1":value1} |
||
job_start_time | timestamp |
anulável | 2023-01-01 00:00:00 UTC |
||
job_end_time | timestamp |
anulável | 2023-01-01 00:00:00 UTC |
||
job_rows_scanned | integer |
anulável | 7500 |
||
column_name | string |
anulável | column-1 |
||
column_type | string |
anulável | string |
||
column_mode | string |
anulável | repeated |
||
percent_null | float |
anulável | (0,0-100,0)20.0 (indica 20%) |
||
percent_unique | float |
anulável | (0,0 a 100,0)92.5 |
||
min_string_length | integer |
anulável | (Válido somente se o tipo de coluna for string)10 |
||
max_string_length | integer |
anulável | (Válido somente se o tipo de coluna for string)4 |
||
average_string_length | float |
anulável | (Válido somente se o tipo de coluna for string)7.2 |
||
min_value | float |
anulável | (Válido somente se o tipo de coluna for numérico: inteiro/flutuante) | ||
max_value | float |
anulável | (Válido somente se o tipo de coluna for numérico: inteiro/flutuante) | ||
average_value | float |
anulável | (Válido somente se o tipo de coluna for numérico: inteiro/flutuante) | ||
standard_deviation | float |
anulável | (Válido somente se o tipo de coluna for numérico: inteiro/flutuante) | ||
quartile_lower | integer |
anulável | (Válido somente se o tipo de coluna for numérico: inteiro/flutuante) | ||
quartile_median | integer |
anulável | (Válido somente se o tipo de coluna for numérico: inteiro/flutuante) | ||
quartile_upper | integer |
anulável | (Válido somente se o tipo de coluna for numérico: inteiro/flutuante) | ||
top_n | struct/record - repeated |
value |
string |
anulável | "4009" |
count |
integer |
anulável | 20 |
||
percent |
float |
anulável | 10 (indica 10%) |
Exportar configuração da tabela
Ao exportar para tabelas BigQueryExport, siga estas diretrizes:
- Para o campo
resultsTable
, use o formato://bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}
. - Use uma tabela padrão do BigQuery.
- Se a tabela não existir quando a verificação for criada ou atualizada, o Dataplex criará a tabela para você.
- Por padrão, a tabela é particionada na coluna
job_start_time
diariamente. - Se você quiser que a tabela seja particionada em outras configurações ou não quiser a partição, recrie a tabela com o esquema e as configurações necessárias e forneça a tabela pré-criada como a tabela de resultados.
- Verifique se a tabela de resultados está no mesmo local que a tabela de origem.
- Se o VPC-SC estiver configurado no projeto, a tabela de resultados precisará estar no mesmo perímetro do VPC-SC que a tabela de origem.
- Se a tabela for modificada durante o estágio de execução da verificação, o job atual será exportado para a tabela de resultados anterior, e a mudança vai entrar em vigor no próximo job de verificação.
- Não modifique o esquema da tabela. Se você precisar de colunas personalizadas, crie uma visualização sobre a tabela.
- Para reduzir custos, defina uma expiração na partição com base no seu caso de uso. Para mais informações, consulte como definir a expiração da partição.
Executar uma verificação de perfil de dados
Console
- No console do Google Cloud, acesse a página Perfil do Dataplex. Acessar "Perfil"
- Clique na verificação do perfil de dados a ser executada.
- Clique em Executar agora.
gcloud
Para executar uma verificação de perfil de dados, execute o seguinte comando:
gcloud dataplex datascans run DATASCAN \ --location=LOCATION
Substitua as seguintes variáveis:
DATASCAN
: o nome da verificação do perfil de dados.LOCATION
: a região do Google Cloud em que a verificação do perfil de dados foi criada.
Para argumentos opcionais, consulte a referência da CLI gcloud.
REST
Use o APIs Explorer para executar a verificação do perfil de dados.
Ver os resultados do job de verificação do perfil de dados
Console
Todas as verificações de perfil de dados criadas aparecem na página Perfil.
Para acessar os resultados detalhados de uma verificação, clique no nome dela.
A seção Visão geral exibe as execuções da verificação, o horário de cada execução, o número de registros de tabela verificados e o status do job.
A seção Configuração da verificação de perfil contém detalhes sobre a verificação.
gcloud
Para ver os resultados de um job de verificação de perfil de dados, execute o seguinte comando:
gcloud dataplex datascans jobs describe JOB \ --location=LOCATION \ --datascan=DATASCAN \ --view=FULL
Substitua as seguintes variáveis:
JOB
: o ID do job de verificação do perfil de dados.LOCATION
: a região do Google Cloud em que a verificação do perfil de dados foi criada.DATASCAN
: o nome da verificação de perfil de dados a que o job pertence.--view=FULL
: para ver o resultado do job de verificação, especifiqueFULL
.
Para argumentos opcionais, consulte a referência da CLI gcloud.
REST
Use o APIs Explorer para ver os resultados de uma verificação de perfil de dados.
Conferir o job mais recente de verificação do perfil de dados
Console
A guia Resultados mais recentes do job, quando há pelo menos uma execução concluída com sucesso, fornece informações sobre o job mais recente. Ele lista as colunas da tabela verificada e as estatísticas sobre as colunas encontradas na verificação.
gcloud
Para ver a verificação mais recente do perfil de dados, execute o seguinte comando:
gcloud dataplex datascans describe DATASCAN \ --location=LOCATION \ --view=FULL
Substitua as seguintes variáveis:
DATASCAN
: o nome da verificação do perfil de dados para visualizar o job mais recente.LOCATION
: a região do Google Cloud em que a verificação do perfil de dados foi criada.--view=FULL
: para ver o resultado do job de verificação, especifiqueFULL
.
Para argumentos opcionais, consulte a referência da CLI gcloud.
REST
Use o APIs Explorer para ver o job de verificação mais recente.
Conferir todos os jobs de verificação de perfil de dados
O Dataplex salva o histórico de verificação do perfil de dados dos últimos 300 jobs ou do ano anterior, o que ocorrer primeiro.
Console
A guia Histórico de jobs oferece informações sobre jobs anteriores. Ele lista todos os jobs, o número de registros verificados, o status, o tempo de execução do job e muito mais.
Para informações detalhadas sobre um job, clique em qualquer um deles em ID do job.
gcloud
Para acessar todos os jobs de uma verificação de perfil de dados, execute o seguinte comando:
gcloud dataplex datascans jobs list \ --location=LOCATION \ --datascan=DATASCAN
Substitua as seguintes variáveis:
LOCATION
: a região do Google Cloud em que a verificação do perfil de dados foi criada.DATASCAN
: o nome da verificação do perfil de dados para visualizar todos os jobs.
Para argumentos opcionais, consulte a referência da CLI gcloud.
REST
Use o APIs Explorer para ver todos os jobs de verificação.
Compartilhar os resultados publicados
Ao criar uma verificação de perfil de dados, se você optar por publicar os resultados da verificação nas páginas do BigQuery e do Data Catalog no console do Google Cloud, os resultados mais recentes da verificação estarão disponíveis na guia Perfil de dados nessas páginas.
É possível permitir que os usuários na organização acessem os resultados publicados da verificação. Para conceder acesso aos resultados da verificação, siga estas etapas:
No console do Google Cloud, acesse a página Perfil.
Clique na verificação do perfil de dados cujos resultados você quer compartilhar.
Acesse a guia Permissões.
Clique em Conceder acesso.
No campo Novos principais, adicione a principal a que você quer conceder acesso.
No campo Selecionar papel, escolha Dataplex DataScan DataViewer.
Clique em Save.
Para remover o acesso aos resultados da verificação publicados de um principal, siga estas etapas:
No console do Google Cloud, acesse a página Perfil.
Clique na verificação do perfil de dados cujos resultados você quer compartilhar.
Acesse a guia Permissões.
Selecione o principal de que você quer remover o papel Dataplex DataScan DataViewer.
Clique em Remover acesso.
Clique em Confirmar.
Atualizar uma verificação de perfil de dados
Console
No console do Google Cloud, acesse a página Perfil.
Na linha com a verificação que você quer editar, clique em > Editar.
Edite os valores.
Clique em Save.
gcloud
Para atualizar uma verificação de perfil de dados, execute o seguinte comando:
gcloud dataplex datascans update data-profile DATASCAN \ --location=LOCATION \ --description=DESCRIPTION
Substitua as seguintes variáveis:
DATASCAN
: o nome da verificação do perfil de dados a ser atualizada.LOCATION
: a região do Google Cloud em que a verificação do perfil de dados foi criada.DESCRIPTION
: a nova descrição para a verificação do perfil de dados.
Para atualizar os campos de especificação, consulte a referência da CLI gcloud.
REST
Use o APIs Explorer para editar uma verificação de perfil de dados.
Excluir uma verificação de perfil de dados
Console
No console do Google Cloud, acesse a página Perfil. Acesse o perfil do Dataplex.
Clique na verificação que você quer excluir.
Clique em Excluir.
gcloud
Para excluir uma verificação de perfil de dados, execute o seguinte comando:
gcloud dataplex datascans delete \ DATASCAN --location=LOCATION \ --async
Substitua as seguintes variáveis:
DATASCAN
: o nome da verificação do perfil de dados a ser excluída.LOCATION
: a região do Google Cloud em que a verificação do perfil de dados foi criada.
Para argumentos opcionais, consulte a referência da CLI gcloud.
REST
Use o APIs Explorer para excluir a verificação do perfil de dados.
A seguir
- Saiba mais sobre a criação de perfil de dados.
- Saiba mais sobre a qualidade de dados automáticos.
- Saiba como usar a qualidade de dados automática.