Criar e usar verificações de perfil de dados

Nesta página, mostramos como criar uma verificação de perfil de dados usando o console do Google Cloud, a Google Cloud CLI ou a API REST.

Para mais informações sobre as verificações de perfil de dados do Dataplex, consulte Sobre a criação de perfil de dados.

Antes de começar

No console do Google Cloud, ative a API Dataplex.

Ativar a API

Permissões

Para criar o perfil de tabelas do BigQuery, você precisa das seguintes permissões:

  • Para executar uma verificação de perfil de dados em uma tabela do BigQuery, você precisa ter permissão para ler a tabela do BigQuery e permissão para criar um job do BigQuery no projeto usado para verificar a tabela.

  • Se a tabela do BigQuery e a verificação do perfil de dados estiverem em projetos diferentes, será necessário conceder permissão de leitura à conta de serviço do Dataplex na tabela correspondente do BigQuery.

  • Se os dados do BigQuery forem organizados em um lago do Dataplex, para criar uma verificação de perfil de dados, você precisará dos papéis roles/dataplex.metadataReader e roles/dataplex.viewer do Dataplex. Concede as seguintes permissões:

    • dataplex.lakes.list
    • dataplex.lakes.get
    • dataplex.zones.list
    • dataplex.zones.get
    • dataplex.entities.list
    • dataplex.entities.get
    • dataplex.operations.get
  • Se você estiver verificando uma tabela externa do BigQuery do Cloud Storage, atribua à conta de serviço do Dataplex o papel Leitor de objetos do Cloud Storage (roles/storage.objectViewer) ou as seguintes permissões para o bucket:

    • storage.buckets.get
    • storage.objects.get
  • Se você quiser publicar os resultados da verificação do perfil de dados nas páginas do BigQuery e do Data Catalog no Console do Google Cloud para as tabelas de origem, será necessário ter o papel do IAM de Editor de dados do BigQuery (roles/bigquery.dataEditor) ou a permissão bigquery.tables.update na tabela.

  • Para exportar os resultados da verificação para uma tabela do BigQuery, sua conta de serviço do Dataplex precisa ter o papel Editor de dados do BigQuery (roles/bigquery.dataEditor). Concede as seguintes permissões:

    • bigquery.datasets.get
    • bigquery.tables.create
    • bigquery.tables.get
    • bigquery.tables.getData
    • bigquery.tables.update
    • bigquery.tables.updateData
  • Se você precisar acessar colunas protegidas pelas políticas de acesso no nível da coluna do BigQuery, atribua as permissões da conta de serviço do Dataplex a elas. O usuário que cria ou atualiza uma verificação de dados também precisa de permissões para as colunas.

  • Se uma tabela tiver políticas de acesso no nível da linha do BigQuery ativadas, você só poderá verificar linhas visíveis para a conta de serviço do Dataplex. Os privilégios de acesso de um usuário específico não são avaliados de acordo com as políticas no nível da linha.

Papéis e permissões da verificação de dados

Para usar a criação de perfil de dados, um administrador de projeto atribui um papel predefinido com permissões já concedidas ou concede permissões individuais. Os papéis são os seguintes:

  • roles/dataplex.dataScanAdmin: acesso total aos recursos do DataScan.
  • roles/dataplex.dataScanEditor: acesso de gravação a recursos DataScan.
  • roles/dataplex.dataScanViewer: acesso de leitura a recursos DataScan, excluindo os resultados.
  • roles/dataplex.dataScanDataViewer: acesso de leitura a recursos DataScan, incluindo os resultados.

A tabela a seguir lista as permissões de verificação de dados:

Nome da permissão Concede permissão para:
dataplex.datascans.create Criar um DataScan
dataplex.datascans.delete Excluir um DataScan
dataplex.datascans.get Ver DataScan detalhes excluindo os resultados
dataplex.datascans.getData Ver detalhes de DataScan, incluindo resultados
dataplex.datascans.list Listar DataScans
dataplex.datascans.run Executar um DataScan
dataplex.datascans.update Atualizar a descrição de uma DataScan
dataplex.datascans.getIamPolicy Ver as permissões atuais do IAM na verificação
dataplex.datascans.setIamPolicy Definir permissões do IAM na verificação

Criar uma verificação do perfil de dados

Console

  1. No Console do Google Cloud, acesse a página Perfil.

    Acessar o perfil do Dataplex

  2. Clique em Criar verificação do perfil de dados.

  3. Insira um Nome de exibição.

  4. Para alterar o ID de verificação gerado automaticamente, forneça seu próprio código. Consulte Convenção de nomenclatura de recursos.

  5. Opcional: digite uma Descrição.

  6. No campo Tabela, clique em Procurar.

  7. Selecione uma tabela e clique em Selecionar.

  8. No campo Escopo, escolha Dados incrementais ou Dados inteiros.

    • Se você escolher Dados incrementais, no campo Coluna de carimbo de data/hora, selecione uma coluna do tipo DATE ou TIMESTAMP da tabela do BigQuery que aumente monotonicamente e possa ser usada para identificar novos registros. Para tabelas particionadas em uma coluna do tipo DATE ou TIMESTAMP, recomendamos usar a coluna de partição como campo de carimbo de data/hora.
  9. Para aplicar a amostragem à verificação do perfil de dados, na lista Tamanho da amostragem, selecione uma porcentagem de amostragem.

    • Escolha um valor percentual entre 0,0% e 100% com até três dígitos decimais.
    • Para conjuntos de dados maiores, escolha uma porcentagem de amostragem menor. Por exemplo, para uma tabela de aproximadamente 1 PB, se você inserir um valor entre 0,1% e 1,0%, as amostras do Dataplex vão de 1 a 10 TB de dados.
    • Você precisa de pelo menos 100 registros nos dados de amostra para retornar um resultado.
    • Para verificações de dados incrementais, o Dataplex aplica a amostragem ao incremento mais recente.
  10. Para filtrar por linha, clique em Filtros e selecione Filtrar linhas.

    • Insira uma expressão SQL válida que possa ser usada em uma cláusula WHERE na sintaxe SQL padrão do BigQuery. Por exemplo: col1 >= 0.

    • O filtro pode ser uma combinação de condições SQL em várias colunas. Por exemplo, col1 >= 0 AND col2 < 10.

  11. Opcional: clique em Filtros. Marque a caixa de seleção Filtrar colunas.

    a. No campo Incluir colunas, clique em Procurar.

    • Especifique as colunas a serem incluídas na verificação de perfil. Selecione as colunas de sua escolha marcando as caixas e clicando em Selecionar.

    b. No campo Excluir colunas, clique em Procurar.

    • Especifique as colunas a serem excluídas da verificação de perfil. Selecione as colunas de sua escolha marcando as caixas e clicando em Selecionar.
  12. Opcional: publique os resultados da verificação do perfil de dados nas páginas do BigQuery e do Data Catalog no Console do Google Cloud para a tabela de origem. Clique na caixa de seleção Publicar resultados na IU do BigQuery e do Dataplex Catalog.

    É possível ver os resultados da verificação mais recentes na guia Perfil de dados nas páginas do BigQuery e do Data Catalog para a tabela de origem. Para permitir que os usuários acessem os resultados da verificação publicados, consulte Compartilhar os resultados publicados.

    A opção de publicação pode não estar disponível nos seguintes casos:

    • Você não tem as permissões necessárias na tabela.
    • Outra verificação de qualidade de dados foi definida para publicar os resultados.

    Para mais informações sobre as permissões necessárias para visualizar os resultados publicados, consulte Permissões.

  13. Opcional: exporte os resultados da verificação para uma tabela padrão do BigQuery. Clique em Procurar para selecionar um conjunto de dados atual do BigQuery e armazenar os resultados da verificação do perfil de dados.

    Se a tabela especificada não existir, o Dataplex a criará para você. Se você estiver usando uma tabela existente, verifique se ela é compatível com o esquema de tabela descrito posteriormente nesta seção.

  14. Opcional: adicione rótulos. Os rótulos são pares key:value que permitem agrupar objetos relacionados ou com outros recursos do Google Cloud.

  15. Em Opções de programação, escolha uma das seguintes opções:

    • Repetir: execute o job de verificação do perfil de dados em uma programação: diária, semanal, mensal ou personalizada. Especifique com que frequência a verificação deve ser executada e em que horário. Se você escolher o personalizado, use o formato cron para especificar a programação.

    • Sob demanda: crie a verificação do perfil de dados e execute-a a qualquer momento usando a ação "Executar agora".

  16. Clique em Criar.

gcloud

Para criar uma verificação de perfil de dados, execute o seguinte comando:

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-entity=DATA_SOURCE_ENTITY
| --data-source-resource=DATA_SOURCE_RESOURCE

Substitua as seguintes variáveis:

  • DATASCAN: o nome da verificação do perfil de dados.
  • LOCATION: a região do Google Cloud em que a verificação do perfil de dados será criada.
  • DATA_SOURCE_ENTITY: a entidade do Dataplex que contém os dados da verificação do perfil de dados. Por exemplo, projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity.
  • DATA_SOURCE_RESOURCE: o nome do recurso que contém os dados da verificação do perfil de dados. Por exemplo, //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table.

Para argumentos opcionais, consulte a referência da CLI gcloud.

REST

Use o APIs Explorer para criar uma verificação do perfil de dados.

Criar várias verificações de perfil de dados

Console

  1. No Console do Google Cloud, acesse a página Perfil.

    Acessar o perfil do Dataplex

  2. Clique em Criar várias verificações de perfil.

  3. Insira um prefixo do código. O Dataplex gera automaticamente códigos de verificação usando o prefixo e os sufixos exclusivos fornecidos.

  4. Insira uma Descrição para todas as verificações do perfil de dados.

  5. No campo Conjunto de dados, clique em Procurar. Selecione um conjunto de dados para escolher as tabelas. Clique em Selecionar.

  6. Se o conjunto de dados for multirregional, selecione uma Região para a criação das verificações de perfil de dados.

  7. Selecione Opções de configuração comuns:

    1. No campo Escopo, escolha Dados incrementais ou Dados inteiros.

    2. Para aplicar a amostragem às verificações do perfil de dados, selecione uma porcentagem de lista na lista Tamanho da amostragem.

      Escolha um valor percentual entre 0,0% e 100% com até três dígitos decimais.

    3. Para exibir os resultados de todas as verificações, selecione Publicação. É possível ver os resultados na guia Perfil dos detalhes da tabela do BigQuery ou do Data Catalog. Verifique se você tem as permissões bigquery.tables.update nas tabelas de origem.

    4. Em Opções de programação, escolha uma das seguintes opções:

      1. Repetir: execute os jobs de verificação do perfil de dados de acordo com uma programação. Especifique a frequência da execução da verificação (diária, semanal, mensal ou personalizada) e a que horas. Se você escolher o personalizado, use o formato cron para especificar a programação.

      2. Sob demanda: crie jobs de verificação do perfil de dados e execute-os a qualquer momento clicando em Executar.

  8. Na opção Escolher tabelas, clique em Procurar. Escolha uma ou mais tabelas a serem verificadas. Clique em Selecionar.

  9. Selecione Configurações adicionais:

    1. Para salvar os resultados das verificações de perfil de dados em uma tabela do BigQuery de sua escolha, escolha uma tabela em Exportar os resultados da verificação para a tabela do BigQuery. O Dataplex copia e salva automaticamente os resultados nesta tabela para cada job de verificação.

      1. Clique em Procurar para selecionar um conjunto de dados.

      2. Insira uma tabela do BigQuery para salvar os resultados. Pode ser uma tabela existente, usada por outras verificações de perfil de dados do Dataplex para salvar os resultados. Se não houver uma tabela com o nome especificado, o Dataplex criará a tabela.

    2. Adicione rótulos para anotar a verificação do seu perfil de dados.

  10. Clique em Executar verificação para criar e executar todas as verificações. Essa opção está disponível apenas para verificações sob demanda.

  11. Clique em Create para criar todas as verificações.

gcloud

Incompatível.

REST

Incompatível.

Exportar esquema da tabela

Se você quiser exportar os resultados da verificação do perfil de dados para uma tabela atual do BigQuery, verifique se ela é compatível com o esquema de tabela a seguir:

Nome da coluna Tipo de dados da coluna Nome do subcampo
(se aplicável)
Tipo de dados do subcampo Modo Exemplo
verificação_do_perfil_de_dados struct/record resource_name string anulável //dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan
project_id string anulável test-project
location string anulável us-central1
data_scan_id string anulável test-datascan
fonte_de_dados struct/record resource_name string anulável Caso de entidade:
//dataplex.googleapis.com/projects/test-project/locations/europe-west2/lakes/test-lake/zones/test-zone/entities/test-entity

Caso de tabela: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table
dataplex_entity_project_id string anulável test-project
dataplex_entity_project_number integer anulável 123456789012
dataplex_lake_id string anulável Válido apenas se a origem for uma entidade.
test-lake
dataplex_zone_id string anulável Válido apenas se a origem for uma entidade.
test-zone
dataplex_entity_id string anulável Válido apenas se a origem for uma entidade.
test-entity
table_project_id string anulável dataplex-table
table_project_number int64 anulável 345678901234
dataset_id string anulável (Válido apenas se a origem for a tabela)
test-dataset
table_id string anulável (Válido apenas se a origem for a tabela)
test-table
data_profile_job_id string anulável caeba234-cfde-4fca-9e5b-fe02a9812e38
data_profile_job_configuration json trigger string anulável ondemand/schedule
incremental boolean anulável true/false
sampling_percent float anulável (0 a 100)
20.0 (indica 20%)
row_filter string anulável col1 >= 0 AND col2 < 10
column_filter json anulável {"include_fields":["col1","col2"], "exclude_fields":["col3"]}
rótulos_job json anulável {"key1":value1}
job_start_time timestamp anulável 2023-01-01 00:00:00 UTC
job_end_time timestamp anulável 2023-01-01 00:00:00 UTC
job_rows_sscan integer anulável 7500
nome_da_coluna string anulável column-1
tipo_de_coluna string anulável string
coluna_modo string anulável repeated
porcentagem_nulo float anulável (0,0 a 100,0)
20.0 (indica 20%)
porcentagem_exclusiva float anulável (0.0 a 100.0)
92.5
comprimento_da_string_mín. integer anulável (Válido apenas se o tipo de coluna for string)
10
comprimento_máximo_da_string integer anulável (Válido apenas se o tipo de coluna for string)
4
comprimento_da_string_média float anulável (Válido apenas se o tipo de coluna for string)
7.2
min_value float anulável Válido apenas se o tipo de coluna for numérico: inteiro/flutuante
max_value float anulável Válido apenas se o tipo de coluna for numérico: inteiro/flutuante
valor_médio float anulável Válido apenas se o tipo de coluna for numérico: inteiro/flutuante
desvio_padrão float anulável Válido apenas se o tipo de coluna for numérico: inteiro/flutuante
quartil_inferior integer anulável Válido apenas se o tipo de coluna for numérico: inteiro/flutuante
quartil_mediana integer anulável Válido apenas se o tipo de coluna for numérico: inteiro/flutuante
quartil_superior integer anulável Válido apenas se o tipo de coluna for numérico: inteiro/flutuante
parte_superior struct/record - repeated value string anulável "4009"
count integer anulável 20
percent float anulável 10 (indica 10%)

Configuração da tabela de exportação

Ao exportar para tabelas do BigQueryExport, siga estas diretrizes:

Console

  • Para o campo resultsTable, use o formato: //bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}.

  • Use uma tabela padrão do BigQuery.

  • Se a tabela não existir quando a verificação for criada ou atualizada, o Dataplex criará a tabela para você.

  • Por padrão, a tabela é particionada diariamente na coluna job_start_time.

  • Se você quiser que a tabela seja particionada em outras configurações ou se não quiser a partição, recrie a tabela com o esquema e as configurações necessários e, em seguida, forneça a tabela pré-criada como a tabela de resultados.

  • Verifique se a tabela de resultados está no mesmo local que a tabela de origem.

  • Se o VPC-SC estiver configurado no projeto, a tabela de resultados precisará estar no mesmo perímetro VPC-SC que a tabela de origem.

  • Se a tabela for modificada durante o estágio de execução da verificação, o job em execução será exportado para a tabela de resultados anterior e a alteração da tabela entrará em vigor no próximo job de verificação.

  • Não modifique o esquema da tabela. Se você precisar de colunas personalizadas, crie uma visualização na tabela.

  • Para reduzir custos, defina uma validade na partição com base no seu caso de uso. Para mais informações, veja como definir a validade da partição.

gcloud

REST

Executar uma verificação do perfil de dados

Console

  1. No Console do Google Cloud, acesse a página Perfil do Dataplex. Acessar o perfil
  2. Clique na verificação do perfil de dados a ser executada.
  3. Clique em Executar agora.

gcloud

Para executar uma verificação de perfil de dados, execute o seguinte comando:

gcloud dataplex datascans run DATASCAN \
--location=LOCATION

Substitua as seguintes variáveis:

  • DATASCAN: o nome da verificação do perfil de dados.
  • LOCATION: a região do Google Cloud em que a verificação do perfil de dados foi criada.

Para argumentos opcionais, consulte a referência da CLI gcloud.

REST

Use o APIs Explorer para executar a verificação do seu perfil de dados.

Ver os resultados do job de verificação do perfil de dados

Console

Todas as verificações de perfil de dados que você cria aparecem na página Perfil.

Para ver os resultados detalhados de uma verificação, clique no nome dela.

  • A seção Visão geral exibe as execuções de verificação, o tempo de cada execução, o número de registros de tabela verificados e o status do job.

  • A seção Profile scan configuration contém detalhes da verificação.

gcloud

Para ver os resultados de um job de verificação de perfil de dados, execute o seguinte comando:

gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULL

Substitua as seguintes variáveis:

  • JOB: o ID do job de verificação do perfil de dados.
  • LOCATION: a região do Google Cloud em que a verificação do perfil de dados foi criada.
  • DATASCAN: o nome da verificação do perfil de dados ao qual o job pertence.
  • --view=FULL: para ver o resultado do job de verificação, especifique FULL.

Para argumentos opcionais, consulte a referência da CLI gcloud.

REST

Use o APIs Explorer para ver os resultados de uma verificação de perfil de dados.

Ver o job de verificação do perfil de dados mais recente

Console

A guia Resultados mais recentes do job, quando há pelo menos uma execução concluída com êxito, fornece informações sobre o job mais recente. Ela lista as colunas da tabela verificada e as estatísticas sobre as colunas que foram encontradas na verificação.

gcloud

Para visualizar a verificação de perfil de dados mais recente, execute o seguinte comando:

gcloud dataplex datascans describe DATASCAN \
--location=LOCATION \
--view=FULL

Substitua as seguintes variáveis:

  • DATASCAN: o nome da verificação do perfil de dados para visualizar o job mais recente.
  • LOCATION: a região do Google Cloud em que a verificação do perfil de dados foi criada.
  • --view=FULL: para ver o resultado do job de verificação, especifique FULL.

Para argumentos opcionais, consulte a referência da CLI gcloud.

REST

Use o APIs Explorer para ver o job de verificação mais recente.

Ver todos os jobs de verificação do perfil de dados

O Dataplex salva o histórico de verificação do perfil de dados dos últimos 300 jobs ou do último ano, o que ocorrer primeiro.

Console

A guia Histórico de jobs fornece informações sobre jobs anteriores. Ele lista todos os jobs, o número de registros verificados em cada job, o status do job, o tempo de execução do job e muito mais.

Para ver informações detalhadas sobre um job, clique em qualquer um deles em ID do job.

gcloud

Para ver todos os jobs de uma verificação de perfil de dados, execute o seguinte comando:

gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCAN

Substitua as seguintes variáveis:

  • LOCATION: a região do Google Cloud em que a verificação do perfil de dados foi criada.
  • DATASCAN: o nome da verificação do perfil de dados para visualizar todos os jobs.

Para argumentos opcionais, consulte a referência da CLI gcloud.

REST

Use o APIs Explorer para ver todos os jobs de verificação.

Compartilhar os resultados publicados

Ao criar uma verificação de perfil de dados, se você optar por publicar os resultados da verificação nas páginas do BigQuery e do Data Catalog no Console do Google Cloud, os resultados mais recentes estarão disponíveis na guia Perfil de dados nessas páginas.

É possível permitir que os usuários da organização acessem os resultados da verificação publicados. Para conceder acesso aos resultados da verificação, siga estas etapas:

  1. No Console do Google Cloud, acesse a página Perfil.

    Acessar o perfil do Dataplex

  2. Clique na verificação do perfil de dados cujos resultados você deseja compartilhar.

  3. Acesse a guia Permissões.

  4. Clique em Conceder acesso.

  5. No campo Novos principais, adicione o principal a que você quer conceder acesso.

  6. No campo Selecionar uma função, selecione Dataplex DataScan DataViewer.

  7. Clique em Save.

Para remover o acesso aos resultados de verificação publicados de um principal, siga estas etapas:

  1. No Console do Google Cloud, acesse a página Perfil.

    Acessar o perfil do Dataplex

  2. Clique na verificação do perfil de dados cujos resultados você deseja compartilhar.

  3. Acesse a guia Permissões.

  4. Selecione o principal de que você quer remover o papel Dataplex DataScan DataViewer.

  5. Clique em Remover acesso.

  6. Clique em Confirmar.

Atualizar a verificação de um perfil de dados

Console

  1. No Console do Google Cloud, acesse a página Perfil.

    Acessar o perfil do Dataplex

  2. Na linha com a verificação que você quer editar, clique em > Editar.

  3. Edite os valores.

  4. Clique em Save.

gcloud

Para atualizar uma verificação de perfil de dados, execute o seguinte comando:

gcloud dataplex datascans update data-profile DATASCAN \
--location=LOCATION \
--description=DESCRIPTION

Substitua as seguintes variáveis:

  • DATASCAN: o nome da verificação do perfil de dados a ser atualizada.
  • LOCATION: a região do Google Cloud em que a verificação do perfil de dados foi criada.
  • DESCRIPTION: a nova descrição da verificação do perfil de dados.

Para ver os campos de especificação a serem atualizados, consulte a referência da CLI gcloud.

REST

Use o APIs Explorer para editar uma verificação do perfil de dados.

Excluir uma verificação de perfil de dados

Console

  1. No Console do Google Cloud, acesse a página Perfil. Acesse o perfil do Dataplex.

  2. Clique na verificação que você quer excluir.

  3. Clique em Excluir.

gcloud

Para excluir uma verificação de perfil de dados, execute o seguinte comando:

gcloud dataplex datascans delete \
DATASCAN --location=LOCATION \
--async

Substitua as seguintes variáveis:

  • DATASCAN: o nome da verificação do perfil de dados a ser excluído.
  • LOCATION: a região do Google Cloud em que a verificação do perfil de dados foi criada.

Para argumentos opcionais, consulte a referência da CLI gcloud.

REST

Use o APIs Explorer para excluir a verificação do seu perfil de dados.

A seguir