Etiquete tabelas no catálogo de dados com base em estatísticas de perfis de dados

Esta página descreve como aplicar automaticamente etiquetas do Data Catalog a tabelas do BigQuery depois de o serviço de proteção de dados confidenciais criar perfis dessas tabelas. Esta página também fornece exemplos de consultas que pode usar para encontrar dados etiquetados na sua organização e projetos.

Esta funcionalidade é útil se quiser enriquecer os metadados organizados manualmente no catálogo universal do Dataplex com estatísticas recolhidas a partir de perfis de dados da proteção de dados confidenciais. As etiquetas geradas incluem as seguintes estatísticas:

  • Tipos de informações (infoTypes) detetados nas colunas da tabela
  • Nível de sensibilidade calculado da tabela
  • Nível de risco dos dados calculado da tabela

As estatísticas dos perfis de dados da Proteção de dados confidenciais podem ajudar a usar o catálogo universal do Dataplex para descobrir dados confidenciais e de alto risco na sua organização. Use estas estatísticas para ajudar a tomar decisões informadas sobre como gerir e governar os seus dados.

Se quiser enviar os resultados de tarefas de inspeção, e não operações de criação de perfis de dados, para o catálogo universal do Dataplex, consulte o artigo Enviar resultados da inspeção da proteção de dados confidenciais para o Data Catalog.

Acerca dos perfis de dados

Pode configurar a proteção de dados confidenciais para gerar automaticamente perfis sobre dados numa organização, pasta ou projeto. Os perfis de dados contêm métricas e metadados sobre os seus dados e ajudam a determinar onde residem os dados confidenciais e de alto risco. A proteção de dados confidenciais comunica estas métricas a vários níveis de detalhe. Para obter informações sobre os tipos de dados que pode criar perfis, consulte o artigo Recursos suportados.

Acerca do Dataplex Universal Catalog e do Data Catalog

O catálogo universal do Dataplex é um Google Cloud serviço que unifica os dados distribuídos e automatiza a gestão e a administração dos dados. O Data Catalog (descontinuado) é um serviço de gestão de metadados totalmente gerido e escalável.

O catálogo de dados permite-lhe usar etiquetas e modelos de etiquetas para anexar metadados empresariais aos seus dados. Em seguida, pode pesquisar e gerir todos os metadados da sua organização ou projeto num serviço unificado. Para mais informações, consulte o artigo Etiquetas e modelos de etiquetas.

Como funciona

Se a configuração da análise de deteção tiver a ação Enviar para o Dataplex como etiquetas ativada, a Proteção de dados confidenciais faz o seguinte sempre que cria perfis dos seus dados. Esta ação só é aplicada a perfis novos e atualizados. Os perfis existentes que não são atualizados não são enviados para o catálogo universal do Dataplex.

  1. Cria um modelo de etiqueta privada que contém o esquema das etiquetas que vão ser anexadas às suas tabelas do BigQuery. Para obter informações sobre o nome, o ID e a localização do modelo de etiqueta, consulte Detalhes do modelo de etiqueta.

    Apenas os diretores com as funções e as autorizações adequadas podem ver o modelo de etiqueta.

  2. Cria uma etiqueta para cada tabela do BigQuery que analisa. A etiqueta baseia-se no modelo de etiqueta criado recentemente.

    Por exemplo, uma etiqueta resultante anexada a uma tabela pode ter os seguintes metadados:

    Nome a apresentar Valor
    Column Insights ccn: CREDIT_CARD_NUMBER
    first_name: PERSON_NAME
    last_name: PERSON_NAME
    ssn: US_SOCIAL_SECURITY_NUMBER
    email: EMAIL_ADDRESS
    Column Sensitivity ccn: HIGH
    first_name: MODERATE
    last_name: MODERATE
    favorite_animal: LOW
    ssn: HIGH
    email: MODERATE
    id: LOW
    Data Risk Level HIGH
    Other InfoTypes PHONE_NUMBER
    Predicted InfoTypes CREDIT_CARD_NUMBER,US_SOCIAL_SECURITY_NUMBER,EMAIL_ADDRESS,PERSON_NAME
    Profile Last Generated DATE at TIME
    Sensitive Data Profile organizations/ORGANIZATION_ID/locations/REGION/tableDataProfiles/TABLE_DATA_PROFILE_ID
    Sensitivity Score HIGH

Uma tabela tem duas etiquetas se tiver sido criada através de ambos os seguintes métodos:

  • Uma configuração de análise ao nível da organização ou da pasta
  • Uma configuração de análise ao nível do projeto

Depois de as tabelas serem etiquetadas, pode pesquisar no catálogo universal do Dataplex todos os dados na sua organização ou projeto com valores de etiquetas específicos.

Detalhes do modelo de etiqueta

O nome do modelo, o ID do modelo e o projeto onde o novo modelo de etiqueta está armazenado dependem do recurso ao qual a configuração da análise se refere.

  • Se a configuração da análise for uma configuração ao nível da organização ou da pasta, o modelo de etiqueta é armazenado no contentor do agente de serviço. O nome do modelo de etiqueta é Sensitive Data Profile. O ID do modelo é sensitive_data_profile.
  • Se a configuração da análise for uma configuração ao nível do projeto, o modelo de etiqueta é armazenado no projeto a ser analisado. O nome do modelo de etiqueta é Sensitive Data Profile (Project). O ID do modelo é sensitive_data_profile_project.

Preços

Para obter informações sobre como outros Google Cloud serviços podem cobrar-lhe pela exportação de perfis de dados, consulte o artigo Preços para exportar perfis de dados.

Etiquete automaticamente tabelas do BigQuery com base em perfis de dados

  1. Crie uma configuração de análise. Em alternativa, edite uma configuração de análise existente.

  2. No passo Adicionar ações, certifique-se de que a opção Enviar para o Dataplex como etiquetas está ativada.

    • Se estiver a criar uma configuração de análise, esta ação está ativada por predefinição.
    • Se estiver a editar uma configuração de análise, tem de ativar esta ação.

Depois de os dados serem perfilados e etiquetados, pode começar a pesquisar dados etiquetados no catálogo universal do Dataplex.

Funções e autorizações para ver etiquetas

Os resultados da pesquisa do catálogo universal do Dataplex mostram apenas os dados aos quais tem acesso. Precisa das seguintes funções ou autorizações da gestão de identidade e de acesso (IAM) para pesquisar as etiquetas anexadas às suas tabelas do BigQuery.

Finalidade Função predefinida Autorizações relevantes
Veja o modelo de etiqueta privada Leitor de TagTemplate do Data Catalog (roles/datacatalog.tagTemplateViewer) datacatalog.tagTemplates.getTag
Veja as etiquetas aplicadas às tabelas do BigQuery Leitor de metadados do BigQuery (roles/bigquery.metadataViewer) bigquery.datasets.get
bigquery.tables.get

Para mais informações sobre as funções do catálogo universal do Dataplex, consulte o artigo Funções para ver etiquetas públicas e privadas.

Para obter informações sobre como conceder uma função predefinida, consulte o artigo Conceda uma única função. Se quiser usar uma função personalizada em vez de uma função predefinida, certifique-se de que a função personalizada tem as autorizações relevantes. Para mais informações, consulte o artigo Crie uma função personalizada.

Encontre o modelo de etiqueta gerado

  1. Na Google Cloud consola, aceda à página Modelos de etiquetas do catálogo universal do Dataplex.

    Aceda a Modelos de etiquetas

  2. Na lista, encontre o modelo de etiqueta. Para ver informações sobre o nome, o ID e a localização do modelo de etiqueta, consulte os detalhes do modelo de etiqueta.

  3. Opcional: para encontrar o modelo de etiqueta gerado por uma determinada configuração de análise de deteção, introduza o seguinte no campo Filtro:

    name:PROJECT_ID.TAG_TEMPLATE_ID
    

    Substitua o seguinte:

    • PROJECT_ID: o ID do projeto associado à configuração da análise. Se tiver criado perfis dos seus dados ao nível da organização ou da pasta, introduza o ID do projeto do contentor do agente de serviço.
    • TAG_TEMPLATE_ID: sensitive_data_profile se a configuração da análise for para uma organização ou uma pasta; sensitive_data_profile_project se a configuração da análise for para um projeto.

Encontre a etiqueta gerada para um determinado perfil de dados de tabela

  1. Na Google Cloud consola, aceda à página Pesquisa do catálogo universal do Dataplex.

    Aceda à pesquisa

  2. No campo Pesquisar, introduza o seguinte:

    name:TABLE_ID tag:PROJECT_ID.TAG_TEMPLATE_ID
    

    Substitua o seguinte:

    • TABLE_ID: o ID da tabela que foi analisada.
    • PROJECT_ID: o ID do projeto que contém o modelo de etiqueta. Se tiver criado perfis dos seus dados ao nível da organização ou da pasta, introduza o ID do projeto do contentor do agente de serviço.
    • TAG_TEMPLATE_ID: sensitive_data_profile se a configuração da análise for para uma organização ou uma pasta; sensitive_data_profile_project se a configuração da análise for para um projeto.
  3. Na lista apresentada, clique no ID da tabela. Os detalhes da tabela do BigQuery são apresentados juntamente com quaisquer etiquetas Sensitive Data Profile ou Sensitive Data Profile (Project) anexadas à mesma.

    Uma tabela tem duas etiquetas se tiver sido criada através de ambos os seguintes métodos:

    • Uma configuração de análise ao nível da organização ou da pasta
    • Uma configuração de análise ao nível do projeto

Para obter informações sobre como realizar uma pesquisa através da API Data Catalog, consulte o artigo Como pesquisar recursos de dados.

Consultas de pesquisa de exemplo

Esta secção fornece exemplos de consultas de pesquisa que pode usar no catálogo universal do Dataplex para encontrar dados na sua organização ou projeto com valores de etiquetas específicos.

Só pode encontrar os dados aos quais tem acesso. O acesso aos dados é controlado através das autorizações da IAM. Para mais informações, consulte Funções e autorizações para ver etiquetas nesta página.

Pode introduzir estas consultas na página Pesquisa do catálogo universal do Dataplex na consola Google Cloud .

Aceda à pesquisa

Para ver informações sobre como formar as consultas, consulte a sintaxe de pesquisa do catálogo de dados. Para obter informações sobre como fazer uma pesquisa através da API Data Catalog, consulte Como pesquisar recursos de dados.

Encontre todas as tabelas etiquetadas com o novo modelo de etiqueta

tag:PROJECT_ID.TAG_TEMPLATE_ID

Substitua o seguinte:

  • PROJECT_ID: o ID do projeto que contém o modelo de etiqueta. Se tiver criado perfis dos seus dados ao nível da organização ou da pasta, introduza o ID do projeto do contentor do agente de serviço.
  • TAG_TEMPLATE_ID: sensitive_data_profile se a configuração da análise for para uma organização ou uma pasta; sensitive_data_profile_project se a configuração da análise for para um projeto.

Os exemplos seguintes nesta página não incluem o ID do projeto, pelo que pode receber resultados associados a várias configurações de análise de deteção. Para limitar os resultados a uma configuração de análise específica, adicione o ID do projeto à consulta, conforme mostrado neste exemplo.

Encontre todas as tabelas que foram perfiladas pela última vez antes de uma determinada data

tag:TAG_TEMPLATE_ID.profile_last_generated<DATE

Substitua o seguinte:

  • TAG_TEMPLATE_ID: sensitive_data_profile se a configuração da análise for para uma organização ou uma pasta; sensitive_data_profile_project se a configuração da análise for para um projeto.
  • DATE: uma data no formato YYYY-MM-DD, por exemplo, 2023-01-15.

Encontre todas as tabelas com uma determinada pontuação de confidencialidade ao nível da tabela

tag:TAG_TEMPLATE_ID.sensitivity_score=SENSITIVITY_SCORE

Substitua o seguinte:

  • TAG_TEMPLATE_ID: sensitive_data_profile se a configuração da análise for para uma organização ou uma pasta; sensitive_data_profile_project se a configuração da análise for para um projeto.
  • SENSITIVITY_SCORE: um dos valores HIGH, MODERATE ou LOW.

Para mais informações, consulte os níveis de risco e sensibilidade dos dados.

Encontre todas as tabelas com um determinado nível de risco de dados

tag:TAG_TEMPLATE_ID.data_risk_level=DATA_RISK_LEVEL

Substitua o seguinte:

  • TAG_TEMPLATE_ID: sensitive_data_profile se a configuração da análise for para uma organização ou uma pasta; sensitive_data_profile_project se a configuração da análise for para um projeto.
  • DATA_RISK_LEVEL: um dos valores HIGH, MODERATE ou LOW.

Para mais informações, consulte os níveis de risco e sensibilidade dos dados.

Encontrar todas as tabelas que contêm um determinado infoType previsto

tag:TAG_TEMPLATE_ID.predicted_info_types:INFOTYPE

Substitua o seguinte:

  • TAG_TEMPLATE_ID: sensitive_data_profile se a configuração da análise for para uma organização ou uma pasta; sensitive_data_profile_project se a configuração da análise for para um projeto.
  • INFOTYPE: o infoType, por exemplo, PERSON_NAME.

Para uma lista de todos os infoTypes incorporados, consulte a referência do detetor de infoTypes.

Para mais informações, consulte Predicted infoType na referência de métricas.

Encontrar todas as tabelas que contêm parcialmente um determinado infoType

tag:TAG_TEMPLATE_ID.other_info_types:INFOTYPE

Substitua o seguinte:

  • TAG_TEMPLATE_ID: sensitive_data_profile se a configuração da análise for para uma organização ou uma pasta; sensitive_data_profile_project se a configuração da análise for para um projeto.
  • INFOTYPE: o infoType, por exemplo, PERSON_NAME.

Para uma lista de todos os infoTypes incorporados, consulte a referência do detetor de infoTypes.

Para mais informações, consulte Outros tipos de informações na referência de métricas.

Encontre todas as tabelas que contêm uma determinada coluna com um determinado infoType previsto

tag:TAG_TEMPLATE_ID.column_insights:COLUMN_NAME:INFOTYPE

Substitua o seguinte:

  • TAG_TEMPLATE_ID: sensitive_data_profile se a configuração da análise for para uma organização ou uma pasta; sensitive_data_profile_project se a configuração da análise for para um projeto.
  • COLUMN_NAME: o nome da coluna na tabela do BigQuery.
  • INFOTYPE: o infoType, por exemplo, PERSON_NAME.

Para uma lista de todos os infoTypes incorporados, consulte a referência do detetor de infoTypes.

Para mais informações, consulte Predicted infoType na referência de métricas.

Encontre todas as tabelas que contêm uma determinada coluna com uma determinada classificação de confidencialidade ao nível da coluna

tag:TAG_TEMPLATE_ID.column_sensitivity:COLUMN_NAME:SENSITIVITY_SCORE

Substitua o seguinte:

  • TAG_TEMPLATE_ID: sensitive_data_profile se a configuração da análise for para uma organização ou uma pasta; sensitive_data_profile_project se a configuração da análise for para um projeto.
  • COLUMN_NAME: o nome da coluna na tabela do BigQuery.
  • SENSITIVITY_SCORE: um dos valores HIGH, MODERATE ou LOW.

Para mais informações, consulte os níveis de risco e sensibilidade dos dados.

Valores de etiquetas truncados

Se os dados do cabeçalho da coluna de uma tabela do BigQuery excederem 10 MB, a etiqueta resultante pode apresentar [TRUNCATED] no campo Column Insights ou Column Sensitivity. Neste caso, recomendamos que aceda à proteção de dados confidenciais para rever o perfil dos dados da tabela e os perfis de dados das colunas associadas.