Marcar tabelas no Dataplex com base em insights de perfis de dados

Esta página descreve como aplicar automaticamente tags do Dataplex a tabelas do BigQuery depois que a proteção de dados sensíveis cria perfis dessas tabelas. Esta página também fornece exemplos de consultas que podem ser usadas para encontrar dados marcados na organização e nos projetos.

Esse recurso é útil se você quiser enriquecer seus metadados selecionados manualmente no Dataplex com insights coletados dos perfis de dados da Proteção de dados sensíveis. As tags geradas incluem os seguintes insights:

  • Tipos de informações (infoTypes) detectados nas colunas da tabela
  • Nível de sensibilidade calculado da tabela
  • Nível de risco de dados calculado da tabela

Os insights dos perfis de dados da Proteção de dados sensíveis podem ajudar você a usar o Dataplex para descobrir dados sensíveis e de alto risco na sua organização. Use esses insights para tomar decisões fundamentadas sobre como gerenciar e controlar seus dados.

Se você quiser enviar os resultados dos jobs de inspeção, e não as operações de criação de perfil de dados, para o Dataplex, consulte Enviar os resultados da inspeção de proteção de dados sensíveis para o Data Catalog.

Sobre os perfis de dados

É possível configurar a Proteção de dados sensíveis para gerar automaticamente perfis sobre dados em uma organização, pasta ou projeto. Os perfis de dados contêm métricas e metadados sobre os dados e ajudam a determinar onde os dados sensíveis e de alto risco residem. A Proteção de dados sensíveis informa essas métricas em vários níveis de detalhes. Para saber mais sobre os tipos de dados que podem ser usados para criar perfis, consulte Recursos compatíveis.

Sobre o Dataplex e o Data Catalog

O Dataplex é um serviço do Google Cloud que unifica dados distribuídos e automatiza o gerenciamento e a governança desses dados. O Data Catalog é um serviço de metadados totalmente gerenciado e escalonável no Dataplex.

O Data Catalog permite usar tags e modelos de tag para anexar metadados comerciais aos seus dados. Depois, você pode pesquisar e gerenciar todos os metadados da sua organização ou projeto em um serviço unificado. Para mais informações, consulte Tags e modelos de tag.

Como funciona

Se a configuração de verificação de descoberta tiver a ação Enviar para o Dataplex como tags ativada, a Proteção de Dados Sensíveis fará o seguinte sempre que criar o perfil dos seus dados: Essa ação só é aplicada a perfis novos e atualizados. Os perfis atuais que não forem atualizados não serão enviados ao Dataplex.

  1. Cria um modelo de tag particular contendo o esquema das tags que serão anexadas às tabelas do BigQuery. Para informações sobre o nome, o ID e o local do modelo de tag, consulte Detalhes do modelo de tag.

    Somente participantes com as funções e permissões adequadas podem acessar o modelo de tag.

  2. Cria uma tag para cada tabela do BigQuery que você cria o perfil. A tag é baseada no modelo recém-criado.

    Por exemplo, uma tag resultante anexada a uma tabela pode ter os seguintes metadados:

    Nome de exibição Valor
    Column Insights ccn: CREDIT_CARD_NUMBER
    first_name: PERSON_NAME
    last_name: PERSON_NAME
    ssn: US_SOCIAL_SECURITY_NUMBER
    email: EMAIL_ADDRESS
    Column Sensitivity ccn: HIGH
    first_name: MODERATE
    last_name: MODERATE
    favorite_animal: LOW
    ssn: HIGH
    email: MODERATE
    id: LOW
    Data Risk Level HIGH
    Other InfoTypes PHONE_NUMBER
    Predicted InfoTypes CREDIT_CARD_NUMBER,US_SOCIAL_SECURITY_NUMBER,EMAIL_ADDRESS,PERSON_NAME
    Profile Last Generated DATE at TIME
    Sensitive Data Profile organizations/ORGANIZATION_ID/locations/REGION/tableDataProfiles/TABLE_DATA_PROFILE_ID
    Sensitivity Score HIGH

Uma tabela tem duas tags se o perfil dela foi criado com os seguintes métodos:

  • Uma configuração de verificação no nível da organização ou da pasta
  • Uma configuração de verificação no nível do projeto

Depois que as tabelas forem marcadas, você poderá pesquisar no Dataplex todos os dados da sua organização ou projeto com valores de tag específicos.

Detalhes do modelo de tag

O nome do modelo, o ID do modelo e o projeto em que o novo modelo de tag é armazenado dependem do recurso ao qual a configuração de verificação pertence.

  • Se a configuração de verificação for no nível da organização ou da pasta, o modelo de tag será armazenado no contêiner do agente de serviço. O nome do modelo de tag é Sensitive Data Profile. O ID do modelo é sensitive_data_profile.
  • Se a configuração de verificação for no nível do projeto, o modelo de tag será armazenado no projeto a ser criado. O nome do modelo de tag é Sensitive Data Profile (Project). O ID do modelo é sensitive_data_profile_project.

Preços

Para informações sobre como outros serviços do Google Cloud podem cobrar pela exportação de perfis de dados, consulte Preços para exportação de perfis de dados.

Marcar automaticamente as tabelas do BigQuery com base nos perfis de dados

  1. Crie uma configuração de verificação. Como alternativa, edite uma configuração de verificação existente.

  2. Na etapa Adicionar ações, verifique se a opção Enviar para o Dataplex como tags está ativada.

    • Se você estiver criando uma configuração de verificação, essa ação será ativada por padrão.
    • Se você estiver editando uma configuração de verificação, ative essa ação.

Depois que os dados forem perfilados e marcados, você poderá começar a pesquisar dados marcados no Dataplex.

Papéis e permissões para visualizar tags

Os resultados da pesquisa do Dataplex mostram apenas os dados a que você tem acesso. Você precisa dos seguintes papéis ou permissões do Identity and Access Management (IAM) para procurar as tags anexadas às tabelas do BigQuery.

Motivo Papel predefinido Permissões relevantes
Conferir o modelo de tag particular Visualizador de TagTemplate do Data Catalog (roles/datacatalog.tagTemplateViewer) datacatalog.tagTemplates.getTag
Conferir as tags aplicadas às tabelas do BigQuery Leitor de metadados do BigQuery (roles/bigquery.metadataViewer) bigquery.datasets.get
bigquery.tables.get

Para mais informações sobre os papéis do Dataplex, consulte Papéis para visualizar tags públicas e privadas.

Para informações sobre como conceder um papel predefinido, consulte Conceder um único papel. Se você quer usar um papel personalizado em vez de um predefinido, verifique se o papel personalizado tem as permissões relevantes. Para mais informações, consulte Criar um papel personalizado.

Encontrar o modelo de tag gerado

  1. No console do Google Cloud, acesse a página Modelos de tag do Dataplex.

    Acesse Modelos de tag

  2. Na lista, encontre o modelo de tag. Para informações sobre o nome, o ID e a localização do modelo de tag, consulte Detalhes do modelo de tag.

  3. Opcional: para encontrar o modelo de tag gerado por uma determinada configuração de verificação de detecção, insira o seguinte no campo Filtro:

    name:PROJECT_ID.TAG_TEMPLATE_ID
    

    Substitua:

    • PROJECT_ID: o ID do projeto associado à configuração de verificação. Se você criou um perfil dos dados no nível da organização ou da pasta, insira o ID do projeto do contêiner do agente de serviço.
    • TAG_TEMPLATE_ID: sensitive_data_profile se a configuração de verificação for para uma organização ou uma pasta; sensitive_data_profile_project se a configuração de verificação for para um projeto.

Encontrar a tag gerada para um determinado perfil de dados de tabela

  1. No console do Google Cloud, acesse a página Pesquisa do Dataplex.

    Acesse Pesquisar

  2. No campo Pesquisar, digite o seguinte:

    name:TABLE_ID tag:PROJECT_ID.TAG_TEMPLATE_ID
    

    Substitua:

    • TABLE_ID: o ID da tabela que foi analisada.
    • PROJECT_ID: o ID do projeto que contém o modelo de tag. Se você criou um perfil dos dados no nível da organização ou da pasta, insira o ID do projeto do contêiner do agente de serviço.
    • TAG_TEMPLATE_ID: sensitive_data_profile se a configuração de verificação for para uma organização ou uma pasta; sensitive_data_profile_project se a configuração de verificação for para um projeto.
  3. Na lista que aparece, clique no ID da tabela. Os detalhes da tabela do BigQuery aparecem com as tags Sensitive Data Profile ou Sensitive Data Profile (Project) anexadas a ela.

    Uma tabela tem duas tags se o perfil dela foi criado com os seguintes métodos:

    • Uma configuração de verificação no nível da organização ou da pasta
    • Uma configuração de verificação no nível do projeto

Para saber como realizar uma pesquisa na API do Data Catalog, consulte Como pesquisar recursos de dados.

Exemplo de consultas de pesquisa

Esta seção fornece exemplos de consultas de pesquisa que podem ser usadas no Dataplex para encontrar dados na sua organização ou projeto com valores de tag específicos.

Você só encontra os dados a que tem acesso. O acesso aos dados é controlado pelas permissões do IAM. Para mais informações, consulte Papéis e permissões para visualizar tags nesta página.

É possível inserir essas consultas na página Pesquisa do Dataplex no console do Google Cloud.

Acesse Pesquisar

Para saber como formar as consultas, consulte Sintaxe de pesquisa do Data Catalog. Para saber como realizar uma pesquisa na API Data Catalog, consulte Como pesquisar recursos de dados.

Encontrar todas as tabelas marcadas com o novo modelo de tag

tag:PROJECT_ID.TAG_TEMPLATE_ID

Substitua:

  • PROJECT_ID: o ID do projeto que contém o modelo de tag. Se você criou um perfil dos dados no nível da organização ou da pasta, insira o ID do projeto do contêiner do agente de serviço.
  • TAG_TEMPLATE_ID: sensitive_data_profile se a configuração de verificação for para uma organização ou uma pasta; sensitive_data_profile_project se a configuração de verificação for para um projeto.

Os exemplos a seguir nesta página não incluem o ID do projeto. Por isso, você pode receber resultados associados a várias configurações de verificação de descoberta. Para limitar os resultados a uma configuração de verificação específica, adicione o ID do projeto à consulta, conforme mostrado neste exemplo.

Encontrar todas as tabelas que foram criadas pela última vez antes de uma determinada data

tag:TAG_TEMPLATE_ID.profile_last_generated<DATE

Substitua:

  • TAG_TEMPLATE_ID: sensitive_data_profile se a configuração de verificação for para uma organização ou uma pasta; sensitive_data_profile_project se a configuração de verificação for para um projeto.
  • DATE: uma data no formato YYYY-MM-DD, por exemplo, 2023-01-15.

Encontrar todas as tabelas com uma determinada pontuação de sensibilidade

tag:TAG_TEMPLATE_ID.sensitivity_score=SENSITIVITY_SCORE

Substitua:

  • TAG_TEMPLATE_ID: sensitive_data_profile se a configuração de verificação for para uma organização ou uma pasta; sensitive_data_profile_project se a configuração de verificação for para um projeto.
  • SENSITIVITY_SCORE: um de HIGH, MODERATE ou LOW.

Para mais informações, consulte Níveis de risco e sensibilidade de dados.

Encontrar todas as tabelas com um determinado nível de risco de dados

tag:TAG_TEMPLATE_ID.data_risk_level=DATA_RISK_LEVEL

Substitua:

  • TAG_TEMPLATE_ID: sensitive_data_profile se a configuração de verificação for para uma organização ou uma pasta; sensitive_data_profile_project se a configuração de verificação for para um projeto.
  • DATA_RISK_LEVEL: um de HIGH, MODERATE ou LOW.

Para mais informações, consulte Níveis de risco e sensibilidade de dados.

Encontrar todas as tabelas que contêm um determinado infoType previsto

tag:TAG_TEMPLATE_ID.predicted_info_types:INFOTYPE

Substitua:

  • TAG_TEMPLATE_ID: sensitive_data_profile se a configuração de verificação for para uma organização ou uma pasta; sensitive_data_profile_project se a configuração de verificação for para um projeto.
  • INFOTYPE: o infoType. Por exemplo, PERSON_NAME.

Para uma lista de todos os infoTypes integrados, consulte a Referência do detector de infoType.

Para mais informações, consulte infoType previsto na referência de métricas.

Encontrar todas as tabelas que contêm parcialmente um determinado infoType

tag:TAG_TEMPLATE_ID.other_info_types:INFOTYPE

Substitua:

  • TAG_TEMPLATE_ID: sensitive_data_profile se a configuração de verificação for para uma organização ou uma pasta; sensitive_data_profile_project se a configuração de verificação for para um projeto.
  • INFOTYPE: o infoType. Por exemplo, PERSON_NAME.

Para conferir uma lista de todos os infoTypes integrados, consulte a Referência do detector de infoType.

Para mais informações, consulte Outros infoTypes na referência de métricas.

Encontrar todas as tabelas que contêm uma determinada coluna com um determinado infoType previsto

tag:TAG_TEMPLATE_ID.column_insights:COLUMN_NAME:INFOTYPE

Substitua:

  • TAG_TEMPLATE_ID: sensitive_data_profile se a configuração de verificação for para uma organização ou uma pasta; sensitive_data_profile_project se a configuração de verificação for para um projeto.
  • COLUMN_NAME: o nome da coluna na tabela do BigQuery.
  • INFOTYPE: o infoType. Por exemplo, PERSON_NAME.

Para uma lista de todos os infoTypes integrados, consulte a Referência do detector de infoType.

Para mais informações, consulte infoType previsto na referência de métricas.

Encontrar todas as tabelas que contêm uma determinada coluna com uma determinada pontuação de confidencialidade

tag:TAG_TEMPLATE_ID.column_sensitivity:COLUMN_NAME:SENSITIVITY_SCORE

Substitua:

  • TAG_TEMPLATE_ID: sensitive_data_profile se a configuração de verificação for para uma organização ou uma pasta; sensitive_data_profile_project se a configuração de verificação for para um projeto.
  • COLUMN_NAME: o nome da coluna na tabela do BigQuery.
  • SENSITIVITY_SCORE: um de HIGH, MODERATE ou LOW.

Para saber mais, consulte Níveis de risco e sensibilidade de dados.

Valores de tag truncados

Se os dados do cabeçalho da coluna de uma tabela do BigQuery excederem 10 MB, a tag resultante poderá mostrar [TRUNCATED] no campo Column Insights ou Column Sensitivity. Nesse caso, recomendamos que você acesse a Proteção de dados sensíveis para analisar o perfil de dados da tabela e os perfis de dados de coluna associados.