Analisar perfis de dados

Se você configurou o serviço de descoberta de dados confidenciais para enviar todos os perfis de dados gerados com êxito para o BigQuery, é possível consultar esses perfis de dados para ver insights sobre seus dados. Você também pode usar ferramentas de visualização, como o Looker Studio, para criar relatórios personalizados de acordo com as necessidades da sua empresa. Como alternativa, você pode usar um relatório predefinido fornecido pela proteção de dados sensíveis, ajustar e compartilhar conforme necessário.

Nesta página, fornecemos consultas SQL de exemplo que podem ser usadas para saber mais sobre seus perfis de dados. Ele também mostra como visualizar perfis de dados no Looker Studio.

Para mais informações sobre perfis de dados, consulte Perfis de dados.

Antes de começar

Nesta página, presumimos que você tenha configurado a criação de perfil no nível da organização, pasta ou projeto. Na sua configuração, ative a exportação do perfil de dados clicando no botão Salvar cópias do perfil de dados no BigQuery.

Neste documento, a tabela que contém os perfis de dados exportados é chamada de tabela de saída.

Verifique se você tem os ID do projeto, ID conjunto de dados e da tabela da tabela de saída disponíveis. Você precisa que eles executem os procedimentos desta página.

Visualização latest

Quando a proteção de dados sensíveis exporta perfis de dados para sua tabela de saída, ela também cria a visualização latest. Ela é uma tabela virtual pré-filtrada que inclui apenas os snapshots mais recentes dos seus perfis de dados. A visualização latest tem o mesmo esquema que a tabela de saída. Portanto, é possível usar os dois de forma intercambiável nas consultas SQL e nos relatórios do Looker Studio. Os resultados podem ser diferentes porque a tabela de saída contém snapshots mais antigos dos perfis de dados.

A visualização latest é armazenada no mesmo local que a tabela de saída. O nome tem o seguinte formato:

OUTPUT_TABLE_latest_VERSION

Substitua:

  • OUTPUT_TABLE: o ID da tabela que contém os perfis de dados exportados.
  • VERSION: o número da versão da visualização.

Por exemplo, se o nome da tabela de saída for table-profile, a visualização latest terá um nome como table-profile_latest_v1.

Última visualização

Ao usar a visualização latest em consultas SQL, use o nome completo da visualização, que inclui o ID do projeto, o ID do conjunto de dados, o ID da tabela e o sufixo, por exemplo, myproject.mydataset.table-profile_latest_v1.

PROJECT_ID.DATASET_ID.OUTPUT_TABLE_latest_VERSION

Escolha entre a tabela de saída e a visualização latest.

A visualização latest inclui apenas os snapshots mais recentes do perfil de dados, enquanto a tabela de saída tem todos os snapshots do perfil de dados, incluindo aqueles que estão desatualizados. Por exemplo, uma consulta na tabela de saída pode retornar vários perfis de dados de coluna para a mesma coluna, um para cada vez que essa coluna foi analisada.

Ao escolher entre usar a tabela de saída e a visualização latest nas consultas SQL ou nos relatórios do Looker Studio, considere o seguinte:

  • A visualização latest é útil se você tem tabelas com um novo perfil e quer ver apenas os perfis mais recentes, não as versões mais antigas. Ou seja, você quer ver o estado atual dos dados do seu perfil.

  • A tabela de saída é útil se você quiser ter uma vista histórica dos dados do perfil criado. Por exemplo, você está tentando determinar se sua organização já armazenou um InfoType específico ou quer ver as alterações feitas por um determinado perfil de dados.

Amostras de consultas SQL

Nesta seção, mostramos exemplos de consultas que podem ser usadas ao analisar perfis de dados. Para executar essas consultas, acesse Como executar consultas interativas.

Nos exemplos a seguir, substitua TABLE_OR_VIEW por um dos seguintes:

  • O nome da tabela de saída, que é a tabela que contém os perfis de dados exportados, por exemplo, myproject.mydataset.table-profile.
  • O nome da visualização latest da tabela de saída, por exemplo, myproject.mydataset.table-profile_latest_v1.

Em ambos os casos, é preciso incluir o ID do projeto e o ID do conjunto de dados.

Para mais informações, consulte Escolher entre a tabela de saída e a visualização latest nesta página.

Para resolver qualquer erro, consulte Mensagens de erro.

Listar todas as colunas que têm uma alta pontuação de texto livre e evidências de outras correspondências de infoType

SELECT
  column_profile.table_full_resource,
  column_profile.COLUMN,
  other_matches.info_type.name,
  column_profile.profile_last_generated
FROM
   `TABLE_OR_VIEW`,
  UNNEST(column_profile.other_matches) AS other_matches
WHERE
  column_profile.free_text_score = 1
  AND ( column_profile.column_info_type.info_type.name>""
    OR ARRAY_LENGTH(column_profile.other_matches)>0 )

Para informações sobre como corrigir essas descobertas, consulte Alta pontuação de texto livre.

Para mais informações sobre as métricas Pontuação de texto livre e Outros infoTypes, consulte Perfis de dados da coluna.

Listar todas as tabelas que contêm uma coluna de números de cartão de crédito

SELECT
  column_profile.table_full_resource,
  column_profile.profile_last_generated
FROM
  `TABLE_OR_VIEW`
WHERE
  column_profile.column_info_type.info_type.name="CREDIT_CARD_NUMBER"

CREDIT_CARD_NUMBER é um InfoType integrado que representa um número de cartão de crédito.

Para informações sobre como corrigir essas descobertas, consulte Alto risco de dados.

Listar perfis de tabela que contenham colunas de números de cartão de crédito, números de CPF ou CNPJ dos EUA e nomes de pessoas

SELECT
  table_full_resource,
  COUNT(*) AS count_findings
FROM (
  SELECT
    DISTINCT column_profile.table_full_resource,
    column_profile.column_info_type.info_type.name
  FROM
    `TABLE_OR_VIEW`
  WHERE
    column_profile.column_info_type.info_type.name IN ('PERSON_NAME',
      'CREDIT_CARD_NUMBER',
      'US_SOCIAL_SECURITY_NUMBER')
  ORDER BY
    column_profile.table_full_resource ) ot1
GROUP BY
  table_full_resource
  #increase this number to match the total distinct infoTypes that must be present
HAVING
  count_findings>=3

Essa consulta usa os seguintes InfoTypes integrados:

  • CREDIT_CARD_NUMBER: representa um número de cartão de crédito.
  • PERSON_NAME: representa o nome completo de uma pessoa
  • US_SOCIAL_SECURITY_NUMBER representa um CPF ou CNPJ dos EUA

Para informações sobre como corrigir essas descobertas, consulte Alto risco de dados.

Trabalhar com perfis de dados no Looker Studio

Para visualizar os perfis de dados no Looker Studio, use um relatório predefinido ou crie um.

Usar um relatório predefinido

A proteção de dados sensíveis oferece um relatório predefinido do Looker Studio que destaca os insights avançados de perfis de dados. O painel de proteção de dados sensíveis é um relatório de várias páginas que oferece uma visualização rápida e de alto nível dos seus perfis de dados, incluindo detalhamentos por risco, por infoType e por local. Explore as outras guias para conferir as visualizações por região geográfica e risco de posição ou detalhe métricas específicas. Você pode usar esse relatório pronto no estado em que se encontra ou personalizá-lo conforme necessário. Essa é a versão recomendada do relatório predefinido.

Para visualizar o relatório predefinido com seus dados, insira os valores necessários no URL a seguir. Em seguida, copie o URL resultante no navegador.

https://lookerstudio.google.com/c/u/0/reporting/create?c.reportId=c9826374-e016-4c96-a495-7281328375c6&ds.connector=BIG_QUERY&ds.projectId=PROJECT_ID&ds.datasetId=DATASET_ID&ds.tableId=TABLE_OR_VIEW&ds.type=TABLE&ds.useFreshSchema=false

Substitua:

  • PROJECT_ID: o projeto que contém a tabela de saída.
  • DATASET_ID: o conjunto de dados que contém a tabela de saída.
  • TABLE_OR_VIEW: uma das seguintes opções:

    • O nome da tabela de saída, que é a tabela que contém os perfis de dados exportados, por exemplo, myproject.mydataset.table-profile.
    • O nome da visualização latest da tabela de saída, por exemplo, myproject.mydataset.table-profile_latest_v1.

    Para mais informações, consulte Escolher entre a tabela de saída e a visualização latest nesta página.

Pode levar alguns minutos para o Looker Studio carregar o relatório com seus dados.

No exemplo a seguir, o painel mostra que os dados de baixa e alta sensibilidade estão presentes em vários países ao redor do mundo.

Relatório predefinido

Versão anterior do relatório predefinido

A primeira versão do relatório predefinido ainda está disponível no seguinte endereço:

https://lookerstudio.google.com/c/u/0/reporting/create?c.reportId=907a2b73-ffe4-40b2-b9a1-c2aa0bbd69fd&ds.connector=BIG_QUERY&ds.projectId=PROJECT_ID&ds.datasetId=DATASET_ID&ds.tableId=TABLE_OR_VIEW&ds.type=TABLE&ds.useFreshSchema=false

crie um relatório

Looker Studio: permite criar relatórios interativos. Nesta seção, você cria um relatório de tabela simples no Looker Studio com base nos perfis de dados exportados para sua tabela de saída no BigQuery.

Verifique se você tem os ID do projeto, ID conjunto de dados e da tabela da tabela de saída ou da visualização latest prontamente disponíveis. Você precisa que eles realizem este procedimento.

Neste exemplo, mostramos como criar um relatório com uma tabela que mostra cada infoType informado nos seus perfis de dados e a frequência correspondente.

Em geral, são cobrados os custos de uso do BigQuery ao acessar o BigQuery pelo Looker Studio. Saiba mais em Como visualizar dados do BigQuery com o Looker Studio.

Para criar um relatório, faça o seguinte:

  1. Abra o Looker Studio e faça login.
  2. Clique em Relatório em branco.
  3. Na guia Conectar aos dados, clique no cartão do BigQuery.
  4. Se solicitado, autorize o Looker Studio a acessar seus projetos do BigQuery.
  5. Conecte-se aos seus dados do BigQuery:

    1. Em Projeto, selecione o projeto que contém a tabela de saída. Você pode pesquisar o projeto nas guias Projetos recentes, Meus projetos e Projetos compartilhados.
    2. Em Conjunto de dados, selecione o conjunto que contém a tabela de saída.
    3. Em Tabela, selecione a tabela de saída ou a visualização latest da tabela de saída.

      Para mais informações, consulte Escolher entre a tabela de saída e a visualização latest nesta página.

    4. Clique em Add.

    5. Na caixa de diálogo exibida, clique em Adicionar ao relatório.

      Um relatório é criado. Será exibida uma tabela com os perfis de dados e as contagens de registros correspondentes.

  6. Para adicionar uma tabela que mostra cada infoType informado e a frequência correspondente (contagem de registros), siga estas etapas:

    1. Clique em Adicionar um gráfico.
    2. Selecione um estilo de tabela.
    3. Clique na área onde você quer posicionar o gráfico.

      O gráfico é exibido no formato de tabela.

    4. Redimensione a tabela conforme necessário.

      Enquanto a tabela estiver selecionada, as propriedades dela aparecem no painel Gráfico > Tabela.

    5. No painel Gráfico > Tabela, na guia Dados, no campo Dimensão, remova a dimensão atual.

    6. Clique em Adicionar dimensão.

    7. Pesquise e selecione a column_profile.column_info_type.info_type.name.

    A tabela resultante será semelhante a esta:

    Uma tabela mostrando os infoTypes detectados e as frequências
correspondentes

Saiba mais sobre tabelas no Looker Studio.

A seguir

Saiba mais sobre as ações que podem ser tomadas para remediate as descobertas do perfil de dados.