Como medir o risco de reidentificação e divulgação

A análise de risco de reidentificação, ou apenas análise de risco, é o processo de analisar dados confidenciais para encontrar propriedades que possam aumentar o risco de algo ser identificado. É possível usar métodos de análise de risco antes da desidentificação para ajudar a determinar alguma estratégia eficaz ou após ela para monitorar quaisquer alterações ou outliers.

A Proteção de dados sensíveis pode calcular quatro métricas de risco de reidentificação: k-anonimato, l-diversidade, k-mapa e δ-presença. Se não estiver familiarizado com a análise de risco ou com alguma das métricas, consulte o tópico sobre o conceito de análise de risco antes de continuar.

Esta seção fornece informações gerais sobre como usar a Proteção de dados sensíveis para análise de risco de dados estruturados usando qualquer uma dessas métricas, além de outros tópicos relacionados.

Calcular o risco de reidentificação

A Proteção de dados sensíveis pode analisar seus dados estruturados armazenados em tabelas do BigQuery e calcular as seguintes métricas de risco de reidentificação. Clique no link da métrica que você quer calcular para saber mais.

Métrica Descrição
k-anonimato Uma propriedade de um conjunto de dados que indica a capacidade de reidentificação de seus registros. Um conjunto de dados é k-anônimo quando os semi-dentificadores de cada pessoa contida nele são idênticos a uma quantidade de, no mínimo, k – 1 pessoa no conjunto.
l-diversidade Uma extensão de kanonimato que mede a diversidade de valores confidenciais para cada coluna em que eles ocorrem. Um conjunto de dados terá l-diversidade quando, para cada conjunto de linhas com semi-identificadores idênticos, houver pelo menos valores distintos de l para cada atributo confidencial.
k-mapa Calcula o risco de capacidade de reidentificação comparando determinado conjunto de dados desidentificados de indivíduos com um conjunto de reidentificação maior (ou "ataque").
δ-presença Estima a probabilidade de um determinado usuário em uma população maior estar presente no conjunto de dados. É usada quando a associação ao conjunto de dados são as próprias informações confidenciais.

Calcular outras estatísticas

A Proteção de dados sensíveis também pode calcular estatísticas numéricas e categóricas para dados armazenados em tabelas do BigQuery usando o mesmo recurso DlpJob das APIs de análise de risco.

Métrica Descrição
Estatísticas numéricas Determina os valores mínimo, máximo e quantil de uma coluna individual do BigQuery.
Estatísticas numéricas categóricas Calcula estatísticas numéricas categóricas para buckets individuais do histograma em uma coluna do BigQuery.

Para mais informações, consulte Como calcular estatísticas numéricas e categóricas.

Visualizar o risco de reidentificação

É possível visualizar as métricas de risco que a Proteção de dados sensíveis calcula diretamente no console Google Cloud usando a Proteção de dados sensíveis (k-anonimato ou l-diversidade) ou outros Google Cloud .

Produto Descrição
Looker Studio Depois de calcular os valores de k-anonimato em um conjunto de dados usando a Proteção de dados sensíveis, você pode visualizar os resultados no Looker Studio. Isso permitirá que você entenda melhor os riscos de reidentificação e ajudará a avaliar as vantagens e desvantagens de editar ou desidentificar os dados em termos de utilidade.