Medir o risco de reidentificação e divulgação

A análise de risco de reidentificação, ou apenas análise de risco, é o processo de analisar dados confidenciais para encontrar propriedades que possam aumentar o risco de identificação dos sujeitos. Pode usar métodos de análise de risco antes da anulação da identificação para ajudar a determinar uma estratégia de anulação da identificação eficaz ou depois da anulação da identificação para monitorizar quaisquer alterações ou valores atípicos.

A proteção de dados confidenciais pode calcular quatro métricas de risco de reidentificação: k-anonimato, l-diversidade, k-mapa e δ-presença. Se não conhecer a análise de risco nem estas métricas, consulte o tópico conceito de análise de risco antes de continuar.

Esta secção fornece vistas gerais de como usar a proteção de dados confidenciais para a análise de riscos de dados estruturados usando qualquer uma destas métricas, além de outros tópicos relacionados.

Calcule o risco de reidentificação

A Proteção de dados confidenciais pode analisar os seus dados estruturados armazenados em tabelas do BigQuery e calcular as seguintes métricas de risco de reidentificação. Clique no link da métrica que quer calcular para saber mais.

Métrica Descrição
k-anonimato Uma propriedade de um conjunto de dados que indica a possibilidade de reidentificação dos respetivos registos. Um conjunto de dados é k-anónimo se os identificadores quase diretos de cada pessoa no conjunto de dados forem idênticos aos de, pelo menos, k – 1 outras pessoas também no conjunto de dados.
l-diversidade Uma extensão da k-anonimidade que mede adicionalmente a diversidade dos valores confidenciais para cada coluna em que ocorrem. Um conjunto de dados tem l-diversidade se, para cada conjunto de linhas com identificadores quase idênticos, existirem, pelo menos, l valores distintos para cada atributo sensível.
k-map Calcula o risco de reidentificação comparando um determinado conjunto de dados anonimizado de indivíduos com um conjunto de dados de reidentificação, ou "ataque", maior.
δ-presence Estima a probabilidade de um determinado utilizador numa população maior estar presente no conjunto de dados. Isto é usado quando a associação ao conjunto de dados é, em si, informação sensível.

Calcule outras estatísticas

A Proteção de dados confidenciais também pode calcular estatísticas numéricas e categóricas para dados armazenados em tabelas do BigQuery através do mesmo recurso DlpJob que as APIs de análise de riscos.

Métrica Descrição
Estatísticas numéricas Determina os valores mínimo, máximo e de quantil para uma coluna do BigQuery individual.
Estatísticas numéricas categóricas Calcula estatísticas numéricas categóricas para os intervalos do histograma individuais numa coluna do BigQuery.

Para mais informações, consulte o artigo Calcular estatísticas numéricas e categóricas.

Visualize o risco de reidentificação

Pode visualizar as métricas de risco que a Proteção de dados confidenciais calcula diretamente na Google Cloud consola através da Proteção de dados confidenciais (k-anonimato ou l-diversidade) ou através de outrosGoogle Cloud produtos.

Produto Descrição
Looker Studio Depois de calcular os valores de k-anonimato para um conjunto de dados através da proteção de dados confidenciais, pode visualizar os resultados no Looker Studio. Ao fazê-lo, também pode compreender melhor o risco de reidentificação e ajudar a avaliar as concessões na utilidade que pode estar a fazer se ocultar ou desidentificar dados.