A análise de risco de reidentificação, ou apenas análise de risco, é o processo de analisar dados confidenciais para encontrar propriedades que possam aumentar o risco de identificação dos sujeitos. Pode usar métodos de análise de risco antes da anulação da identificação para ajudar a determinar uma estratégia de anulação da identificação eficaz ou depois da anulação da identificação para monitorizar quaisquer alterações ou valores atípicos.
A proteção de dados confidenciais pode calcular quatro métricas de risco de reidentificação: k-anonimato, l-diversidade, k-mapa e δ-presença. Se não conhecer a análise de risco nem estas métricas, consulte o tópico conceito de análise de risco antes de continuar.
Esta secção fornece vistas gerais de como usar a proteção de dados confidenciais para a análise de riscos de dados estruturados usando qualquer uma destas métricas, além de outros tópicos relacionados.
Calcule o risco de reidentificação
A Proteção de dados confidenciais pode analisar os seus dados estruturados armazenados em tabelas do BigQuery e calcular as seguintes métricas de risco de reidentificação. Clique no link da métrica que quer calcular para saber mais.
Métrica | Descrição |
---|---|
k-anonimato | Uma propriedade de um conjunto de dados que indica a possibilidade de reidentificação dos respetivos registos. Um conjunto de dados é k-anónimo se os identificadores quase diretos de cada pessoa no conjunto de dados forem idênticos aos de, pelo menos, k – 1 outras pessoas também no conjunto de dados. |
l-diversidade | Uma extensão da k-anonimidade que mede adicionalmente a diversidade dos valores confidenciais para cada coluna em que ocorrem. Um conjunto de dados tem l-diversidade se, para cada conjunto de linhas com identificadores quase idênticos, existirem, pelo menos, l valores distintos para cada atributo sensível. |
k-map | Calcula o risco de reidentificação comparando um determinado conjunto de dados anonimizado de indivíduos com um conjunto de dados de reidentificação, ou "ataque", maior. |
δ-presence | Estima a probabilidade de um determinado utilizador numa população maior estar presente no conjunto de dados. Isto é usado quando a associação ao conjunto de dados é, em si, informação sensível. |
Calcule outras estatísticas
A Proteção de dados confidenciais também pode calcular estatísticas numéricas e categóricas para dados armazenados em tabelas do BigQuery através do mesmo recurso DlpJob
que as APIs de análise de riscos.
Métrica | Descrição |
---|---|
Estatísticas numéricas | Determina os valores mínimo, máximo e de quantil para uma coluna do BigQuery individual. |
Estatísticas numéricas categóricas | Calcula estatísticas numéricas categóricas para os intervalos do histograma individuais numa coluna do BigQuery. |
Para mais informações, consulte o artigo Calcular estatísticas numéricas e categóricas.
Visualize o risco de reidentificação
Pode visualizar as métricas de risco que a Proteção de dados confidenciais calcula diretamente na Google Cloud consola através da Proteção de dados confidenciais (k-anonimato ou l-diversidade) ou através de outrosGoogle Cloud produtos.
Produto | Descrição |
---|---|
Looker Studio | Depois de calcular os valores de k-anonimato para um conjunto de dados através da proteção de dados confidenciais, pode visualizar os resultados no Looker Studio. Ao fazê-lo, também pode compreender melhor o risco de reidentificação e ajudar a avaliar as concessões na utilidade que pode estar a fazer se ocultar ou desidentificar dados. |