A análise de risco de reidentificação, ou apenas análise de risco, é o processo de analisar dados confidenciais para encontrar propriedades que possam aumentar o risco de algo ser identificado. É possível usar métodos de análise de risco antes da desidentificação para ajudar a determinar alguma estratégia eficaz ou após ela para monitorar quaisquer alterações ou outliers.
A proteção de dados confidenciais pode calcular quatro métricas de risco de reidentificação: k-anonimato, l-diversidade, k-mapa e Anchor-presença. Se não estiver familiarizado com a análise de risco ou com alguma das métricas, consulte o tópico sobre o conceito de análise de risco antes de continuar.
Nesta seção, apresentamos visões gerais de como usar a proteção de dados sensíveis para análise de risco de dados estruturados usando qualquer uma dessas métricas, além de outros tópicos relacionados.
Calcular o risco de reidentificação
A proteção de dados sensíveis pode analisar os dados estruturados armazenados em tabelas do BigQuery e calcular as seguintes métricas de risco de reidentificação. Clique no link da métrica que você quer calcular para saber mais.
Métrica | Descrição |
---|---|
k-anonimato | Uma propriedade de um conjunto de dados que indica a capacidade de reidentificação de seus registros. Um conjunto de dados é k-anônimo quando os semi-dentificadores de cada pessoa contida nele são idênticos a uma quantidade de, no mínimo, k – 1 pessoa no conjunto. |
l-diversidade | Uma extensão de kanonimato que mede a diversidade de valores confidenciais para cada coluna em que eles ocorrem. Um conjunto de dados terá l-diversidade quando, para cada conjunto de linhas com semi-identificadores idênticos, houver pelo menos valores distintos de l para cada atributo confidencial. |
k-mapa | Calcula o risco de capacidade de reidentificação comparando determinado conjunto de dados desidentificados de indivíduos com um conjunto de reidentificação maior (ou "ataque"). |
δ-presença | Estima a probabilidade de um determinado usuário em uma população maior estar presente no conjunto de dados. É usada quando a associação ao conjunto de dados são as próprias informações confidenciais. |
Calcular outras estatísticas
A proteção de dados sensíveis também pode calcular estatísticas numéricas e categóricas para dados armazenados em tabelas do BigQuery usando o mesmo recurso DlpJob
que as APIs de análise de risco.
Métrica | Descrição |
---|---|
Estatísticas numéricas | Determina os valores mínimo, máximo e quantil de uma coluna individual do BigQuery. |
Estatísticas numéricas categóricas | Calcula estatísticas numéricas categóricas para buckets individuais do histograma em uma coluna do BigQuery. |
Para mais informações, consulte Como calcular estatísticas numéricas e categóricas.
Visualizar o risco de reidentificação
É possível visualizar as métricas de risco que a proteção de dados sensíveis calcula diretamente no console do Google Cloud usando a proteção de dados sensíveis (k-anonimato ou l-diversidade) ou outros produtos do Google Cloud.
Product | Descrição |
---|---|
Looker Studio | Depois de calcular os valores de k-anonimato para um conjunto de dados usando a proteção de dados sensíveis, confira os resultados no Looker Studio. Isso permitirá que você entenda melhor os riscos de reidentificação e ajudará a avaliar as vantagens e desvantagens de editar ou desidentificar os dados em termos de utilidade. |