O Cloud Data Loss Prevention (Cloud DLP) agora faz parte da Proteção de dados confidenciais. O nome da API continua o mesmo: API Cloud Data Loss Prevention (API DLP). Saiba mais sobre os serviços que fazem parte da Proteção de dados confidenciais.

Como medir o risco de reidentificação e divulgação

A análise de risco de reidentificação, ou apenas análise de risco, é o processo de analisar dados confidenciais para encontrar propriedades que possam aumentar o risco de algo ser identificado. É possível usar métodos de análise de risco antes da desidentificação para ajudar a determinar alguma estratégia eficaz ou após ela para monitorar quaisquer alterações ou outliers.

A proteção de dados confidenciais pode calcular quatro métricas de risco de reidentificação: k-anonimato, l-diversidade, k-mapa e Anchor-presença. Se não estiver familiarizado com a análise de risco ou com alguma das métricas, consulte o tópico sobre o conceito de análise de risco antes de continuar.

Nesta seção, apresentamos visões gerais de como usar a proteção de dados sensíveis para análise de risco de dados estruturados usando qualquer uma dessas métricas, além de outros tópicos relacionados.

Calcular o risco de reidentificação

A proteção de dados sensíveis pode analisar os dados estruturados armazenados em tabelas do BigQuery e calcular as seguintes métricas de risco de reidentificação. Clique no link da métrica que você quer calcular para saber mais.

Métrica	Descrição
k-anonimato	Uma propriedade de um conjunto de dados que indica a capacidade de reidentificação de seus registros. Um conjunto de dados é k-anônimo quando os semi-dentificadores de cada pessoa contida nele são idênticos a uma quantidade de, no mínimo, k – 1 pessoa no conjunto.
l-diversidade	Uma extensão de kanonimato que mede a diversidade de valores confidenciais para cada coluna em que eles ocorrem. Um conjunto de dados terá l-diversidade quando, para cada conjunto de linhas com semi-identificadores idênticos, houver pelo menos valores distintos de l para cada atributo confidencial.
k-mapa	Calcula o risco de capacidade de reidentificação comparando determinado conjunto de dados desidentificados de indivíduos com um conjunto de reidentificação maior (ou "ataque").
δ-presença	Estima a probabilidade de um determinado usuário em uma população maior estar presente no conjunto de dados. É usada quando a associação ao conjunto de dados são as próprias informações confidenciais.

Calcular outras estatísticas

A proteção de dados sensíveis também pode calcular estatísticas numéricas e categóricas para dados armazenados em tabelas do BigQuery usando o mesmo recurso DlpJob que as APIs de análise de risco.

Métrica	Descrição
Estatísticas numéricas	Determina os valores mínimo, máximo e quantil de uma coluna individual do BigQuery.
Estatísticas numéricas categóricas	Calcula estatísticas numéricas categóricas para buckets individuais do histograma em uma coluna do BigQuery.

Para mais informações, consulte Como calcular estatísticas numéricas e categóricas.

Visualizar o risco de reidentificação

É possível visualizar as métricas de risco que a proteção de dados sensíveis calcula diretamente no console do Google Cloud usando a proteção de dados sensíveis (k-anonimato ou l-diversidade) ou outros produtos do Google Cloud.

Product	Descrição
Looker Studio	Depois de calcular os valores de k-anonimato para um conjunto de dados usando a proteção de dados sensíveis, confira os resultados no Looker Studio. Isso permitirá que você entenda melhor os riscos de reidentificação e ajudará a avaliar as vantagens e desvantagens de editar ou desidentificar os dados em termos de utilidade.