L-diversidade é uma propriedade de um conjunto de dados e uma extensão de k-anonimato que mede a diversidade de valores confidenciais para cada coluna em que ocorrem. Um conjunto de dados terá l-diversidade quando, para cada conjunto de linhas com semi-identificadores idênticos, houver pelo menos l valores distintos para cada atributo confidencial.
É possível calcular o valor de l-diversidade com base em uma ou mais colunas ou campos de um conjunto de dados. Neste tópico, demonstramos como calcular valores de l-diversidade para um conjunto de dados usando a proteção de dados sensíveis. Para mais informações sobre l-diversidade ou análise de risco em geral, consulte o tópico sobre o conceito de análise de risco antes de continuar.
Antes de começar
Antes de continuar, faça o seguinte:
- Faça login na sua Conta do Google.
- No console do Google Cloud, na página do seletor de projetos, escolha ou crie um projeto do Google Cloud. Acessar o seletor de projetos
- Verifique se a cobrança está ativada para o seu projeto do Google Cloud. Saiba como confirmar se a cobrança está ativada para seu projeto.
- Ative a proteção de dados sensíveis. Ative a proteção de dados sensíveis
- Selecione um conjunto de dados do BigQuery para a análise. A proteção de dados sensíveis calcula a métrica l-diversidade verificando uma tabela do BigQuery.
- Determine um identificador de campo confidencial (se aplicável) e pelo menos um quase identificador no conjunto de dados. Para mais informações, consulte Termos e técnicas de análise de risco.
Calcular o l-diversidade
A proteção de dados sensíveis realiza análises de risco sempre que um job de análise de risco é executado. É necessário criar o job primeiro usando o Console do Google Cloud, enviando uma solicitação da API DLP ou usando uma biblioteca de cliente de proteção de dados confidenciais.
Console
No console do Google Cloud, acesse a página Criar análise de risco.
Na seção Escolher dados de entrada, especifique a tabela do BigQuery a ser verificada. Para isso, insira o ID do projeto do projeto que contém a tabela, o ID do conjunto de dados da tabela e o nome da tabela.
Em Métrica de privacidade a calcular, selecione l-diversidade.
Na seção ID do job, é possível atribuir ao job um identificador personalizado e selecionar um local de recurso em que a proteção de dados sensíveis vai processar seus dados. Quando terminar, clique em Continuar.
Na seção Definir campos, especifique campos confidenciais e semi-identificadores para o job de risco l-diversidade. A proteção de dados sensíveis acessa os metadados da tabela do BigQuery especificada na etapa anterior e tenta preencher a lista de campos.
- Marque a caixa de seleção apropriada para especificar um campo como confidencial (S) ou semi-identificador (QI). Você precisa selecionar um campo confidencial e pelo menos um semi-identificador.
- Se a proteção de dados sensíveis não conseguir preencher os campos, clique em Inserir nome do campo para inserir manualmente um ou mais campos e definir cada um como campo confidencial ou semi-identificador. Quando terminar, clique em Continuar.
Na seção Adicionar ações, é possível adicionar ações opcionais que serão realizadas quando o job de risco for concluído. As opções disponíveis são estas:
- Salvar no BigQuery: salva os resultados da verificação de análise de risco em uma tabela do BigQuery.
Publicar no Pub/Sub: publica uma notificação em um tópico do Pub/Sub.
Notificar por e-mail: envia um e-mail com resultados. Quando terminar, clique em Criar.
O job de análise de risco de l-diversidade começa imediatamente.
C#
Para saber como instalar e usar a biblioteca de cliente para proteção de dados sensíveis, consulte Bibliotecas de cliente de proteção de dados sensíveis.
Para usar a proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Go
Para saber como instalar e usar a biblioteca de cliente para proteção de dados sensíveis, consulte Bibliotecas de cliente de proteção de dados sensíveis.
Para usar a proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Java
Para saber como instalar e usar a biblioteca de cliente para proteção de dados sensíveis, consulte Bibliotecas de cliente de proteção de dados sensíveis.
Para usar a proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Para saber como instalar e usar a biblioteca de cliente para proteção de dados sensíveis, consulte Bibliotecas de cliente de proteção de dados sensíveis.
Para usar a proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
PHP
Para saber como instalar e usar a biblioteca de cliente para proteção de dados sensíveis, consulte Bibliotecas de cliente de proteção de dados sensíveis.
Para usar a proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Para saber como instalar e usar a biblioteca de cliente para proteção de dados sensíveis, consulte Bibliotecas de cliente de proteção de dados sensíveis.
Para usar a proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
REST
Para executar um novo job de análise de risco para calcular o l-diversity, envie uma
solicitação para o recurso projects.dlpJobs
,
em que PROJECT_ID indica seu identificador
do projeto:
https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs
A solicitação contém um
objeto RiskAnalysisJobConfig
,
composto de:
Um objeto
PrivacyMetric
É aqui que você especifica que está calculando l-diversidade ao incluir um objetoLDiversityConfig
.Um objeto
BigQueryTable
. Inclua todos os itens a seguir para especificar a tabela do BigQuery que será verificada:projectId
: o ID do projeto que contém a tabela.datasetId
: o ID do conjunto de dados da tabela.tableId
: o nome da tabela.
Um conjunto de um ou mais objetos
Action
, que representam ações a serem executadas, na ordem indicada, na conclusão do job. Cada objetoAction
pode conter uma das seguintes ações:- Objeto
SaveFindings
: salva os resultados da verificação de análise de risco em uma tabela do BigQuery. Objeto
PublishToPubSub
: publica uma notificação em um tópico do Cloud Pub/Sub.Objeto
JobNotificationEmails
: envia um e-mail com os resultados.
No objeto
LDiversityConfig
, especifique o seguinte:quasiIds[]
: um conjunto de semi-identificadores (objetosFieldId
) que indicam como as classes de equivalência são definidas para o cálculo de l-diversidade. Assim como emKAnonymityConfig
, quando você especifica vários campos, eles são considerados uma única chave composta.sensitiveAttribute
: campo confidencial (objetoFieldId
) para calcular o valor de l-diversidade.
- Objeto
Assim que você envia uma solicitação para a API DLP, ela inicia o job de análise de risco.
Listar jobs de análise de risco concluídos
É possível visualizar uma lista dos jobs de análise de risco que foram executados no projeto atual.
Console
Para listar jobs de análise de risco em execução e anteriormente no console do Google Cloud, faça o seguinte:
No console do Google Cloud, abra a proteção de dados sensíveis.
Clique na guia Jobs e gatilhos de jobs na parte superior da página.
Clique na guia Jobs de risco.
A lista de vagas de risco é exibida.
Protocolo
Para listar jobs em execução e executados anteriormente, envie uma solicitação GET
ao recurso
projects.dlpJobs
.
A adição de um filtro de tipo de job (?type=RISK_ANALYSIS_JOB
) restringe a
resposta apenas aos jobs de análise de risco.
https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs?type=RISK_ANALYSIS_JOB
A resposta que você recebe contém uma representação JSON de todos os jobs de análise de risco atuais e anteriores.
Ver resultados do job de l-diversidade
A proteção de dados confidenciais no console do Google Cloud oferece visualizações integradas para jobs de l-diversidade concluídos. Depois de seguir as instruções da seção anterior, na lista de jobs de análise de risco, selecione o job com os resultados que você quer ver. Supondo que o job foi executado com sucesso, a parte superior da página Detalhes da análise de risco terá esta aparência:
Na parte superior da página, há informações sobre o job de risco do l-diversidade, incluindo o código da tarefa e, em Contêiner, o local do recurso.
Para visualizar os resultados do cálculo de l-diversidade, clique na guia L-diversidade. Para visualizar a configuração do job de análise de risco, clique na guia Configuração.
A guia L-diversidade lista primeiro o valor confidencial e os quase identificadores usados para calcular a l-diversidade.
Gráfico de risco
O gráfico de riso de reidentificação traça, no eixo y, a possível porcentagem de perda de dados em linhas únicas e combinações únicas de semi-identificadores para atingir, no eixo x, um valor de l-diversidade. A cor do gráfico também indica um potencial de risco. Os tons mais escuros de azul indicam riscos mais altos, enquanto tons mais claros indicam menos risco.
Valores de l-diversidade maiores indicam menos diversidade de valores, o que pode tornar um conjunto de dados menos reidentificado e mais seguro. No entanto, para ter valores de l-diversidade maiores, será necessário remover porcentagens maiores do total de linhas e de combinações de semi-identificadores exclusivos, o que pode diminuir a utilidade dos dados. Para ver um possível valor percentual específico de um determinado valor de l-diversidade, passe o cursor sobre o gráfico. Conforme mostrado na captura de tela, uma dica aparece no gráfico.
Para visualizar mais detalhes sobre um valor l-diversidade específico, clique no ponto de dados correspondente. Uma explicação detalhada é exibida abaixo do gráfico, e uma tabela de dados de amostra é exibida mais abaixo da página.
Tabela de dados de amostra de risco
O segundo componente para a página de resultados do job de risco é a tabela de dados de amostra. Ela exibe combinações de semi-identificadores para um determinado valor de l-diversidade.
A primeira coluna da tabela lista os valores de k-anonimato. Clique em um valor de l-diversidade para visualizar os dados de amostra correspondentes que precisariam ser descartados para atingir esse valor.
A segunda coluna exibe a possível perda de dados de linhas únicas e combinações de semi-identificadores para atingir o valor selecionado de l-diversidade, bem como o número de grupos com pelo menos l e o número total de registros.
A última coluna exibe uma amostra de grupos que compartilham uma combinação de semi-identificadores, junto com o número de registros atuais para essa combinação.
Recuperar detalhes do job usando REST
Para recuperar os resultados dol-diversidade usando o API
REST, envie a seguinte solicitação GET
para o
projects.dlpJobs
. Substitua PROJECT_ID pelo ID do projeto e
JOB_ID pelo identificador do job em que você quer receber os resultados.
O código da tarefa foi retornado quando você iniciou o job e também pode ser recuperado ao listar todos os jobs.
GET https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs/JOB_ID
A solicitação retorna um objeto JSON que contém uma instância do job. Os resultados
da análise estão dentro da chave "riskDetails"
, em um
objeto
AnalyzeDataSourceRiskDetails
. Para mais informações, consulte a referência da API do
recurso
DlpJob
.
A seguir
- Saiba como calcular o valor de k-anonimato para um conjunto de dados.
- Saiba como calcular o valor de k-mapa para um conjunto de dados.
- Aprenda a calcular o valor de δ-presença para um conjunto de dados.