A L-diversidade é uma propriedade de um conjunto de dados e uma extensão da k-anonimidade que mede a diversidade dos valores confidenciais para cada coluna em que ocorrem. Um conjunto de dados tem l-diversidade se, para cada conjunto de linhas com identificadores quase idênticos, existirem, pelo menos, l valores distintos para cada atributo sensível.
Pode calcular o valor de l-diversidade com base numa ou mais colunas ou campos de um conjunto de dados. Este tópico demonstra como calcular valores de l-diversidade para um conjunto de dados usando a proteção de dados confidenciais. Para mais informações sobre a diversidade l ou a análise de risco em geral, consulte o tópico do conceito de análise de risco antes de continuar.
Antes de começar
Antes de continuar, certifique-se de que fez o seguinte:
- Inicie sessão na sua Conta Google.
- Na Google Cloud consola, na página do seletor de projetos, selecione ou crie um Google Cloud projeto. Aceda ao seletor de projetos
- Certifique-se de que a faturação está ativada para o seu Google Cloud projeto. Saiba como confirmar se a faturação está ativada para o seu projeto.
- Ative a proteção de dados confidenciais. Ative a proteção de dados confidenciais
- Selecione um conjunto de dados do BigQuery para analisar. A proteção de dados confidenciais calcula a métrica de l-diversidade através da análise de uma tabela do BigQuery.
- Determine um identificador de campo sensível (se aplicável) e, pelo menos, um quase identificador no conjunto de dados. Para mais informações, consulte os Termos e técnicas de análise de riscos.
Calcule a l-diversidade
A proteção de dados confidenciais realiza uma análise de risco sempre que uma tarefa de análise de risco é executada. Primeiro, tem de criar a tarefa através daGoogle Cloud consola, enviando um pedido da API DLP ou usando uma biblioteca cliente da Proteção de dados confidenciais.
Consola
Na Google Cloud consola, aceda à página Criar análise de risco.
Na secção Escolher dados de entrada, especifique a tabela do BigQuery a analisar introduzindo o ID do projeto do projeto que contém a tabela, o ID do conjunto de dados da tabela e o nome da tabela.
Em Métrica de privacidade a calcular, selecione l-diversidade.
Na secção ID da tarefa, pode, opcionalmente, atribuir um identificador personalizado à tarefa e selecionar uma localização de recursos na qual a Proteção de dados confidenciais processará os seus dados. Quando terminar, clique em Continuar.
Na secção Definir campos, especifica campos confidenciais e quase identificadores para a tarefa de risco de l-diversidade. A Proteção de dados confidenciais acede aos metadados da tabela do BigQuery que especificou no passo anterior e tenta preencher a lista de campos.
- Selecione a caixa de verificação adequada para especificar um campo como um campo sensível (S) ou um quase identificador (QI). Tem de selecionar 1 campo sensível e, pelo menos, 1 quase identificador.
- Se a proteção de dados confidenciais não conseguir preencher os campos, clique em Introduzir nome do campo para introduzir manualmente um ou mais campos e definir cada um como campo confidencial ou quase identificador. Quando terminar, clique em Continuar.
Na secção Adicionar ações, pode adicionar ações opcionais a realizar quando a tarefa de risco estiver concluída. As opções disponíveis são:
- Guardar no BigQuery: guarda os resultados da análise de risco numa tabela do BigQuery.
Publicar no Pub/Sub: publica uma notificação num tópico do Pub/Sub.
Notificar por email: envia-lhe um email com os resultados. Quando terminar, clique em Criar.
A tarefa de análise de risco de l-diversidade começa imediatamente.
C#
Para saber como instalar e usar a biblioteca cliente para a Proteção de dados confidenciais, consulte o artigo Bibliotecas cliente da Proteção de dados confidenciais.
Para se autenticar na Proteção de dados confidenciais, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Go
Para saber como instalar e usar a biblioteca cliente para a Proteção de dados confidenciais, consulte o artigo Bibliotecas cliente da Proteção de dados confidenciais.
Para se autenticar na Proteção de dados confidenciais, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Java
Para saber como instalar e usar a biblioteca cliente para a Proteção de dados confidenciais, consulte o artigo Bibliotecas cliente da Proteção de dados confidenciais.
Para se autenticar na Proteção de dados confidenciais, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Node.js
Para saber como instalar e usar a biblioteca cliente para a Proteção de dados confidenciais, consulte o artigo Bibliotecas cliente da Proteção de dados confidenciais.
Para se autenticar na Proteção de dados confidenciais, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
PHP
Para saber como instalar e usar a biblioteca cliente para a Proteção de dados confidenciais, consulte o artigo Bibliotecas cliente da Proteção de dados confidenciais.
Para se autenticar na Proteção de dados confidenciais, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Python
Para saber como instalar e usar a biblioteca cliente para a Proteção de dados confidenciais, consulte o artigo Bibliotecas cliente da Proteção de dados confidenciais.
Para se autenticar na Proteção de dados confidenciais, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
REST
Para executar uma nova tarefa de análise de risco para calcular a diversidade l, envie um pedido para o recurso projects.dlpJobs
, em que PROJECT_ID indica o identificador do seu projeto:
https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs
O pedido contém um objeto
RiskAnalysisJobConfig
composto pelo seguinte:
Um
PrivacyMetric
objeto. É aqui que especifica que está a calcular a l-diversidade incluindo um objetoLDiversityConfig
.Um objeto
BigQueryTable
. Especifique a tabela do BigQuery a analisar incluindo todos os seguintes elementos:projectId
: o ID do projeto que contém a tabela.datasetId
: o ID do conjunto de dados da tabela.tableId
: o nome da tabela.
Um conjunto de um ou mais objetos
Action
que representam ações a executar, na ordem indicada, após a conclusão da tarefa. Cada objetoAction
pode conter uma das seguintes ações:SaveFindings
object: guarda os resultados da análise de risco numa tabela do BigQuery.PublishToPubSub
object: Publica uma notificação num tópico do Pub/Sub.JobNotificationEmails
object: envia-lhe um email com os resultados.
No objeto
LDiversityConfig
, especifica o seguinte:quasiIds[]
: um conjunto de quase identificadores (FieldId
objetos) que indicam como as classes de equivalência são definidas para o cálculo da l-diversidade. Tal como acontece comKAnonymityConfig
, quando especifica vários campos, estes são considerados uma única chave composta.sensitiveAttribute
: campo sensível (FieldId
objeto) para calcular o valor de l-diversidade.
Assim que envia um pedido para a API DLP, esta inicia a tarefa de análise de risco.
Apresente as tarefas de análise de risco concluídas
Pode ver uma lista das tarefas de análise de risco que foram executadas no projeto atual.
Consola
Para listar tarefas de análise de risco em execução e executadas anteriormente na Google Cloud consola, faça o seguinte:
Na Google Cloud consola, abra a Proteção de dados confidenciais.
Clique no separador Tarefas e acionadores de tarefas na parte superior da página.
Clique no separador Tarefas de risco.
É apresentada a oferta de emprego de risco.
Protocolo
Para apresentar uma lista de tarefas de análise de risco em execução e executadas anteriormente, envie um pedido GET para o recurso projects.dlpJobs
. Adicionar um filtro de tipo de tarefa (?type=RISK_ANALYSIS_JOB
) restringe a resposta apenas a tarefas de análise de risco.
https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs?type=RISK_ANALYSIS_JOB
A resposta que recebe contém uma representação JSON de todas as tarefas de análise de risco atuais e anteriores.
Veja resultados de trabalhos com l-diversidade
A proteção de dados confidenciais na Google Cloud consola inclui visualizações incorporadas para tarefas de l-diversidade concluídas. Depois de seguir as instruções na secção anterior, na ficha da tarefa de análise de risco, selecione a tarefa para a qual quer ver os resultados. Supondo que a tarefa foi executada com êxito, a parte superior da página Detalhes da análise de risco tem o seguinte aspeto:
Na parte superior da página, encontram-se informações sobre a tarefa de risco de l-diversidade, incluindo o respetivo ID da tarefa e, em Recipiente, a respetiva localização do recurso.
Para ver os resultados do cálculo da l-diversidade, clique no separador L-diversidade. Para ver a configuração da tarefa de análise de risco, clique no separador Configuração.
O separador L-diversidade apresenta primeiro o valor sensível e os quasi-identificadores usados para calcular a l-diversidade.
Gráfico de risco
O gráfico Risco de reidentificação representa, no eixo y, a percentagem potencial de perda de dados para linhas únicas e combinações de quase identificadores únicos para alcançar, no eixo x, um valor de l-diversidade. A cor do gráfico também indica o potencial de risco. As tonalidades mais escuras de azul indicam um risco mais elevado, enquanto as tonalidades mais claras indicam um risco menor.
Os valores de l-diversidade mais elevados indicam uma menor diversidade de valores, o que pode tornar um conjunto de dados menos reidentificável e mais seguro. No entanto, para alcançar valores de l-diversidade mais elevados, teria de remover percentagens mais elevadas do total de linhas e combinações de quase identificadores únicos mais elevadas, o que pode diminuir a utilidade dos dados. Para ver um valor percentual de perda potencial específico para um determinado valor de l-diversidade, passe o cursor do rato sobre o gráfico. Conforme mostrado na captura de ecrã, é apresentada uma sugestão no gráfico.
Para ver mais detalhes sobre um valor de l-diversidade específico, clique no ponto de dados correspondente. É apresentada uma explicação detalhada abaixo do gráfico e uma tabela de dados de exemplo mais abaixo na página.
Tabela de dados de amostra de risco
O segundo componente da página de resultados da tarefa de risco é a tabela de dados de exemplo. Apresenta combinações de quase identificadores para um determinado valor de l-diversidade.
A primeira coluna da tabela apresenta os valores de anonimato k. Clique num valor de l-diversidade para ver os dados de amostra correspondentes que teriam de ser ignorados para alcançar esse valor.
A segunda coluna apresenta a potencial perda de dados respetiva de linhas únicas e combinações de quase identificadores para alcançar o valor de l-diversidade selecionado, bem como o número de grupos com, pelo menos, l atributos confidenciais e o número total de registos.
A última coluna apresenta uma amostra de grupos que partilham uma combinação de quase identificadores, juntamente com o número de registos existentes para essa combinação.
Obtenha detalhes de tarefas através de REST
Para obter os resultados da tarefa de análise de risco de diversidade l através da API REST, envie o seguinte pedido GET para o recurso projects.dlpJobs
. Substitua PROJECT_ID pelo ID do projeto e JOB_ID pelo identificador da tarefa para a qual quer obter resultados.
O ID da tarefa foi devolvido quando iniciou a tarefa e também pode ser obtido através da
listagem de todas as tarefas.
GET https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs/JOB_ID
O pedido devolve um objeto JSON que contém uma instância da tarefa. Os resultados
da análise encontram-se na chave "riskDetails"
, num
objeto AnalyzeDataSourceRiskDetails
. Para mais informações, consulte a referência da API para o recurso
DlpJob
.
O que se segue?
- Saiba como calcular o valor de k-anonimato para um conjunto de dados.
- Saiba como calcular o valor do mapa k para um conjunto de dados.
- Saiba como calcular o valor de δ-presença para um conjunto de dados.