Como calcular δ-presença de um conjunto de dados

A delta-presença (δ-presença) é uma métrica que quantifica a probabilidade de um indivíduo pertencer a um conjunto de dados analisado. Assim como o k-mapa, é possível estimar valores de δ-presença usando a Proteção de dados sensíveis, que usa um modelo estatístico para estimar o conjunto de dados de ataque.

O δ-presença é comparado com os outros métodos de análise de risco, em que o conjunto de dados de ataque é explicitamente conhecido. Dependendo do tipo de dados, a Proteção de dados sensíveis usa conjuntos de dados disponíveis publicamente (por exemplo, do Censo dos EUA) ou um modelo estatístico personalizado (por exemplo, uma ou mais tabelas do BigQuery especificadas) ou extrapola a distribuição de valores no conjunto de dados de entrada.

Neste tópico, demonstramos como calcular valores de δ-presença para um conjunto de dados usando a Proteção de dados sensíveis. Para mais informações sobre δ-presença ou análise de risco em geral, consulte o tópico sobre o conceito de análise de risco antes de continuar.

Antes de começar

Antes de continuar, verifique se você fez o seguinte:

  1. Faça login na sua Conta do Google.
  2. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
  3. Acessar o seletor de projetos
  4. Verifique se a cobrança está ativada para o seu projeto do Google Cloud. Saiba como confirmar se a cobrança está ativada para seu projeto.
  5. Ative a proteção de dados sensíveis.
  6. Ativar a proteção de dados sensíveis

  7. Selecione um conjunto de dados do BigQuery para a análise. A Proteção de dados confidenciais estima a métrica de δ-presença verificando uma tabela do BigQuery.
  8. Determine os tipos de conjuntos de dados que você quer usar para modelar o conjunto de dados de ataque. Para mais informações, consulte a página de referência do objeto DeltaPresenceEstimationConfig, bem como os termos e técnicas de análise de risco.

Métricas de δ-presença

Para calcular uma estimativa de δ-presença usando a Proteção de dados sensíveis, envie uma solicitação para o seguinte URL, em que PROJECT_ID indica seu identificador do projeto:

https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs

A solicitação contém um objeto RiskAnalysisJobConfig, composto de:

  • Um objeto PrivacyMetric É onde você especifica que quer calcular δ-presença ao especificar um objeto DeltaPresenceEstimationConfig contendo o seguinte:

    • quasiIds[]: obrigatório. Campos (objetos QuasiId) considerados semi-identificadores a serem verificados e usados para calcular δ-presença. Não existem duas colunas com a mesma tag. Eles podem ser:

      • Um infoType: faz com que a Proteção de dados sensíveis use o conjunto de dados público relevante como modelo estatístico de população, incluindo CEPs dos EUA, códigos regionais, idades e sexos.
      • Um InfoType personalizado: uma tag personalizada em que você indica uma tabela auxiliar (um objeto AuxiliaryTable) que contém informações estatísticas sobre os valores possíveis dessa coluna.
      • A tag inferred: se nenhuma tag semântica estiver indicada, especifique inferred. A Proteção de Dados Sensíveis infere o modelo estatístico da distribuição de valores nos dados de entrada.
    • regionCode: um código regional ISO 3166-1 alfa-2 para a Proteção de dados sensíveis usar na modelagem estatística. Esse valor será necessário se nenhuma coluna estiver marcada com um infoType específico da região (por exemplo, um CEP dos EUA) ou um código regional.

    • auxiliaryTables[]: tabelas auxiliares (objetos StatisticalTable) a serem usadas na análise. Cada tag personalizada usada para marcar uma coluna de semi-identificador (de quasiIds[]) precisa aparecer em exatamente uma coluna de uma tabela auxiliar.

  • Um objeto BigQueryTable. Inclua todos os itens a seguir para especificar a tabela do BigQuery que será verificada:

    • projectId: o ID do projeto que contém a tabela.
    • datasetId: o ID do conjunto de dados da tabela.
    • tableId: o nome da tabela.
  • Um conjunto de um ou mais objetos Action, que representam ações a serem executadas, na ordem indicada, na conclusão do job. Cada objeto Action pode conter uma das seguintes ações:

Como visualizar os resultados do job de δ-presença

Para recuperar os resultados doδ-presença usando o API REST, envie a seguinte solicitação GET para o projects.dlpJobs. Substitua PROJECT_ID pelo ID do projeto e JOB_ID pelo identificador do job em que você quer receber os resultados. O código da tarefa foi retornado quando você iniciou o job e também pode ser recuperado ao listar todos os jobs.

GET https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs/JOB_ID

A solicitação retorna um objeto JSON que contém uma instância do job. Os resultados da análise estão dentro da chave "riskDetails", em um objeto AnalyzeDataSourceRiskDetails. Para mais informações, consulte a referência da API do recurso DlpJob.

A seguir

  • Saiba como calcular o valor de k-anonimato para um conjunto de dados.
  • Saiba como calcular o valor de l-diversidade para um conjunto de dados.
  • Saiba como calcular o valor de k-mapa para um conjunto de dados.