Como calcular a δ-presença de um conjunto de dados

A delta-presença (δ-presença) é uma métrica que quantifica a probabilidade de um indivíduo pertencer a um conjunto de dados analisado. Assim como o k-mapa, é possível estimar valores de δ-presença usando o Cloud DLP, que usa um modelo estatístico para estimar o conjunto de dados de ataque.

O δ-presença é comparado com os outros métodos de análise de risco, em que o conjunto de dados de ataque é explicitamente conhecido. Dependendo do tipo de dados, o Cloud DLP usa conjuntos de dados disponíveis publicamente (por exemplo, do Censo dos EUA), um modelo estatístico personalizado (por exemplo, uma ou mais tabelas do BigQuery especificadas) ou extrapola a distribuição de valores no conjunto de dados de entrada.

Neste tópico, demonstramos como calcular os valores de presença de RANK para um conjunto de dados usando o Cloud Data Loss Prevention. Para mais informações sobre δ-presença ou análise de risco em geral, consulte o tópico sobre o conceito de análise de risco antes de continuar.

Antes de começar

Antes de continuar, verifique se você fez o seguinte:

  1. Faça login na sua Conta do Google.
  2. Na página do seletor de projetos do Console do Google Cloud, escolha ou crie um projeto do Google Cloud.
  3. Acessar o seletor de projetos
  4. Verifique se a cobrança está ativada para o seu projeto do Google Cloud. Saiba como confirmar se a cobrança está ativada para seu projeto.
  5. Ativar o Cloud DLP.
  6. Ativar o Cloud DLP

  7. Selecione um conjunto de dados do BigQuery para a análise. O Cloud DLP estima a métrica de δ-presença por meio da verificação de uma tabela do BigQuery.
  8. Determine os tipos de conjuntos de dados que você quer usar para modelar o conjunto de dados de ataque. Para mais informações, consulte a página de referência do objeto DeltaPresenceEstimationConfig, bem como os termos e técnicas de análise de risco.

Métricas de δ-presença

Para calcular uma estimativa de δ-presença usando o Cloud DLP, envie uma solicitação para o seguinte URL, em que PROJECT_ID indica seu identificador do projeto:

https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs

A solicitação contém um objeto RiskAnalysisJobConfig, composto de:

  • Um objeto PrivacyMetric É onde você especifica que quer calcular δ-presença ao especificar um objeto DeltaPresenceEstimationConfig contendo o seguinte:

    • quasiIds[]: obrigatório. Campos (objetos QuasiId) considerados semi-identificadores a serem verificados e usados para calcular δ-presença. Não existem duas colunas com a mesma tag. Eles podem ser:

      • Um InfoType: faz com que o Cloud DLP use o conjunto de dados público relevante como modelo estatístico de população, incluindo CEPs dos EUA, códigos regionais, idades e sexos.
      • Um InfoType personalizado: uma tag personalizada em que você indica uma tabela auxiliar (um objeto AuxiliaryTable) que contém informações estatísticas sobre os valores possíveis dessa coluna.
      • A tag inferred: se nenhuma tag semântica estiver indicada, especifique inferred. O Cloud DLP infere o modelo estatístico da distribuição de valores nos dados de entrada.
    • regionCode: um código regional ISO 3166-1 alfa-2 para o Cloud DLP usar na modelagem estatística. Esse valor será necessário se nenhuma coluna estiver marcada com um infoType específico da região (por exemplo, um CEP dos EUA) ou um código regional.

    • auxiliaryTables[]: tabelas auxiliares (objetos StatisticalTable) a serem usadas na análise. Cada tag personalizada usada para marcar uma coluna de semi-identificador (de quasiIds[]) precisa aparecer em exatamente uma coluna de uma tabela auxiliar.

  • Um objeto BigQueryTable. Inclua todos os itens a seguir para especificar a tabela do BigQuery que será verificada:

    • projectId: o ID do projeto que contém a tabela.
    • datasetId: o ID do conjunto de dados da tabela.
    • tableId: o nome da tabela.
  • Um conjunto de um ou mais objetos Action, que representam ações a serem executadas, na ordem indicada, na conclusão do job. Cada objeto Action pode conter uma das seguintes ações:

Como visualizar os resultados do job de δ-presença

Para recuperar os resultados doδ-presença usando o API REST, envie a seguinte solicitação GET para o projects.dlpJobs. Substitua PROJECT_ID pelo ID do projeto e JOB_ID pelo identificador do job em que você quer receber os resultados. O código da tarefa foi retornado quando você iniciou o job e também pode ser recuperado ao listar todos os jobs.

GET https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs/JOB_ID

A solicitação retorna um objeto JSON que contém uma instância do job. Os resultados da análise estão dentro da chave "riskDetails", em um objeto AnalyzeDataSourceRiskDetails. Para mais informações, consulte a referência da API do recurso DlpJob.

A seguir

  • Saiba como calcular o valor de k-anonimato para um conjunto de dados.
  • Saiba como calcular o valor de l-diversidade para um conjunto de dados.
  • Saiba como calcular o valor de k-mapa para um conjunto de dados.