Calcular a δ-presença para um conjunto de dados

A presença delta (presença δ) é uma métrica que quantifica a probabilidade de um indivíduo pertencer a um conjunto de dados analisado. Tal como o k-map, pode estimar os valores de presença δ através da proteção de dados confidenciais, que usa um modelo estatístico para estimar o conjunto de dados de ataque.

A presença de δ contrasta com os outros métodos de análise de risco, nos quais o conjunto de dados de ataque é explicitamente conhecido. Consoante o tipo de dados, a Proteção de Dados Confidenciais usa conjuntos de dados disponíveis publicamente (por exemplo, do US Census) ou um modelo estatístico personalizado (por exemplo, uma ou mais tabelas do BigQuery que especificar) ou extrapola a partir da distribuição de valores no seu conjunto de dados de entrada.

Este tópico demonstra como calcular valores de δ-presença para um conjunto de dados usando a proteção de dados confidenciais. Para mais informações sobre a presença de δ ou a análise de risco em geral, consulte o tópico do conceito de análise de risco antes de continuar.

Antes de começar

Antes de continuar, certifique-se de que fez o seguinte:

  1. Inicie sessão na sua Conta Google.
  2. Na Google Cloud consola, na página do seletor de projetos, selecione ou crie um Google Cloud projeto.
  3. Aceda ao seletor de projetos
  4. Certifique-se de que a faturação está ativada para o seu Google Cloud projeto. Saiba como confirmar se a faturação está ativada para o seu projeto.
  5. Ative a proteção de dados confidenciais.
  6. Ative a proteção de dados confidenciais

  7. Selecione um conjunto de dados do BigQuery para analisar. A proteção de dados confidenciais estima a métrica de presença δ através da análise de uma tabela do BigQuery.
  8. Determine os tipos de conjuntos de dados que quer usar para modelar o conjunto de dados de ataques. Para mais informações, consulte a página de referência do objeto DeltaPresenceEstimationConfig, bem como os termos e as técnicas de análise de risco.

Calcule as métricas de presença δ

Para calcular uma estimativa de presença δ através da Proteção de dados confidenciais, envie um pedido para o seguinte URL, onde PROJECT_ID indica o identificador do projeto:

https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs

O pedido contém um objeto RiskAnalysisJobConfig composto pelo seguinte:

  • Um PrivacyMetric objeto. É aqui que especifica que quer calcular a presença de δ especificando um objeto DeltaPresenceEstimationConfig que contenha o seguinte:

    • quasiIds[]: obrigatório. Campos (QuasiId objetos) considerados quase identificadores para procurar e usar para calcular a δ-presença. Nenhuma coluna pode ter a mesma etiqueta. Estas podem ser qualquer uma das seguintes opções:

      • Um infoType: isto faz com que a Proteção de dados confidenciais use o conjunto de dados público relevante como um modelo estatístico da população, incluindo códigos postais, códigos de regiões, idades e géneros dos EUA.
      • Um infoType personalizado: uma etiqueta personalizada na qual indica uma tabela auxiliar (um objeto AuxiliaryTable) que contém informações estatísticas sobre os possíveis valores desta coluna.
      • A etiqueta inferred: se não for indicada nenhuma etiqueta semântica, especifique inferred. A proteção de dados confidenciais infere o modelo estatístico a partir da distribuição de valores nos dados de entrada.
    • regionCode: Um código da região ISO 3166-1 alfa-2 para a proteção de dados confidenciais usar na modelagem estatística. Este valor é obrigatório se nenhuma coluna estiver etiquetada com um infoType específico da região (por exemplo, um código postal dos EUA) ou um código da região.

    • auxiliaryTables[]: tabelas auxiliares (StatisticalTable objetos) a usar na análise. Cada etiqueta personalizada usada para etiquetar uma coluna de quase identificador (de quasiIds[]) tem de aparecer exatamente numa coluna de uma tabela auxiliar.

  • Um objeto BigQueryTable. Especifique a tabela do BigQuery a analisar incluindo todos os seguintes elementos:

    • projectId: o ID do projeto que contém a tabela.
    • datasetId: o ID do conjunto de dados da tabela.
    • tableId: o nome da tabela.
  • Um conjunto de um ou mais objetos Action que representam ações a executar, na ordem indicada, após a conclusão da tarefa. Cada objeto Action pode conter uma das seguintes ações:

A ver resultados de tarefas de presença δ

Para obter os resultados da tarefa de análise de risco de presença δ através da API REST, envie o seguinte pedido GET para o recurso projects.dlpJobs. Substitua PROJECT_ID pelo ID do projeto e JOB_ID pelo identificador da tarefa para a qual quer obter resultados. O ID da tarefa foi devolvido quando iniciou a tarefa e também pode ser obtido através da listagem de todas as tarefas.

GET https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs/JOB_ID

O pedido devolve um objeto JSON que contém uma instância da tarefa. Os resultados da análise encontram-se na chave "riskDetails", num objeto AnalyzeDataSourceRiskDetails. Para mais informações, consulte a referência da API para o recurso DlpJob.

O que se segue?

  • Saiba como calcular o valor de k-anonimato para um conjunto de dados.
  • Saiba como calcular o valor de l-diversidade para um conjunto de dados.
  • Saiba como calcular o valor do mapa k para um conjunto de dados.