Calculer δ-présence pour un ensemble de données

La delta-présence (δ-présence) est une métrique quantifiant la probabilité qu'un individu appartienne à un ensemble de données analysé. Comme pour k-table, vous pouvez estimer les valeurs de δ-présence à l'aide de la protection des données sensibles, qui se sert d'un modèle statistique pour estimer l'ensemble de données d'attaque.

δ-présence diffère des autres méthodes d'analyse des risques, dans lesquelles l'ensemble de données d'attaque est explicitement connu. Selon le type de données, la protection des données sensibles utilise des ensembles de données publiquement disponibles (comme ceux du recensement américain) ou un modèle statistique personnalisé (comprenant par exemple une ou plusieurs tables BigQuery que vous définissez). La protection des données sensibles peut également effectuer une extrapolation à partir de la distribution des valeurs dans votre ensemble de données d'entrée.

Cet article explique comment calculer des valeurs de δ-présence pour un ensemble de données à l'aide de la protection des données sensibles. Pour en savoir plus sur la δ-présence ou l'analyse des risques en général, consultez la section sur les concepts d'analyse des risques avant de continuer.

Avant de commencer

Avant de continuer, assurez-vous d'avoir effectué les actions suivantes :

  1. Connectez-vous à votre compte Google.
  2. Dans la console Google Cloud , sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud .
  3. Accéder au sélecteur de projet
  4. Vérifiez que la facturation est activée pour votre projet Google Cloud . Découvrez comment vérifier que la facturation est activée pour votre projet.
  5. Activez la protection des données sensibles.
  6. Activer la protection des données sensibles

  7. Sélectionnez un ensemble de données BigQuery à analyser. La protection des données sensibles estime la métrique δ-présence en analysant une table BigQuery.
  8. Déterminez les types d'ensembles de données que vous souhaitez utiliser pour modéliser l'ensemble de données d'attaque. Pour en savoir plus, consultez la page de référence sur l'objet DeltaPresenceEstimationConfig, ainsi que les Termes et techniques d'analyse des risques.

Calculer les métriques de δ-présence

Pour calculer une estimation de δ-présence à l'aide de la protection des données sensibles, envoyez une requête à l'URL suivante, où PROJECT_ID indique votre identifiant de projet:

https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs

La requête contient un objet RiskAnalysisJobConfig composé des éléments suivants :

  • Un objet PrivacyMetric. C'est ici que vous indiquez que vous voulez calculer la δ-présence, en spécifiant un objet DeltaPresenceEstimationConfig contenant les éléments suivants :

    • quasiIds[] : valeur obligatoire. Champs (objets QuasiId) considérés comme des quasi-identifiants à analyser et à utiliser pour calculer δ-présence. Deux colonnes ne peuvent pas partager le même tag, et chaque tag peut correspondre à l'un des éléments suivants :

      • infoType: la protection des données sensibles utilise l'ensemble de données public pertinent comme modèle statistique de population, y compris les codes postaux américains, les codes des régions, l'âge et le sexe.
      • InfoType personnalisé : tag personnalisé dans lequel vous indiquez une table auxiliaire (un objet AuxiliaryTable) contenant des informations statistiques sur les valeurs possibles de cette colonne.
      • Tag inferred : si aucun tag sémantique n'est indiqué, renseignez inferred. Sensitive Data Protection déduit le modèle statistique à partir de la distribution des valeurs dans les données d'entrée.
    • regionCode: code de région ISO 3166-1 alpha-2 permettant à la protection des données sensibles de modéliser les statistiques. Cette valeur est obligatoire si aucune colonne ne contient de tag d'infoType spécifique à une région (un code postal américain, par exemple) ou à un code de région.

    • auxiliaryTables[] : Tables auxiliaires (objets StatisticalTable) à utiliser dans l'analyse. Chaque tag personnalisé servant à marquer une colonne de quasi-identifiants (depuis quasiIds[]) ne doit apparaître que dans une colonne d'une table auxiliaire.

  • Un objet BigQueryTable. Spécifiez la table BigQuery à analyser en incluant tous les éléments suivants :

    • projectId : ID du projet contenant la table.
    • datasetId : ID de l'ensemble de données de la table.
    • tableId : nom de la table.
  • Un ensemble d'un ou de plusieurs objets Action représentant les actions à exécuter, dans l'ordre indiqué, à la fin de la tâche. Chaque objet Action peut contenir l'une des actions suivantes :

Afficher les résultats de la tâche δ-présence

Pour récupérer les résultats de la tâche d'analyse des risques δ-présence à l'aide de l'API REST, envoyez la requête GET suivante à la ressource projects.dlpJobs. Remplacez PROJECT_ID par votre ID de projet et JOB_ID par l'identifiant de la tâche pour laquelle vous souhaitez obtenir des résultats. L'ID de tâche a été renvoyé au démarrage de la tâche et peut être récupéré en répertoriant toutes les tâches.

GET https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs/JOB_ID

La requête renvoie un objet JSON contenant une instance de la tâche. Les résultats de l'analyse se trouvent dans la clé "riskDetails", dans un objet AnalyzeDataSourceRiskDetails. Pour en savoir plus, consultez la documentation de référence de l'API pour la ressource DlpJob.

Étape suivante

  • Découvrez comment calculer la valeur k-anonymat pour un ensemble de données.
  • Découvrez comment calculer la valeur l-diversité pour un ensemble de données.
  • Découvrez comment calculer la valeur k-table pour un ensemble de données.