Calculer δ-présence pour un ensemble de données

La delta-présence (δ-présence) est une métrique quantifiant la probabilité qu'un individu appartienne à un ensemble de données analysé. Comme pour k-table, vous pouvez estimer les valeurs de δ-présence à l'aide de Cloud DLP, qui se sert d'un modèle statistique pour estimer l'ensemble de données d'attaque.

δ-présence diffère des autres méthodes d'analyse des risques, dans lesquelles l'ensemble de données d'attaque est explicitement connu. Selon le type de données, Cloud DLP utilise des ensembles de données publiquement disponibles (comme ceux du recensement américain) ou un modèle statistique personnalisé (comprenant par exemple une ou plusieurs tables BigQuery que vous définissez). Cloud DLP peut également effectuer une extrapolation à partir de la distribution des valeurs dans votre ensemble de données d'entrée.

Cet article explique comment calculer les valeurs de Δ-présence pour un ensemble de données à l'aide de Cloud Data Loss Prevention. Pour en savoir plus sur la δ-présence ou l'analyse des risques en général, consultez la section sur les concepts d'analyse des risques avant de continuer.

Avant de commencer

Avant de continuer, assurez-vous d'avoir effectué les actions suivantes:

  1. Connectez-vous à votre compte Google.
  2. Dans Google Cloud Console, sur la page du sélecteur de projet, sélectionnez ou créez un projet Google Cloud.
  3. Accéder au sélecteur de projet
  4. Vérifiez que la facturation est activée pour votre projet Google Cloud. Découvrez comment vérifier que la facturation est activée pour votre projet.
  5. Activez Cloud DLP.
  6. Activer Cloud DLP

  7. Sélectionnez un ensemble de données BigQuery à analyser. Cloud DLP estime la métrique δ-présence en analysant une table BigQuery.
  8. Déterminez les types d'ensembles de données que vous souhaitez utiliser pour modéliser l'ensemble de données d'attaque. Pour en savoir plus, consultez la page de référence sur l'objet DeltaPresenceEstimationConfig, ainsi que les Termes et techniques d'analyse des risques.

Calculer les métriques de δ-présence

Pour calculer une estimation de δ-présence à l'aide de Cloud DLP, envoyez une requête à l'URL suivante, où PROJECT_ID indique votre identifiant de projet :

https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs

La requête contient un objet RiskAnalysisJobConfig composé des éléments suivants :

  • Un objet PrivacyMetric. C'est ici que vous indiquez que vous voulez calculer la δ-présence, en spécifiant un objet DeltaPresenceEstimationConfig contenant les éléments suivants :

    • quasiIds[] : valeur obligatoire. Champs (objets QuasiId) considérés comme des quasi-identifiants à analyser et à utiliser pour calculer δ-présence. Deux colonnes ne peuvent pas partager le même tag, et chaque tag peut correspondre à l'un des éléments suivants :

      • InfoType : ceci impose à Cloud DLP d'utiliser l'ensemble de données public pertinent comme modèle statistique de population, y compris les codes postaux américains, les codes des régions, l'âge et le sexe.
      • InfoType personnalisé : tag personnalisé dans lequel vous indiquez une table auxiliaire (un objet AuxiliaryTable) contenant des informations statistiques sur les valeurs possibles de cette colonne.
      • Tag inferred : si aucun tag sémantique n'est indiqué, renseignez inferred. Cloud DLP déduit le modèle statistique à partir de la distribution des valeurs dans les données d'entrée.
    • regionCode : code de région ISO 3166-1 alpha-2 permettant à Cloud DLP de modéliser les statistiques. Cette valeur est obligatoire si aucune colonne ne contient de tag d'infoType spécifique à une région (un code postal américain, par exemple) ou à un code de région.

    • auxiliaryTables[] : Tables auxiliaires (objets StatisticalTable) à utiliser dans l'analyse. Chaque tag personnalisé servant à marquer une colonne de quasi-identifiants (depuis quasiIds[]) ne doit apparaître que dans une colonne d'une table auxiliaire.

  • Un objet BigQueryTable. Spécifiez la table BigQuery à analyser en incluant tous les éléments suivants :

    • projectId : ID du projet contenant la table.
    • datasetId : ID de l'ensemble de données de la table.
    • tableId : nom de la table.
  • Un ensemble d'un ou de plusieurs objets Action représentant les actions à exécuter, dans l'ordre indiqué, à la fin de la tâche. Chaque objet Action peut contenir l'une des actions suivantes :

Afficher les résultats de la tâche δ-présence

Pour récupérer les résultats de la tâche d'analyse des risques δ-présence à l'aide de l'API REST, envoyez la requête GET suivante à la ressource projects.dlpJobs. Remplacez PROJECT_ID par votre ID de projet et JOB_ID par l'identifiant de la tâche pour laquelle vous souhaitez obtenir des résultats. L'ID de tâche a été renvoyé au démarrage de la tâche et peut être récupéré en répertoriant toutes les tâches.

GET https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs/JOB_ID

La requête renvoie un objet JSON contenant une instance de la tâche. Les résultats de l'analyse se trouvent dans la clé "riskDetails", dans un objet AnalyzeDataSourceRiskDetails. Pour en savoir plus, consultez la documentation de référence de l'API pour la ressource DlpJob.

Étapes suivantes

  • Découvrez comment calculer la valeur k-anonymat pour un ensemble de données.
  • Découvrez comment calculer la valeur l-diversité pour un ensemble de données.
  • Découvrez comment calculer la valeur k-table pour un ensemble de données.