Calcolo di δ-presence per un set di dati

La presenza delta (Δ) è una metrica che quantifica la probabilità che un individuo appartenga a un set di dati analizzato. Come per k-map, puoi stimare i valori di presenza di Δ utilizzando Sensitive Data Protection, che utilizza un modello statistico per stimare il set di dati sugli attacchi.

La presenza di Δ è in contrasto con gli altri metodi di analisi del rischio, in cui il set di dati sugli attacchi è esplicitamente noto. A seconda del tipo di dati, Sensitive Data Protection utilizza set di dati disponibili pubblicamente (ad esempio, del censimento degli Stati Uniti) o un modello statistico personalizzato (ad esempio, una o più tabelle BigQuery specificate da te) oppure estrapola dalla distribuzione di valori nel set di dati di input.

Questo argomento illustra come calcolare i valori della presenza di Δ per un set di dati utilizzando Sensitive Data Protection. Per ulteriori informazioni sulla presenza di Δ o sull'analisi del rischio in generale, consulta l'argomento concettuale dell'analisi del rischio prima di continuare.

Prima di iniziare

Prima di continuare, assicurati di aver eseguito le seguenti operazioni:

  1. Accedi al tuo Account Google.
  2. Nella pagina del selettore progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.
  3. Vai al selettore dei progetti
  4. Verifica che la fatturazione sia attivata per il tuo progetto Google Cloud. Scopri come verificare che la fatturazione sia abilitata per il tuo progetto.
  5. Attiva Sensitive Data Protection.
  6. Abilita Sensitive Data Protection

  7. Seleziona un set di dati BigQuery da analizzare. Sensitive Data Protection stima la metrica relativa alla presenza di tramite l'analisi di una tabella BigQuery.
  8. Determina i tipi di set di dati che vuoi utilizzare per modellare il set di dati sugli attacchi. Per maggiori informazioni, consulta la pagina di riferimento per l'oggetto DeltaPresenceEstimationConfig e i termini e le tecniche di analisi dei rischi.

Calcola le metriche relative alla presenza di persone 5

Per calcolare una stima della presenza di persone 5 utilizzando Sensitive Data Protection, invia una richiesta al seguente URL, dove PROJECT_ID indica l'identificatore del tuo progetto:

https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs

La richiesta contiene un oggetto RiskAnalysisJobConfig, composto da quanto segue:

  • Un oggetto PrivacyMetric. Qui puoi specificare che vuoi calcolare la presenza di verso specificando un oggetto DeltaPresenceEstimationConfig contenente quanto segue:

    • quasiIds[]: campo obbligatorio. Campi (oggetti QuasiId) considerati quasi-identificatori da scansionare e utilizzare per calcolare la presenza di Δ. Due colonne non possono avere lo stesso tag. Può essere uno dei seguenti:

      • Un infoType: in questo modo, Sensitive Data Protection utilizza il set di dati pubblico pertinente come modello statistico di popolazione, inclusi codici postali, codici regione, età e generi degli Stati Uniti.
      • Un infoType personalizzato: un tag personalizzato in cui indichi una tabella ausiliaria (un oggetto AuxiliaryTable) contenente informazioni statistiche sui possibili valori di questa colonna.
      • Tag inferred: se non viene indicato alcun tag semantico, specifica inferred. Sensitive Data Protection deduce il modello statistico dalla distribuzione di valori nei dati di input.
    • regionCode: un codice regione ISO 3166-1 alpha-2 per Sensitive Data Protection da utilizzare nella modellazione statistica. Questo valore è obbligatorio se nessuna colonna è taggata con un infoType specifico per regione (ad esempio, un codice postale statunitense) o un codice regione.

    • auxiliaryTables[]: tabelle ausiliarie (oggetti StatisticalTable) da utilizzare nell'analisi. Ogni tag personalizzato utilizzato per taggare una colonna di quasi-identificatori (da quasiIds[]) deve apparire esattamente in una colonna di una tabella ausiliaria.

  • Un oggetto BigQueryTable. Specifica la tabella BigQuery da analizzare includendo tutti i seguenti elementi:

    • projectId: l'ID del progetto contenente la tabella.
    • datasetId: l'ID del set di dati della tabella.
    • tableId: il nome della tabella.
  • Un insieme di uno o più oggetti Action, che rappresentano le azioni da eseguire, nell'ordine indicato, al completamento del job. Ogni oggetto Action può contenere una delle seguenti azioni:

Visualizzazione dei risultati del job relativo alla presenza di persone in verso

Per recuperare i risultati del job di analisi del rischio relativo alla presenza di sarà utilizzando l'API REST, invia la seguente richiesta GET alla risorsa projects.dlpJobs. Sostituisci PROJECT_ID con l'ID progetto e JOB_ID con l'identificatore del job per cui vuoi ottenere risultati. L'ID job è stato restituito quando hai avviato il job e può anche essere recuperato elencando tutti i job.

GET https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs/JOB_ID

La richiesta restituisce un oggetto JSON contenente un'istanza del job. I risultati dell'analisi si trovano all'interno della chiave "riskDetails", in un oggetto AnalyzeDataSourceRiskDetails. Per ulteriori informazioni, consulta il riferimento API per la risorsa DlpJob.

Passaggi successivi

  • Scopri come calcolare il valore k-anonymity per un set di dati.
  • Scopri come calcolare il valore l-diversity per un set di dati.
  • Scopri come calcolare il valore k-map per un set di dati.