Profili di dati per dati BigQuery

Questa pagina descrive il profiler di dati e come utilizzarlo per determinare dove si trovano i dati sensibili e ad alto rischio nella tua organizzazione.

Panoramica

Il profiler di dati ti consente di proteggere i dati in tutta la tua organizzazione identificando dove si trovano i dati sensibili e ad alto rischio. Quando attivi la profilazione dei dati, Cloud DLP scansiona automaticamente tutte le tabelle e le colonne di BigQuery nell'intera organizzazione, nelle singole cartelle e nei singoli progetti. A questo punto, crea i profili dati a livello di tabella, colonna e progetto.

Un profilo dati è un insieme di metriche che Cloud DLP raccoglie dalle scansioni di una determinata risorsa. Queste metriche includono gli infoType previsti, i livelli di rischio e sensibilità dei dati valutati e i metadati delle tue tabelle. Utilizza questi insight per prendere decisioni informate su come proteggere, condividere e utilizzare i tuoi dati.

Finché la configurazione del profiler di dati è attiva, Cloud DLP esegue automaticamente la scansione delle tabelle che aggiungi e modifichi e genera profili di dati nuovi e aggiornati per queste tabelle.

L'immagine seguente mostra un elenco di profili di dati di colonna. Fai clic sull'immagine per ingrandirla.

Screenshot dei profili dati delle colonne

Per un elenco delle metriche incluse in ogni profilo dati, consulta Informazioni sulle metriche.

Creazione del profilo dati

Per iniziare a generare profili di dati, devi creare una configurazione della scansione (chiamata anche configurazione di un profilo dati). In questa configurazione di scansione puoi impostare la risorsa (organizzazione, cartella o progetto) di cui vuoi eseguire la scansione. Tutti i set di dati e le tabelle BigQuery nella risorsa rientrano nell'ambito della profilazione dei dati.

Quando crei una configurazione di scansione, puoi anche impostare il modello di ispezione da utilizzare. Il modello di ispezione è il punto in cui specifichi i tipi di dati sensibili che Cloud DLP deve cercare.

Quando crea profili dati, Cloud DLP analizza le tabelle e le colonne BigQuery in base al modello di ispezione e configurazione della scansione. Un profilo dati è un'istantanea dell'analisi e delle metriche raccolte in un momento specifico.

Utilizzo di profili dati

Il flusso di lavoro per l'utilizzo dei profili dati è il seguente:

  1. Verificare di avere i ruoli utente richiesti
  2. Profiliare un singolo progetto
  3. Creare un profilo di un'organizzazione o di una cartella
  4. Solo scansioni dell'organizzazione o delle cartelle: concedi l'accesso di profilazione all'agente di servizio
  5. Visualizzare i profili dati
  6. Analizzare i profili dati
  7. Risolvere i risultati

Ruoli necessari per configurare e visualizzare i profili dati

Le seguenti sezioni elencano i ruoli utente obbligatori, classificati in base al loro scopo. A seconda della configurazione della tua organizzazione, puoi decidere di far svolgere attività diverse a persone diverse. Ad esempio, la persona che configura i profili dati potrebbe essere diversa da quella che li monitora regolarmente.

Ruoli necessari per utilizzare i profili dati a livello di organizzazione o cartella

Questi ruoli ti consentono di configurare e visualizzare i profili dati a livello di organizzazione o di cartella.

Assicurati che questi ruoli siano concessi alle persone appropriate a livello di organizzazione. In alternativa, l'amministratore di Google Cloud può creare ruoli personalizzati che dispongono solo delle autorizzazioni pertinenti.

Scopo Ruolo predefinito Autorizzazioni pertinenti
Configurare e visualizzare i profili dati Amministratore DLP (roles/dlp.admin)
  • dlp.ispezioneTemplates.create
  • dlp.jobs.create
  • dlp.jobTriggers.create
  • dlp.columnDataProfiles.list
  • dlp.jobs.list
  • dlp.jobTriggers.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
Autore progetto (roles/resourcemanager.projectCreator)
  • resourcemanager.organizations.get
  • resourcemanager.projects.create
Concedi l'accesso alla profilazione dei dati Uno dei seguenti valori:
  • Amministratore dell'organizzazione (roles/resourcemanager.organizationAdmin)
  • Amministratore della sicurezza (roles/iam.securityAdmin)
  • resourcemanager.organizations.getIamPolicy
  • resourcemanager.organizations.setIamPolicy
Visualizzazione dei profili dati (sola lettura) Lettore profili dati DLP (roles/dlp.dataProfilesReader)
  • dlp.columnDataProfiles.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
Lettore DLP (roles/dlp.reader)
  • dlp.jobs.list
  • dlp.jobTriggers.list

Ruoli necessari per lavorare con i profili dati a livello di progetto

Questi ruoli ti consentono di configurare e visualizzare i profili dati a livello di progetto.

Assicurati che questi ruoli vengano concessi alle persone appropriate a livello di progetto. In alternativa, l'amministratore di Google Cloud può creare ruoli personalizzati che dispongono solo delle autorizzazioni pertinenti.

Scopo Ruolo predefinito Autorizzazioni pertinenti
Configurare e visualizzare i profili dati Amministratore DLP (roles/dlp.admin)
  • dlp.ispezioneTemplates.create
  • dlp.jobs.create
  • dlp.jobTriggers.create
  • dlp.columnDataProfiles.list
  • dlp.jobs.list
  • dlp.jobTriggers.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
Visualizzazione dei profili dati (sola lettura) Lettore profili dati DLP (roles/dlp.dataProfilesReader)
  • dlp.columnDataProfiles.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
Lettore DLP (roles/dlp.reader)
  • dlp.jobs.list
  • dlp.jobTriggers.list

Configurazione della scansione

Una configurazione della scansione o della configurazione del profilo dati specifica la risorsa (organizzazione, cartella o progetto) da scansionare, quale modello di ispezione utilizzare e cosa fare con i risultati. Contiene inoltre dettagli amministrativi, come il container dell'agente di servizio a cui associare la scansione e l'account di fatturazione da utilizzare.

Puoi creare una configurazione di scansione per la tua organizzazione e un'altra per una cartella specifica. Se due o più configurazioni di scansione attive hanno lo stesso progetto nell'ambito, Cloud DLP determina la configurazione di scansione che può generare profili per quel progetto.

Puoi anche creare una configurazione di scansione a livello di progetto. Questo tipo di configurazione di scansione può sempre mappare il progetto di destinazione e non compete con altre configurazioni a livello della cartella o dell'organizzazione principale.

La prima volta che crei una configurazione di scansione, devi specificare dove vuoi che Cloud DLP lo archivi. Tutte le configurazioni di scansione create successivamente vengono archiviate nella stessa area geografica.

Ad esempio, se crei una configurazione di scansione per la Cartella A e la archivi nell'area geografica us-west1, ogni configurazione di scansione creata in seguito per qualsiasi altra risorsa viene archiviata anche in quell'area geografica.

Modello di ispezione

Un modello di ispezione specifica i tipi di informazioni (o infoType) che Cloud DLP cerca durante la scansione dei dati. Qui fornisci una combinazione di infoType integrati e infoType personalizzati.

Puoi anche fornire un livello di probabilità per limitare il numero di corrispondenze trovate in Cloud DLP. Puoi aggiungere serie di regole per escludere risultati indesiderati o includere risultati aggiuntivi.

Se modifichi un modello di ispezione utilizzato dalla tua configurazione di scansione, le modifiche vengono applicate solo alle scansioni future. Gli eventuali profili dati esistenti non vengono sovrascritti. Ad esempio, se modifichi il modello per aggiungere un infoType, la modifica riguarda solo le tabelle non ancora analizzate. La tua azione non esegue una nuova scansione di tutte le tabelle esistenti.

Il modello di ispezione deve trovarsi nella stessa area geografica dei dati da profilo. Se disponi di dati in più aree geografiche, utilizza un modello di ispezione archiviato nell'area geografica global. Per ulteriori informazioni, vedi Considerazioni sulla residenza dei dati.

I modelli di ispezione sono un componente fondamentale di Cloud DLP Platform. I profili dati utilizzano gli stessi modelli di ispezione che puoi utilizzare per tutti i servizi Cloud DLP. Per ulteriori informazioni sui modelli, consulta Modelli.

Container dell'agente di servizio e agente di servizio

Quando crei una configurazione di scansione per la tua organizzazione o per una cartella, Cloud DLP richiede che venga fornito un container dell'agente di servizio. Un container dell'agente di servizio è un progetto Google Cloud che Cloud DLP utilizza per monitorare gli addebiti fatturati in relazione alle operazioni di profilazione a livello di organizzazione e di cartella.

Il container dell'agente di servizio contiene un agente di servizio, ovvero un account di servizio gestito da Google che Cloud DLP utilizza per profilo dei dati per tuo conto. L'agente di servizio deve essere autenticato per Cloud DLP e altre API. L'agente di servizio deve disporre di tutte le autorizzazioni necessarie per accedere e creare profili per i tuoi dati. Il formato dell'ID dell'agente di servizio è il seguente:

service-PROJECT_NUMBER@dlp-api.iam.gserviceaccount.com

In questo caso, PROJECT_NUMBER è l'identificatore numerico del container dell'agente di servizio.

Quando imposti il container dell'agente di servizio, puoi scegliere un progetto esistente. Se il progetto selezionato contiene un agente di servizio, Cloud DLP concede le autorizzazioni IAM richieste a tale agente di servizio. Se il progetto non ha un agente di servizio, Cloud DLP ne crea uno a cui concede automaticamente le autorizzazioni di profilazione dei dati.

In alternativa, puoi fare in modo che Cloud DLP crei automaticamente il container dell'agente di servizio e l'agente di servizio. Cloud DLP concede automaticamente le autorizzazioni di profilazione dei dati all'agente di servizio.

In entrambi i casi, se Cloud DLP non riesce a concedere l'accesso di profilazione dei dati al tuo agente di servizio, viene visualizzato un errore quando visualizzi i dettagli della configurazione della scansione.

Per le configurazioni di scansione a livello di progetto, non hai bisogno di un container dell'agente di servizio. Il progetto di profilazione serve allo scopo del container dell'agente di servizio. Per eseguire operazioni di profilazione, Cloud DLP utilizza l'agente di servizio del progetto in questione.

Accesso alla profilazione dei dati a livello di organizzazione o cartella

Quando configuri la profilazione a livello di organizzazione o di cartella, Cloud DLP tenta di concedere automaticamente l'accesso alla profilazione dei dati al tuo agente di servizio. Tuttavia, se non disponi delle autorizzazioni per concedere ruoli IAM, Cloud DLP non può eseguire questa operazione per tuo conto. Una persona con queste autorizzazioni nella tua organizzazione, ad esempio un amministratore di Google Cloud, deve concedere l'accesso alla profilazione dei dati al tuo agente di servizio.

Frequenza predefinita di generazione del profilo dati

Per impostazione predefinita, Cloud DLP elenca i tuoi dati come segue:

  1. Dopo aver creato una configurazione di scansione per una particolare risorsa, Cloud DLP esegue una scansione iniziale, mediante la profilazione di tutte le tabelle della risorsa. Dopo la scansione iniziale, monitora continuamente le tabelle BigQuery per individuare eventuali aggiunte o modifiche introdotte.

  2. Cloud DLP definisce le nuove tabelle che aggiungi poco dopo averle aggiunte.

  3. Ogni 30 giorni, Cloud DLP riformula le tabelle esistenti che sono state sottoposte a modifiche dello schema negli ultimi 30 giorni.

Tuttavia, nella configurazione della scansione, puoi personalizzare la frequenza di profilazione creando una o più pianificazioni per diversi sottoinsiemi di dati. Puoi anche specificare sottoinsiemi di dati che non vuoi mai profilare. Per ulteriori informazioni, consulta la sezione Gestire le pianificazioni nelle istruzioni per la configurazione del profilazione.

Per impostazione predefinita, Cloud DLP non ripropone le tabelle che non presentano modifiche allo schema. Se vuoi che Cloud DLP riutilizza i profili esistenti, puoi inviare una richiesta.

Per scenari di esempio, vedi Esempi di prezzi di profilazione dei dati.

Rendimento profilazione

Il tempo necessario per gestire i dati varia in base a diversi fattori, inclusi, a titolo esemplificativo:

  • Numero di tabelle profilate
  • Dimensioni delle tabelle
  • Numero di colonne nelle tabelle
  • Tipi di dati nelle colonne

Pertanto, le prestazioni di Cloud DLP in un'attività di ispezione o profilazione passata non sono indicative del rendimento futuro delle attività di profilazione.

Conservazione dei profili dati

Cloud DLP conserva la versione più recente di un profilo dati per 13 mesi. Quando Cloud DLP riformula una tabella aggiornata, sostituisce i profili di dati esistenti di quella nuova con quelli nuovi.

Considera i seguenti scenari:

  • Il 1° gennaio Cloud DLP profila la tabella A. La tabella A non cambia in un anno e quindi non viene più profilata. In questo caso, Cloud DLP conserva i profili dati per la tabella A per 13 mesi prima di eliminarli.

  • Il 1° gennaio Cloud DLP profila la tabella A. Nel corso del mese, un membro della tua organizzazione aggiornerà lo schema di questa tabella. Per questo motivo, il mese successivo, Cloud DLP riclassifica automaticamente la Tabella A. I nuovi profili di dati generati sovrascrivono quelli creati a gennaio.

Per informazioni sui costi di Cloud DLP per la profilazione di tabelle nuove e modificate, consulta Prezzi di profilazione dei dati.

Se vuoi conservare i profili dati a tempo indeterminato o tenere traccia delle modifiche apportate, valuta la possibilità di salvare i profili dati in BigQuery quando configuri la profilazione. Sei tu a scegliere in quale set di dati BigQuery salvare i profili e a controllare il criterio di scadenza della tabella per quel set di dati.

Override delle configurazioni di scansione

Puoi creare al massimo una configurazione di scansione per ogni organizzazione, cartella e progetto.

Se due o più configurazioni di scansione attive hanno lo stesso progetto nell'ambito, si applicano le seguenti regole:

  • Tra le configurazioni di scansione a livello di organizzazione e di cartella, quella più vicina al progetto sarà in grado di generare profili di dati per quel progetto. Questa regola viene applicata anche se esiste anche una configurazione di scansione a livello di progetto.
  • Cloud DLP considera le configurazioni di scansione a livello di progetto indipendentemente dalle configurazioni a livello di organizzazione e di cartella. Una configurazione di scansione creata a livello di progetto non può sostituire quella creata per una cartella o un'organizzazione principale.

Considera l'esempio seguente, in cui sono presenti tre configurazioni di scansione attive:

Diagramma di una gerarchia di risorse con una configurazione di scansione applicata a un'organizzazione, una cartella e un progetto

Qui, la configurazione della scansione 1 si applica all'intera organizzazione, la configurazione della scansione 2 si applica alla cartella Team B e la configurazione della scansione 3 si applica al progetto Produzione. In questo esempio:

  • Cloud DLP definisce tutte le tabelle nei progetti che non si trovano nella cartella Team B, secondo la configurazione della scansione 1.
  • Cloud DLP elenca tutte le tabelle nei progetti nella cartella Team B, incluse le tabelle nel progetto Produzione, in base alla Configurazione di scansione 2.
  • Cloud DLP definisce tutte le tabelle nel progetto di produzione in base alla configurazione della scansione 3.

In questo esempio, Cloud DLP genera in modo efficace due insiemi di profili per il progetto Production, un set per ciascuna delle seguenti configurazioni di scansione:

  • Configurazione di scansione 2
  • Configurazione di scansione 3

Tuttavia, anche se esistono due gruppi di profili per lo stesso progetto, non li puoi visualizzare tutti insieme nella tua dashboard. Puoi vedere solo i profili che sono stati generati nell'ambito e nell'area geografica che stai visualizzando.

Per ulteriori informazioni sulla gerarchia delle risorse di Google Cloud, consulta Gerarchia delle risorse.

Snapshot profilo dati

Ogni profilo dati include uno snapshot della configurazione di scansione e il modello di ispezione utilizzato per generarlo. Puoi utilizzare questo snapshot per controllare le impostazioni che hai utilizzato per generare un determinato profilo dati.

Considerazioni sulla residenza dei dati

Cloud DLP è progettato per supportare la località dei dati. Se devi rispettare i requisiti di localizzazione dei dati, considera i seguenti punti:

Aree di ispezione

Cloud DLP esamina i dati nella stessa area geografica in cui sono archiviati. Ciò significa che i dati BigQuery non lasciano l'area geografica corrente.

Inoltre, un modello di ispezione può essere utilizzato solo per profilo per i dati che si trovano nella stessa area geografica di quel modello. Ad esempio, se configuri il profiler di dati per utilizzare un modello di ispezione archiviato nell'area geografica us-west1, Cloud DLP può utilizzare solo i dati del profilo dell'area geografica.

Puoi impostare un modello di ispezione dedicato per ogni area geografica in cui disponi di dati. Se fornisci un modello di ispezione che è archiviato nell'area geografica global, Cloud DLP lo utilizza per i dati nelle aree geografiche senza alcun modello di ispezione dedicato.

La seguente tabella fornisce scenari di esempio:

Scenario Assistenza
Scansiona i dati nell'area geografica us utilizzando un modello di ispezione dell'area geografica us. Supportato
Scansiona i dati nell'area geografica global utilizzando un modello di ispezione dell'area geografica us. Funzionalità non supportata
Scansiona i dati nell'area geografica us utilizzando un modello di ispezione dell'area geografica global. Supportato
Scansiona i dati nell'area geografica us utilizzando un modello di ispezione dell'area geografica us-east1. Funzionalità non supportata
Scansiona i dati nell'area geografica us-east1 utilizzando un modello di ispezione dell'area geografica us. Funzionalità non supportata
Scansiona i dati nell'area geografica us utilizzando un modello di ispezione dell'area geografica asia. Funzionalità non supportata

Configurazione del profilo dati

Quando Cloud DLP crea i profili dati, acquisisce un'istantanea della configurazione della scansione e del modello di ispezione e li archivia in ogni profilo dati della tabella. Se configuri il profiler di dati per utilizzare un modello di ispezione dall'area geografica global, Cloud DLP lo copia in qualsiasi area geografica con dati da profilare. Analogamente, copia la configurazione di scansione in queste aree geografiche.

Considera questo esempio: il progetto A contiene la tabella 1. La tabella 1 si trova nell'area geografica us-west1, la configurazione della scansione è nell'area geografica us-west2 e il modello di ispezione è nell'area geografica global.

Quando Cloud DLP analizza il progetto A, crea profili dati per la tabella 1 e li archivia nell'area geografica us-west1. Il profilo dati della tabella 1 contiene le copie della configurazione di scansione e il modello di ispezione utilizzato nell'operazione di profilazione.

Se non vuoi copiare il modello di ispezione in altre aree geografiche, non configurare Cloud DLP per la scansione dei dati in tali aree.

Archiviazione regionale dei profili dati

Dopo aver esaminato i dati, Cloud DLP genera profili di dati. Archivia ogni profilo dati nella stessa area geografica in cui sono archiviati i dati di destinazione, dove viene elaborata l'ispezione. Per visualizzare i profili dati nella tua dashboard, devi selezionare l'area geografica in cui risiedono. Se hai dati in più aree geografiche, devi cambiare area geografica per visualizzare ogni insieme di profili.

Aree geografiche non supportate

Se hai delle tabelle in un'area geografica non supportate da Cloud DLP, questo ignora le tabelle e mostra un errore quando visualizzi i profili dati.

Più aree geografiche

Cloud DLP considera una più aree geografiche come una sola area geografica e non come una raccolta di aree geografiche. Ad esempio, le aree geografiche multiple us e us-west1 sono trattate come due aree geografiche separate per quanto riguarda la residenza dei dati.

Conformità

Per informazioni su come Cloud DLP gestisce i dati e ti aiuta a soddisfare i requisiti di conformità, consulta Sicurezza dei dati.

Passaggi successivi