Profili di dati per dati BigQuery

In questa pagina viene descritto il servizio di rilevamento (noto anche come profilo profiler) e il modo in cui utilizzarlo per determinare dove si trovano i dati sensibili e ad alto rischio all'interno della tua organizzazione.

Panoramica

Profiler ti consente di proteggere i dati della tua organizzazione identificando dove si trovano i dati sensibili e ad alto rischio. Quando attivi la profilazione dei dati, Cloud DLP analizza automaticamente tutte le tabelle e le colonne BigQuery nell'intera organizzazione, nelle singole cartelle e nei singoli progetti. Crea quindi profili di dati a livello di tabella, colonna e progetto.

Un profilo dati è un insieme di metriche che Cloud DLP raccoglie dalla scansione di una determinata risorsa. Queste metriche includono i infoType previsti, i livelli di rischio e sensibilità dei dati valutati e i metadati relativi alle tue tabelle. Utilizza questi approfondimenti per prendere decisioni consapevoli su come proteggere, condividere e utilizzare i tuoi dati.

Finché la configurazione del profiler di dati è attiva, Cloud DLP esegue automaticamente la scansione delle tabelle che aggiungi e modifichi e genera profili di dati nuovi e aggiornati per tali tabelle.

L'immagine seguente mostra un elenco di profili di dati di colonna. Fai clic sull'immagine per ingrandirla.

Screenshot dei profili di dati della colonna

Per un elenco delle metriche incluse in ogni profilo dati, consulta Riferimento metriche.

Creazione del profilo dati

Per iniziare a generare profili di dati, crea una configurazione di scansione (detta anche configurazione di profili di dati). Questa configurazione di scansione consente di impostare la risorsa (organizzazione, cartella o progetto) da analizzare. Tutti i set di dati e le tabelle BigQuery nella risorsa rientrano nell'ambito della profilazione dei dati.

Quando crei una configurazione di scansione, puoi anche impostare il modello di ispezione da utilizzare. Il modello di ispezione consente di specificare i tipi di dati sensibili che devono essere scansionati da Cloud DLP.

Quando Cloud DLP crea profili di dati, analizza le tabelle e le colonne BigQuery in base alla configurazione della scansione e al modello di ispezione. Un profilo dati è un'istantanea dell'analisi e delle metriche raccolte in un determinato momento.

Utilizzo di profili dati

Il flusso di lavoro per l'utilizzo dei profili di dati è il seguente:

  1. Verifica di disporre dei ruoli utente richiesti
  2. Stima il costo di profilazione dei dati per un singolo progetto
  3. Profilare una tabella in modalità di test
  4. Profila un singolo progetto
  5. Stimare il costo di profilazione dei dati per un'organizzazione o una cartella
  6. Profilare un'organizzazione o una cartella
  7. Solo analisi di cartelle o organizzazioni: concedi l'accesso alla profilazione all'agente di servizio
  8. Visualizzare i profili di dati
  9. Analisi dei profili di dati
  10. Correzione dei risultati

Tabelle supportate

Tabelle di profili Cloud DLP supportate dall'API BigQuery Storage Read, tra cui:

  • Tabelle BigQuery normali
  • Tabelle BigLake archiviate in Cloud Storage

Le seguenti funzionalità non sono supportate:

Ruoli richiesti per configurare e visualizzare i profili di dati

Le seguenti sezioni elencano i ruoli utente richiesti, classificati in base allo scopo. A seconda della configurazione della tua organizzazione, puoi decidere di fare eseguire attività diverse a persone diverse. Ad esempio, la persona che configura i profili di dati potrebbe essere diversa dalla persona che li monitora regolarmente.

Ruoli necessari per lavorare con i profili di dati a livello di organizzazione o di cartella

Questi ruoli ti consentono di configurare e visualizzare i profili di dati a livello di organizzazione o di cartella.

Assicurati che questi ruoli vengano concessi alle persone appropriate a livello di organizzazione. In alternativa, l'amministratore di Google Cloud può creare ruoli personalizzati che dispongono solo delle autorizzazioni pertinenti.

Purpose Ruolo predefinito Autorizzazioni pertinenti
Configurare e visualizzare i profili di dati Amministratore DLP (roles/dlp.admin)
  • dlp.inspectTemplates.create
  • dlp.jobs.create
  • dlp.jobTriggers.create
  • dlp.columnDataProfiles.list
  • dlp.jobs.list
  • dlp.jobTriggers.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
Autore progetto (roles/resourcemanager.projectCreator)
  • resourcemanager.organizations.get
  • resourcemanager.projects.create
Concedi l'accesso alla profilazione dei dati Una delle seguenti opzioni:
  • Amministratore dell'organizzazione (roles/resourcemanager.organizationAdmin)
  • Amministratore sicurezza (roles/iam.securityAdmin)
  • resourcemanager.organizations.getIamPolicy
  • resourcemanager.organizations.setIamPolicy
Visualizzare i profili dati (sola lettura) Lettore profili dati DLP (roles/dlp.dataProfilesReader)
  • dlp.columnDataProfiles.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
Lettore DLP (roles/dlp.reader)
  • dlp.jobs.list
  • dlp.jobTriggers.list

Ruoli richiesti per lavorare con i profili di dati a livello di progetto

Questi ruoli ti consentono di configurare e visualizzare i profili di dati a livello di progetto.

Assicurati che questi ruoli vengano concessi alle persone appropriate a livello di progetto. In alternativa, l'amministratore di Google Cloud può creare ruoli personalizzati che dispongono solo delle autorizzazioni pertinenti.

Purpose Ruolo predefinito Autorizzazioni pertinenti
Configurare e visualizzare i profili di dati Amministratore DLP (roles/dlp.admin)
  • dlp.inspectTemplates.create
  • dlp.jobs.create
  • dlp.jobTriggers.create
  • dlp.columnDataProfiles.list
  • dlp.jobs.list
  • dlp.jobTriggers.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
Visualizzare i profili dati (sola lettura) Lettore profili dati DLP (roles/dlp.dataProfilesReader)
  • dlp.columnDataProfiles.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
Lettore DLP (roles/dlp.reader)
  • dlp.jobs.list
  • dlp.jobTriggers.list

Configurazione della scansione

Una configurazione della scansione o una configurazione del profilo dati specifica quale risorsa (organizzazione, cartella o progetto) analizzare, quale modello di ispezione utilizzare e cosa fare con i risultati. Contiene inoltre dettagli amministrativi, come il container dell'agente di servizio da associare alla scansione e l'account di fatturazione da utilizzare.

Puoi creare una configurazione di scansione per la tua organizzazione e un'altra per una particolare cartella. Se due o più configurazioni di scansione attive hanno lo stesso progetto nell'ambito di applicazione, Cloud DLP determina quale configurazione di scansione può generare profili per il progetto in questione.

Puoi anche creare una configurazione di scansione a livello di progetto. Questo tipo di configurazione di scansione può sempre profilare il progetto di destinazione e non compete con altre configurazioni a livello della cartella o dell'organizzazione padre.

La prima volta che crei una configurazione di scansione, devi specificare dove vuoi archiviarla in Cloud DLP. Tutte le configurazioni di scansione create successivamente vengono archiviate nella stessa area geografica.

Ad esempio, se crei una configurazione di scansione per la Cartella A e la memorizzi nell'area geografica us-west1, tutte le configurazioni di scansione create in un secondo momento per qualsiasi altra risorsa vengono archiviate anche nell'area geografica.

Modello di ispezione

Un modello di ispezione specifica i tipi di informazioni (o infoType) che Cloud DLP cerca durante la scansione dei dati. Qui puoi fornire una combinazione di infoType integrati e infoType personalizzati facoltativi.

Puoi anche fornire un livello di probabilità per restringere quello che Cloud DLP considera una corrispondenza. Puoi aggiungere serie di regole per escludere risultati indesiderati o includere ulteriori risultati.

Se modifichi un modello di ispezione utilizzato dalla configurazione della scansione, le modifiche vengono applicate solo alle scansioni future. Eventuali profili dati esistenti non vengono sovrascritti. Ad esempio, se modifichi il modello per aggiungere un infoType, la modifica interessa solo le tabelle ancora da analizzare. L'azione non comporta una nuova scansione di tutte le tabelle esistenti.

Devi avere un modello di ispezione in ogni area geografica in cui disponi di dati da profilare. Se vuoi utilizzare un unico modello per più regioni, puoi utilizzare un modello che è memorizzato nella regione global. Se i criteri dell'organizzazione ti impediscono di creare un modello di ispezione global, devi impostare un modello di ispezione dedicato per ogni regione. Per ulteriori informazioni, consulta la sezione Considerazioni sulla residenza dei dati.

I modelli di ispezione sono un componente essenziale della piattaforma Cloud DLP. I profili dati utilizzano gli stessi modelli di ispezione che puoi utilizzare in tutti i servizi Cloud DLP. Per ulteriori informazioni sui modelli di ispezione, consulta Modelli.

Container dell'agente di servizio e agente di servizio

Quando crei una configurazione di scansione per la tua organizzazione o per una cartella, Cloud DLP ti chiede di fornire un container dell'agente di servizio. Un container dell'agente di servizio è un progetto Google Cloud che Cloud DLP utilizza per monitorare gli addebiti fatturati relativi alle operazioni di profilazione a livello di organizzazione e di cartella.

Il container dell'agente di servizio contiene un agente di servizio, che è un account di servizio gestito da Google che Cloud DLP utilizza per profilare i dati per tuo conto. È necessario un agente di servizio per eseguire l'autenticazione in Cloud DLP e altre API. L'agente di servizio deve disporre di tutte le autorizzazioni necessarie per accedere ai dati e definirne il profilo. L'ID dell'agente di servizio ha il seguente formato:

service-PROJECT_NUMBER@dlp-api.iam.gserviceaccount.com

In questo caso, PROJECT_NUMBER è l'identificatore numerico del container dell'agente di servizio.

Quando imposti il container dell'agente di servizio, puoi scegliere un progetto esistente. Se il progetto selezionato contiene un agente di servizio, Cloud DLP concede le autorizzazioni IAM necessarie a tale agente di servizio. Se il progetto non ha un agente di servizio, Cloud DLP ne crea uno e concede automaticamente le autorizzazioni di profilazione dei dati.

In alternativa, puoi scegliere che Cloud DLP crei automaticamente il container dell'agente di servizio e l'agente di servizio. Cloud DLP concede automaticamente le autorizzazioni di profilazione dei dati all'agente di servizio.

In entrambi i casi, se Cloud DLP non concede l'accesso alla profilazione dei dati all'agente di servizio, verrà visualizzato un errore quando visualizza i dettagli della configurazione della scansione.

Per le configurazioni di scansione a livello di progetto, non è necessario un container dell'agente di servizio. Il progetto che stai profilando ha lo scopo del container dell'agente di servizio. Per eseguire operazioni di profilazione, Cloud DLP utilizza l'agente di servizio di quel progetto.

Accesso alla profilazione dei dati a livello di organizzazione o cartella

Quando configuri la profilazione a livello di organizzazione o di cartella, Cloud DLP tenta di concedere automaticamente all'agente di servizio l'accesso alla profilazione dei dati. Tuttavia, se non hai le autorizzazioni per concedere ruoli IAM, Cloud DLP non può eseguire questa azione per tuo conto. Una persona con queste autorizzazioni nella tua organizzazione, ad esempio un amministratore di Google Cloud, deve concedere l'accesso alla profilazione dei dati all'agente di servizio.

Frequenza predefinita di generazione del profilo dati

Per impostazione predefinita, Cloud DLP profila i dati come segue:

  1. Dopo aver creato una configurazione di scansione per una determinata risorsa, Cloud DLP esegue una scansione iniziale, profilando tutte le tabelle nella risorsa. Dopo la scansione iniziale, monitora continuamente le tabelle BigQuery per rilevare eventuali aggiunte o modifiche introdotte.

  2. Cloud DLP profila le nuove tabelle che aggiungi poco dopo averle aggiunte.

  3. Ogni 30 giorni, Cloud DLP ridefinisce le tabelle esistenti che hanno subito modifiche allo schema negli ultimi 30 giorni.

Tuttavia, nella configurazione della scansione puoi personalizzare la frequenza di profilazione creando una o più pianificazioni per diversi sottoinsiemi di dati. Puoi anche specificare sottoinsiemi di dati che non vuoi mai profilare. Per ulteriori informazioni, consulta Gestire le pianificazioni nelle istruzioni per configurare la profilazione.

Per scenari, consulta Esempi di prezzi per la profilazione dei dati.

Profilazione del rendimento

Il tempo necessario per creare un profilo dei dati varia in base a diversi fattori, inclusi, a titolo esemplificativo:

  • Numero di tabelle da profilare
  • Dimensioni delle tabelle
  • Numero di colonne nelle tabelle
  • Tipi di dati nelle colonne

Pertanto, le prestazioni di Cloud DLP in un'attività di profilazione o profilazione precedente non sono indicative del suo rendimento nelle attività di profilazione future.

Conservazione dei profili di dati

Cloud DLP conserva la versione più recente di un profilo dati per 13 mesi. Quando Cloud DLP riprofila una tabella aggiornata, sostituisce i profili dati esistenti della tabella con altri nuovi.

Considera i seguenti scenari:

  • Il 1° gennaio Cloud DLP profila la tabella A. La tabella A non cambia nel corso di un anno e, pertanto, non viene più profilata. In questo caso, Cloud DLP conserva i profili di dati per la tabella A per 13 mesi prima di eliminarli.

  • Il 1° gennaio Cloud DLP profila la tabella A. Entro il mese, qualcuno nella tua organizzazione aggiorna lo schema di questa tabella. A causa di questa modifica, il mese successivo Cloud DLP ridefinisce automaticamente la tabella A. I nuovi profili di dati generati sovrascrivono quelli creati a gennaio.

Per informazioni su come Cloud DLP addebita i costi per la profilazione di tabelle nuove e modificate, consulta Prezzi della profilazione dei dati.

Se vuoi conservare i profili di dati a tempo indeterminato o conservare un record delle modifiche apportate, ti consigliamo di salvarli in BigQuery quando configuri la profilazione. Sei tu a scegliere il set di dati BigQuery in cui salvare i profili e a controllare il criterio di scadenza della tabella per il set di dati.

Override delle configurazioni di scansione

Puoi creare un massimo di una configurazione di scansione per ogni organizzazione, cartella e progetto.

Se due o più configurazioni di scansione attive hanno lo stesso progetto nell'ambito di applicazione, si applicano le seguenti regole:

  • Tra le configurazioni di scansione a livello di organizzazione e di cartella, quella più vicina al progetto sarà in grado di generare profili di dati per quel progetto. Questa regola si applica anche se esiste anche una configurazione della scansione a livello di progetto per quel progetto.
  • Cloud DLP considera le configurazioni di scansione a livello di progetto indipendentemente dalle configurazioni a livello di organizzazione e cartella. Una configurazione di scansione creata a livello di progetto non può sostituire quella creata per una cartella o un'organizzazione padre.

Considera l'esempio seguente, in cui sono presenti tre configurazioni di scansione attive:

Diagramma di una gerarchia di risorse con una configurazione di scansione applicata a un'organizzazione, a una cartella e a un progetto

Qui la configurazione della scansione 1 si applica all'intera organizzazione, la configurazione della scansione 2 si applica alla cartella Team B e la configurazione della scansione 3 si applica al progetto di produzione. In questo esempio:

  • Cloud DLP profila tutte le tabelle nei progetti che non si trovano nella cartella Team B in base alla configurazione della scansione 1.
  • Cloud DLP profila tutte le tabelle nei progetti nella cartella Team B, incluse le tabelle nel progetto di produzione, in base alla configurazione della scansione 2.
  • Cloud DLP profila tutte le tabelle nel progetto di produzione in base alla configurazione della scansione 3.

In questo esempio, Cloud DLP genera in modo efficace due insiemi di profili per il progetto di Produzione, uno impostato per ciascuna delle seguenti configurazioni di scansione:

  • Configurazione scansione 2
  • Configurazione scansione 3

Tuttavia, anche se esistono due insiemi di profili per lo stesso progetto, non li visualizzi tutti insieme nella dashboard. Puoi vedere solo i profili che sono stati generati nell'area geografica e nell'area geografica che stai visualizzando.

Per ulteriori informazioni sulla gerarchia delle risorse di Google Cloud, consulta Gerarchia delle risorse.

Snapshot profilo dati

Ogni profilo dati include uno snapshot della configurazione della scansione e il modello di ispezione utilizzato per generarlo. Puoi utilizzare questo snapshot per controllare le impostazioni che hai utilizzato per generare un determinato profilo dati.

Considerazioni sulla localizzazione dei dati

Cloud DLP è progettato per supportare la residenza dei dati. Se devi rispettare i requisiti di localizzazione dei dati, considera i seguenti punti:

Regioni di ispezione

Cloud DLP esamina i tuoi dati nella stessa regione in cui sono archiviati. Ciò significa che i tuoi dati BigQuery non lasciano l'area geografica corrente.

Inoltre, un modello di ispezione può essere utilizzato solo per profilare i dati che si trovano nella stessa area geografica di quel modello. Ad esempio, se configuri il profiler di dati per l'utilizzo di un modello di ispezione archiviato nella regione us-west1, Cloud DLP può profilare solo i dati di quella regione.

Puoi impostare un modello di ispezione dedicato per ogni area geografica in cui sono disponibili dati. Se fornisci un modello di ispezione archiviato nella regione global, Cloud DLP lo utilizza per i dati nelle regioni senza un modello di ispezione dedicato.

La tabella seguente presenta scenari di esempio:

Scenario Assistenza
Scansiona i dati nella regione us utilizzando un modello di ispezione della regione us. Supportato
Scansiona i dati nella regione global utilizzando un modello di ispezione della regione us. Funzionalità non supportata
Scansiona i dati nella regione us utilizzando un modello di ispezione della regione global. Supportato
Scansiona i dati nella regione us utilizzando un modello di ispezione della regione us-east1. Funzionalità non supportata
Scansiona i dati nella regione us-east1 utilizzando un modello di ispezione della regione us. Funzionalità non supportata
Scansiona i dati nella regione us utilizzando un modello di ispezione della regione asia. Funzionalità non supportata

Configurazione profilo dati

Quando Cloud DLP crea profili di dati, acquisisce uno snapshot della configurazione dell'analisi e del modello di ispezione e li archivia in ogni profilo dati della tabella. Se configuri il profiler di dati per l'utilizzo di un modello di ispezione dalla regione global, Cloud DLP copia quel modello in qualsiasi regione con dati da profilare. Allo stesso modo, copia la configurazione della scansione in quelle aree geografiche.

Considera questo esempio: il progetto A contiene la tabella 1. La tabella 1 si trova nella regione us-west1; la configurazione della scansione si trova nella regione us-west2; il modello di ispezione si trova nella regione global.

Quando Cloud DLP analizza il progetto A, crea profili di dati per la tabella 1 e li archivia nell'area geografica us-west1. Il profilo dati della tabella della tabella 1 contiene copie della configurazione della scansione e del modello di ispezione utilizzati nell'operazione di profilazione.

Se non vuoi che il modello di ispezione venga copiato in altre aree geografiche, non configurare Cloud DLP per eseguire la scansione dei dati in quelle aree.

Archiviazione dei profili dati a livello di regione

Dopo l'ispezione dei dati, Cloud DLP genera i profili di dati. Archivia ciascun profilo di dati nella stessa regione in cui sono archiviati i dati di destinazione, luogo in cui viene elaborata l'ispezione. Per visualizzare i profili di dati nella tua dashboard, devi prima selezionare la regione in cui risiedono. Se hai dati in più regioni, devi cambiare regione per visualizzare ogni insieme di profili.

Regioni non supportate

Se hai tabelle in un'area geografica non supportate da Cloud DLP, le tabelle vengono saltate e viene visualizzato un errore quando visualizza i profili di dati.

Più regioni

Cloud DLP considera più regioni come un'unica regione e non una raccolta di regioni. Ad esempio, la multiregione us e la regione us-west1 vengono trattate come due regioni separate per quanto riguarda la residenza dei dati.

Conformità

Per informazioni su come Cloud DLP gestisce i tuoi dati e ti aiuta a soddisfare i requisiti di conformità, vedi Sicurezza dei dati.

Passaggi successivi