Invio dei risultati della scansione Cloud DLP a Data Catalog

Questa guida illustra come utilizzare Cloud Data Loss Prevention per eseguire la scansione di risorse Google Cloud specifiche e inviare i risultati a Data Catalog.

Data Catalog è un servizio di gestione dei metadati scalabile che ti consente di scoprire, gestire e comprendere rapidamente tutti i dati in Google Cloud.

Cloud DLP si integra in modo nativo con Data Catalog. Quando utilizzi un'azione Cloud DLP per eseguire la scansione delle tabelle BigQuery alla ricerca di dati sensibili, puoi inviare i risultati direttamente a Data Catalog sotto forma di un modello di tag.

Completando i passaggi di questa guida, procedi nel seguente modo:

  • Abilita Data Catalog e Cloud DLP.
  • Configurare Cloud DLP per eseguire la scansione di una tabella BigQuery.
  • Configura una scansione Cloud DLP per inviare i risultati di scansione a Data Catalog.

Per ulteriori informazioni su Data Catalog, consulta la documentazione di Data Catalog.

Costi

In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud:

  • Cloud DLP
  • BigQuery

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il Calcolatore prezzi. I nuovi utenti di Google Cloud possono essere idonei a una prova senza costi aggiuntivi.

Prima di iniziare

Prima di inviare i risultati di scansione di Cloud DLP a Data Catalog, devi eseguire le seguenti operazioni:

  • Passaggio 1: imposta la fatturazione.
  • Passaggio 2: crea un nuovo progetto e compila una nuova tabella BigQuery. (opzione facoltativa).
  • Passaggio 3: attiva Data Catalog
  • Passaggio 4: attiva Cloud DLP.

Le sottosezioni seguenti descrivono nel dettaglio ciascun passaggio.

Passaggio 1: imposta la fatturazione

Se non ne hai già uno, devi prima configurare un account di fatturazione.

Scopri come attivare la fatturazione

Passaggio 2: crea un nuovo progetto e compila una nuova tabella BigQuery (facoltativo)

Se stai configurando questa funzionalità per un lavoro di produzione o hai già una tabella BigQuery che vuoi analizzare, apri il progetto Google Cloud che contiene la tabella e vai al passaggio 3.

Se stai provando questa funzionalità e vuoi analizzare un "dummy" o un insieme di test di dati, crea un nuovo progetto. Per completare questo passaggio, devi disporre del ruolo IAM Autore progetto. Scopri di più sui ruoli IAM.

  1. Vai alla pagina Nuovo progetto in Google Cloud Console.

    Nuovo progetto

  2. Nell'elenco a discesa Account di fatturazione, seleziona l'account di fatturazione a cui fatturare il progetto.
  3. Nell'elenco a discesa Organizzazione, seleziona l'organizzazione in cui vuoi creare il progetto.
  4. Nell'elenco a discesa Posizione, seleziona l'organizzazione o la cartella in cui vuoi creare il progetto.
  5. Fai clic su Crea per creare il progetto.

Successivamente, scarica e archivia i dati di esempio:

  1. Vai al repository tutorial di Cloud Functions su GitHub.
  2. Seleziona uno dei file CSV con dati di esempio, quindi scarica il file.
  3. Successivamente, vai a BigQuery in Google Cloud Console.
  4. Seleziona il progetto.
  5. Fai clic su Crea set di dati.
  6. Fai clic su Crea tabella.
  7. Fai clic su Upload (Carica) e seleziona il file da caricare.
  8. Assegna un nome alla tabella, poi fai clic su Crea tabella.

Passaggio 3: attiva Data Catalog

A questo punto, attiva Data Catalog per il progetto contenente la tabella BigQuery che vuoi analizzare tramite Cloud DLP.

Per attivare Data Catalog utilizzando Google Cloud Console:

  1. Registra la tua applicazione per Data Catalog.

    Registra la tua applicazione per Data Catalog

  2. Nella pagina di registrazione, seleziona il progetto che vuoi utilizzare con Data Catalog dall'elenco a discesa Create a project (Crea un progetto).
  3. Dopo aver selezionato il progetto, fai clic su Continua.

Data Catalog è ora abilitato per il tuo progetto.

Passaggio 4: attiva Cloud DLP

Abilita Cloud DLP per lo stesso progetto per cui hai abilitato Data Catalog.

Per attivare Cloud DLP utilizzando Google Cloud Console:

  1. Registra la tua applicazione per Cloud DLP.

    Registra la tua applicazione per Cloud DLP

  2. Nella pagina di registrazione, dall'elenco a discesa Crea un progetto, seleziona lo stesso progetto che hai scelto nel passaggio precedente.
  3. Dopo aver selezionato il progetto, fai clic su Continua.

Cloud DLP è ora abilitato per il tuo progetto.

Configurare ed eseguire una scansione di ispezione di Cloud DLP

Puoi configurare ed eseguire una scansione di ispezione di Cloud DLP utilizzando la console Google Cloud o l'API DLP.

I modelli di tag Data Catalog sono archiviati nello stesso progetto e nella stessa area geografica della tabella BigQuery. Se stai ispezionando una tabella da un altro progetto, devi concedere il ruolo Proprietario TagTemplate Data Catalog (roles/datacatalog.tagTemplateOwner) all'agente di servizio Cloud DLP nel progetto in cui esiste la tabella BigQuery.

console Google Cloud

Per configurare un job di scansione di una tabella BigQuery utilizzando Cloud DLP:

  1. In Google Cloud Console, apri Cloud DLP.

    Vai a Cloud DLP

  2. Nel menu Crea, scegli Job o trigger di job.

    Screenshot del menu a discesa Crea nuovo job o trigger di job.

  3. Inserisci le informazioni sul job Cloud DLP e fai clic su Continua per completare ogni passaggio:

    • Per il Passaggio 1: scegli i dati di input, assegna un nome al job inserendo un valore nel campo Nome. In Località, scegli BigQuery dal menu Tipo di archiviazione, quindi inserisci le informazioni per la tabella da analizzare. La sezione Campionamento è preconfigurata per l'esecuzione di una scansione di esempio sui dati. Puoi modificare i campi Limita righe per e Numero massimo di righe per risparmiare risorse se disponi di una grande quantità di dati. Per maggiori dettagli, consulta la sezione Scegliere i dati di input.

    • (Facoltativo) Nel Passaggio 2: configura il rilevamento, configurerai i tipi di dati da cercare, chiamati "infoType." Ai fini di questa procedura dettagliata, mantieni selezionato l'elemento infoType predefinito. Per maggiori dettagli, consulta la sezione Configura il rilevamento.

    • Nel Passaggio 3: aggiungi azioni, attiva Salva in Catalogo dati.

    • (Facoltativo) Per il Passaggio 4: pianifica, ai fini di questa procedura dettagliata, lascia il menu impostato su None in modo che la scansione venga eseguita una sola volta. Per saperne di più sulla pianificazione delle scansioni ripetute, consulta il programmazione.

  4. Fai clic su Crea. Il job viene eseguito immediatamente.

DLP API

In questa sezione configurerai ed eseguirai un job di scansione di Cloud DLP.

Il job di ispezione che configuri qui indica a Cloud DLP di analizzare i dati BigQuery di esempio descritti nel passaggio 2 riportato sopra o i tuoi dati BigQuery. La configurazione del job specificata include anche la richiesta a Cloud DLP di salvare i risultati della scansione in Data Catalog.

Passaggio 1: annota l'identificatore del progetto

  1. Vai alla console Google Cloud.

    Vai a Google Cloud Console

  2. Fai clic su Seleziona.

  3. Nell'elenco a discesa Seleziona da, seleziona l'organizzazione per la quale hai abilitato Data Catalog.

  4. In ID, copia l'ID del progetto contenente i dati che vuoi analizzare. Questo è il progetto descritto nel passaggio set di archiviazione spazio di archiviazione descritto in precedenza in questa pagina.

  5. In Nome, fai clic sul progetto per selezionarlo.

Passaggio 2: apri Explorer API e configura il job

  1. Vai a Explorer API nella pagina di riferimento per il metodo dlpJobs.create. Per mantenere queste istruzioni disponibili, fai clic con il pulsante destro del mouse sul link seguente e aprilo in una nuova scheda o finestra:

    Apri Explorer API

  2. Nella casella principale, inserisci quanto segue, dove project-id è l'ID progetto che hai annotato in precedenza nel passaggio precedente:

    projects/project-id

    Ora copia il seguente JSON. Seleziona i contenuti del campo Corpo della richiesta in Explorer API, quindi incolla il JSON per sostituire i contenuti. Assicurati di sostituire in modo corretto i segnaposto project-id, bigquery-dataset-name e bigquery-table-name con l'ID progetto effettivo e i nomi delle tabelle e dei set di dati BigQuery.

    {
      "inspectJob":
      {
        "storageConfig":
        {
          "bigQueryOptions":
          {
            "tableReference":
            {
              "projectId": "project-id",
              "datasetId": "bigquery-dataset-name",
              "tableId": "bigquery-table-name"
            }
          }
        },
        "inspectConfig":
        {
          "infoTypes":
          [
            {
              "name": "EMAIL_ADDRESS"
            },
            {
              "name": "PERSON_NAME"
            },
            {
              "name": "US_SOCIAL_SECURITY_NUMBER"
            },
            {
              "name": "PHONE_NUMBER"
            }
          ],
          "includeQuote": true,
          "minLikelihood": "UNLIKELY",
          "limits":
          {
            "maxFindingsPerRequest": 100
          }
        },
        "actions":
        [
          {
            "publishFindingsToCloudDataCatalog": {}
          }
        ]
      }
    }
    

Per scoprire di più sulle opzioni di scansione disponibili, consulta Ispezione dello spazio di archiviazione e dei database per i dati sensibili. Per un elenco completo dei tipi di informazioni che Cloud DLP può cercare e rilevare, consulta il riferimento InfoType.

Passaggio 3: esegui la richiesta per avviare il job di scansione

Dopo aver configurato il job seguendo i passaggi precedenti, fai clic su Esegui per inviare la richiesta. Se la richiesta ha esito positivo, viene visualizzata una risposta con un codice riuscito e un oggetto JSON che indica lo stato del job Cloud DLP che hai appena creato.

La risposta alla tua richiesta di scansione include l'ID job del job di scansione di ispezione come chiave "name" e lo stato corrente del job di scansione di ispezione come chiave "state". Poiché hai appena inviato la richiesta, lo stato del lavoro in quel momento è "PENDING".

Verifica lo stato della scansione di ispezione di Cloud DLP

Dopo aver inviato la richiesta di scansione, la scansione dei contenuti inizia immediatamente.

console Google Cloud

Per controllare lo stato del job di scansione di ispezione:

  1. In Google Cloud Console, apri Cloud DLP.

    Vai a Cloud DLP

  2. Fai clic sulla scheda Job e trigger di job, quindi fai clic su Tutti i job.

Il job che hai appena eseguito probabilmente sarà in cima all'elenco. Controlla la colonna Stato per assicurarti che il suo stato sia Fine.

Puoi fare clic sull'ID job del job per visualizzarne i risultati. Ogni rilevatore di infoType elencato nella pagina Dettagli job è seguito dal numero di corrispondenze trovate nei contenuti.

DLP API

Per controllare lo stato del job di scansione di ispezione:

  1. Vai a Explorer API nella pagina di riferimento per il metodo dlpJobs.get facendo clic sul seguente pulsante:

    Apri Explorer API

  2. Nella casella name, digita il nome del job dalla risposta JSON alla richiesta di scansione nel seguente modulo:

    projects/project-id/dlpJobs/job-id
    L'ID job è nel formato i-1234567890123456789.

  3. Per inviare la richiesta, fai clic su Esegui.

Se la chiave "state" dell'oggetto JSON della risposta indica che il job è "DONE", il job di scansione è terminato.

Per visualizzare il resto del JSON della risposta, scorri verso il basso nella pagina. Sotto "result" > "infoTypeStats", ogni tipo di informazione elencato dovrebbe avere una "count" corrispondente. In caso contrario, assicurati di aver inserito il codice JSON in modo accurato e che il percorso o la posizione dei dati siano corretti.

Al termine del job di scansione, puoi passare alla sezione successiva di questa guida per visualizzare i risultati della scansione in Security Command Center.

Visualizzare i risultati di scansione di Cloud DLP in Data Catalog

Dato che hai indicato a Cloud DLP di inviare i risultati del job di scansione di ispezione a Data Catalog, ora puoi visualizzare i tag e il modello di tag creati automaticamente nell'interfaccia utente di Data Catalog:

  1. Vai alla pagina Data Catalog in Google Cloud Console.

    Vai a Data Catalog

  2. Cerca la tabella che hai controllato.
  3. Fai clic sui risultati che corrispondono alla tabella per visualizzare i metadati della tabella.

Lo screenshot seguente mostra la visualizzazione dei metadati di Data Catalog di una tabella di esempio:

Dettagli DLP in Data Catalog..

Individuazione dati Cloud DLP

I risultati di Cloud DLP sono inclusi nel modulo di riepilogo per la tabella analizzata. Questo riepilogo include i conteggi totali degli infoType, nonché i dati di riepilogo sul job di ispezione che includono date e ID risorsa del job.

Vengono elencati tutti i infoTypes per cui è stata eseguita l'ispezione. Quelli con risultati mostrano un conteggio maggiore di zero.

Pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo argomento, esegui una delle seguenti operazioni, a seconda che tu abbia utilizzato dati di esempio o dati personali:

Elimina il progetto

Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato seguendo le istruzioni fornite in questo argomento.

Per eliminare il progetto:

  1. In Google Cloud Console, vai alla pagina Progetti.

    Vai alla pagina Progetti

  2. Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare e fai clic su Elimina progetto. Dopo aver selezionato la casella di controllo accanto al nome del progetto, fai clic su
    Elimina progetto
  3. Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.

Quando elimini il progetto utilizzando questo metodo, vengono eliminati anche il job Cloud DLP e il bucket Cloud Storage creato. Non è necessario seguire le istruzioni riportate nelle sezioni seguenti.

Eliminazione del job o del trigger di Cloud DLP

Se hai analizzato i dati, elimina il job di analisi o il trigger di job appena creato.

console Google Cloud

  1. In Google Cloud Console, apri Cloud DLP.

    Vai a Cloud DLP

  2. Fai clic sulla scheda Job e trigger di job, quindi sulla scheda Trigger job.

  3. Nella colonna Azioni per il trigger di job da eliminare, fai clic sul menu Altre azioni (visualizzato come tre puntini disposti in verticale) , quindi fai clic su Elimina.

Se vuoi, puoi anche eliminare i dettagli del job che hai eseguito. Fai clic sulla scheda Tutti i job e poi nella colonna Azioni relativa al job da eliminare, fai clic sul menu Altre azioni (visualizzato come tre puntini disposti in verticale) , quindi su Elimina.

DLP API

  1. Vai a Explorer API nella pagina di riferimento per il metodo dlpJobs.delete facendo clic sul seguente pulsante:

    Apri Explorer API

  2. Nella casella name, inserisci il nome del job dalla risposta JSON alla richiesta di scansione, che ha il seguente formato:

    projects/project-id/dlpJobs/job-id
    L'ID job è nel formato i-1234567890123456789.

Se hai creato job di scansione aggiuntivi o se vuoi assicurarti di aver eliminato correttamente il job, puoi elencare tutti i job esistenti:

  1. Vai a Explorer API nella pagina di riferimento per il metodo dlpJobs.list facendo clic sul seguente pulsante:

    Apri Explorer API

  2. Nella casella principale, digita l'identificatore del progetto nel seguente modulo, dove project-id è l'identificatore del progetto:

    projects/project-id

  3. Fai clic su Execute (Esegui).

Se nella risposta non sono elencati job, hai eliminato tutti i job. Se i job sono elencati nella risposta, ripeti la procedura di eliminazione sopra per tali job.

Passaggi successivi