Oscuramento dei dati riservati

Questo tutorial mostra come utilizzare il plug-in Cloud Data Fusion per Cloud DLP per oscurare i dati sensibili.

Scenario

Considera la seguente situazione in cui devono essere oscurate alcune informazioni sensibili sui clienti:

Il team di assistenza documenta i dettagli di ogni richiesta di assistenza che gestisce in un ticket di assistenza. Tutte le informazioni contenute nella richiesta di assistenza vengono inserite in un file CSV. I tecnici dell'assistenza non sono tenuti a documentare le informazioni sul cliente che sono considerate sensibili, ma a volte lo fanno per errore. Nel file CSV vengono visualizzati alcuni numeri di telefono dei clienti.

Vuoi analizzare il file CSV e nascondere tutti i numeri di telefono. Puoi creare una pipeline di Cloud Data Fusion che oscura i dati sensibili dei clienti utilizzando il plug-in Cloud DLP.

In questo tutorial creerai una pipeline che:

  • Oscura i numeri di telefono dei clienti mascherandoli con il carattere #.
  • Archivia i dati sensibili mascherati e i dati non sensibili in un bucket Cloud Storage.

Obiettivi

  • Connettere Cloud Data Fusion a un'origine Cloud Storage.
  • Esegui il deployment del plug-in Cloud DLP.
  • Creare un modello Cloud DLP personalizzato.
  • Utilizza il plug-in per la trasformazione di Redact per mascherare i dati sensibili dei clienti.
  • Scrivere i dati di output in Cloud Storage.

Costi

Questo tutorial utilizza i seguenti componenti fatturabili di Google Cloud:

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il Calcolatore prezzi. I nuovi utenti di Google Cloud possono beneficiare di una prova gratuita.

Prima di iniziare

  1. Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
  2. Nella pagina del selettore dei progetti in Google Cloud Console, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  3. Assicurati che la fatturazione sia attivata per il tuo progetto Cloud. Scopri come verificare se la fatturazione è abilitata su un progetto.

  4. Nella pagina del selettore dei progetti in Google Cloud Console, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  5. Assicurati che la fatturazione sia attivata per il tuo progetto Cloud. Scopri come verificare se la fatturazione è abilitata su un progetto.

  6. Abilita le API Cloud Data Fusion, Cloud Storage, BigQuery, and Dataproc.

    Abilita le API

  7. Crea un'istanza di Cloud Data Fusion.

Ottenere le autorizzazioni di Cloud DLP

  1. In Google Cloud Console, vai alla pagina IAM.

    Apri la pagina IAM

  2. Nella colonna Principal della tabella delle autorizzazioni, trova l'account di servizio che corrisponde al formato service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com.

  3. Fai clic su Modifica.

  4. Fai clic su Aggiungi un altro ruolo.

  5. Utilizza la barra di ricerca per cercare e seleziona Amministratore DLP.

  6. Fai clic su Salva.

  7. Verifica che l'amministratore DLP venga visualizzato nella colonna Ruolo.

Quando utilizzi Cloud Data Fusion, utilizzi sia Google Cloud Console sia l'interfaccia utente separata di Cloud Data Fusion. In Google Cloud Console, puoi creare un progetto in Google Cloud Console e creare ed eliminare le istanze di Cloud Data Fusion. Nell'interfaccia utente di Cloud Data Fusion, puoi utilizzare le varie pagine, come Studio o Wrangler, per utilizzare le funzionalità di Cloud Data Fusion.

  1. In Google Cloud Console, apri la pagina Istanze.

    Apri la pagina Istanze

  2. Nella colonna Azioni per l'istanza, fai clic sul link Visualizza istanza. La UI di Cloud Data Fusion si apre in una nuova scheda del browser.

Crea la pipeline

Creare una pipeline che oscura i dati sensibili dei clienti. La pipeline che crei include quanto segue:

  • Legge i dati di input utilizzando il plug-in di origine Cloud Storage.
  • Esegue il deployment del plug-in Cloud DLP dall'hub.
  • Scrive i dati di output utilizzando un plug-in per il sink di Cloud Storage.

Caricare i dati dei clienti

Questo tutorial utilizza il set di dati di input CallCenterRecords.csv, fornito in un bucket Cloud Storage disponibile pubblicamente.

  1. Apri l'istanza di Cloud Data Fusion e fai clic su Menu > Studio.

  2. Nel menu Origine, fai clic sul plug-in Cloud Storage.

    Seleziona il plug-in.

  3. Sul nodo Cloud Storage, fai clic su Proprietà.

  4. Inserisci un nome nel campo Nome del riferimento.

  5. Nel campo Percorso, inserisci gs://datafusion-sample-datasets/CallCenterRecords.csv.

  6. Nel campo Formato, seleziona CSV.

  7. Per lo schema di output, elimina i campi offset e body. Fai clic su Aggiungi e inserisci i seguenti campi:

    • In data
    • Banca
    • Stato
    • CAP
    • Note

    Inserisci le proprietà sorgente.

  8. Fai clic su Convalida per verificare la presenza di errori.

  9. Fai clic su Chiudi.

Oscura i dati sensibili

Il plug-in dlp_name_short Redact identifica i record sensibili nel tuo flusso di input dei dati e applica le trasformazioni da te definite a tali record. Un record di dati è considerato sensibile se corrisponde ai filtri predefiniti di Cloud DLP che hai scelto o a un modello personalizzato che hai definito.

In questo tutorial vuoi oscurare i numeri di telefono dei clienti a cui alcuni tecnici del team di assistenza hanno preso nota accidentalmente. Ha inserito le informazioni sensibili nella sezione Note dei ticket di assistenza, visualizzata nella colonna Note del file CSV. Puoi creare un modello Cloud DLP personalizzato e poi fornire l'ID modello nel menu delle proprietà del plug-in.

Esegui il deployment del plug-in Cloud DLP

  1. Nell'istanza di Cloud Data Fusion, fai clic su Hub.

  2. Fai clic sul plug-in Cloud DLP.

  3. Fai clic su Esegui il deployment.

  4. Fai clic su Finish (Fine).

  5. Fai clic su Chiudi per uscire dalla finestra di dialogo Cloud DLP.

  6. Fai clic su Chiudi per uscire dall'hub.

Creare un modello personalizzato

  1. In Google Cloud Console, vai alla pagina Cloud DLP.

    Vai a Cloud DLP

  2. Nel menu Crea, scegli Modello. immagine

  3. Nel campo ID modello, inserisci un ID per il modello.

  4. Fai clic su Continua.

  5. Nel campo Configura rilevamento, fai clic su Gestisci infotype.

  6. Nella scheda Integrata, utilizza il filtro per cercare "numero di telefono".

    Filtra.

  7. Seleziona PHONE_NUMBER.

  8. Fai clic su Fine > Crea.

Scopri di più sulla creazione di modelli Cloud DLP.

Applica la trasformazione di oscuramento di Cloud DLP

  1. Vai alla pagina Data Studio di Cloud Data Fusion e fai clic per espandere il menu Trasforma.

  2. Fai clic sul plug-in Cloud DLP Blackact.

    Fai clic sul plug-in per aggiungerlo alla pipeline.

  3. Trascina una freccia di connessione dal nodo Cloud Storage al nodo Oscura.

    Collega i due nodi.

  4. Tieni il puntatore sul nodo Oscura e fai clic su Proprietà.

    1. Imposta il Modello personalizzato su Yes.

    2. Nel campo ID modello, inserisci l'ID del modello personalizzato che hai creato.

    3. Nel campo Corrispondenza , applica Mascheramento a Modello personalizzato in Note.

    4. Nel campo Mascheramento del personaggio, inserisci #.

      Maschera.

    5. Fai clic su Convalida per verificare la presenza di errori.

    6. Fai clic su Chiudi.

Archivia i dati di output

Archivia i risultati della pipeline in un file Cloud Storage.

  1. Nella pagina Studio, fai clic per espandere il menu Sink.

  2. Fai clic su Cloud Storage.

  3. Trascina una freccia di connessione dal nodo Oscura al nodo Cloud Storage2.

    Connette il nodo Redact al secondo nodo di Cloud Storage.

  4. Tieni il puntatore sul nodo Cloud Storage2 e fai clic su Proprietà.

    1. Inserisci un nome nel campo Nome del riferimento.

    2. Nel campo Percorso, inserisci il percorso di un bucket Cloud Storage in cui archiviare i risultati della pipeline. Cloud Data Fusion crea il bucket per te. Assicurati di seguire le linee guida per la denominazione dei bucket.

    3. Nel campo Formato, seleziona CSV.

    4. Fai clic su Convalida per verificare che non siano presenti errori.

    5. Fai clic su Chiudi.

Eseguire la pipeline in modalità di anteprima

Esegui la pipeline in modalità di anteprima prima di eseguirne il deployment.

  1. Fai clic su Anteprima, quindi su Esegui.

    Esegui la pipeline.

    Fai clic su Esegui per visualizzare lo stato della pipeline, che inizia con A partire, poi diventa Stop e infine Esegui.

  2. Al termine dell'esecuzione dell'anteprima, sul nodo Oscura, fai clic su Dati in anteprima per visualizzare un confronto affiancato dei dati di input e di output. Controlla che i numeri di telefono siano stati mascherati con il carattere #.

    Verifica che i numeri di telefono siano mascherati.

Oscura un altro tipo di dati

Esaminando i risultati dell'esecuzione dell'anteprima, noterai che sono ancora presenti informazioni sensibili nella colonna Note: indirizzi email. Puoi tornare indietro e modificare il modello Cloud DLP per oscurare anche gli indirizzi email.

  1. In Google Cloud Console, vai alla pagina Cloud DLP.

    Apri la pagina di Cloud DLP

  2. Nella scheda Configurazione, seleziona il tuo modello.

  3. Fai clic su Modifica.

  4. Fai clic su Gestisci infoType.

  5. Nella scheda Integrata, utilizza il filtro per cercare "OR" "indirizzo email".

    Filtra.

  6. Seleziona tutto e fai clic su Fine.

  7. Fai clic su Salva.

  8. Ancora una volta, esegui la pipeline in modalità di anteprima. Cloud Data Fusion utilizzerà automaticamente il modello Cloud DLP aggiornato.

  9. Verifica che entrambi i numeri di telefono e gli indirizzi email siano mascherati con il carattere #.

    Verifica che i dati siano mascherati.

Esegui il deployment ed esegui la pipeline

  1. Assicurati che la modalità Anteprima sia deselezionata.

  2. Fai clic su Salva. Fai clic su Salva per assegnare un nome alla pipeline. In seguito, fai clic su OK.

  3. Fai clic su Esegui il deployment.

  4. Al termine del deployment, fai clic su Esegui. L'esecuzione della pipeline può richiedere alcuni minuti. Mentre attendi, puoi osservare lo stato della transizione della pipeline da Provisioning a Starting a Running a Deprovisioning a Riuscito.

Visualizza i risultati

  1. In Google Cloud Console, vai alla pagina Cloud Storage.

    Vai a Cloud Storage

  2. Nel browser Storage, vai al bucket Cloud Storage del sink che hai specificato nelle proprietà del plug-in di Cloud Storage sink.

  3. In URL del link, fai clic sul link per scaricare il file CSV contenente i risultati. Accertati che i numeri di telefono e gli indirizzi email siano mascherati con il carattere #.

    Verifica che i dati siano mascherati.

Esegui la pulizia

Per evitare che al tuo Account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.

Elimina l'istanza Cloud Data Fusion

Segui queste istruzioni per eliminare la tua istanza di Cloud Data Fusion.

Elimina il progetto

Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per il tutorial.

Per eliminare il progetto:

  1. In Cloud Console, vai alla pagina Gestisci risorse.

    Vai a Gestisci risorse

  2. Nell'elenco dei progetti, seleziona il progetto da eliminare, quindi fai clic su Elimina.
  3. Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.

Passaggi successivi