Questo tutorial mostra come utilizzare il plugin di Cloud Data Fusion per Cloud DLP per oscurare i dati sensibili.
Scenario
Considera il seguente scenario, in cui è necessario oscurare alcune informazioni sensibili dei clienti:
Il tuo team di assistenza documenta i dettagli di ogni richiesta di assistenza che gestisce in un ticket di assistenza. Tutte le informazioni nel ticket di assistenza vengono estratte in un file CSV. I tecnici dell'assistenza non sono tenuti a documentare le informazioni dei clienti considerate sensibili, ma a volte potrebbero farlo per errore. Noterai che nel file CSV vengono visualizzati numeri di telefono di alcuni clienti.
Vuoi esaminare il file CSV e nascondere tutti i numeri di telefono. Crei una pipeline Cloud Data Fusion che oscura i dati sensibili dei clienti utilizzando il plug-in Cloud DLP.
In questo tutorial creerai una pipeline che:
- Oscura i numeri di telefono dei clienti mascherandoli con il carattere
#
. - Archivia i dati sensibili mascherati e quelli non sensibili in un bucket Cloud Storage.
Obiettivi
- Connetti Cloud Data Fusion a un'origine Cloud Storage.
- Eseguire il deployment del plug-in Cloud DLP.
- Creare un modello Cloud DLP personalizzato.
- Utilizza il plug-in Redact Transform per mascherare i dati sensibili dei clienti.
- Scrivere i dati di output in Cloud Storage.
Costi
In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud:
Per generare una stima dei costi in base all'utilizzo previsto,
utilizza il Calcolatore prezzi.
Prima di iniziare
- Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
-
Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
Abilita le API Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc.
- Crea un'istanza di Cloud Data Fusion.
Ottenere le autorizzazioni di Cloud DLP
Nella console Google Cloud, vai alla pagina IAM.
Nella colonna Entità della tabella delle autorizzazioni, trova l'account di servizio corrispondente al formato
service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com
.Fai clic su edit Modifica.
Fai clic su Aggiungi un altro ruolo.
Utilizza la barra di ricerca per cercare, quindi seleziona Amministratore DLP.
Fai clic su Salva.
Verifica che nella colonna Ruolo sia visualizzato Amministratore DLP.
Vai all'interfaccia utente di Cloud Data Fusion
Quando utilizzi Cloud Data Fusion, utilizzi sia la console Google Cloud sia l'interfaccia utente separata di Cloud Data Fusion. Nella console Google Cloud, puoi creare un progetto della console Google Cloud e creare ed eliminare istanze di Cloud Data Fusion. Nell'interfaccia utente di Cloud Data Fusion, puoi utilizzare le varie pagine, ad esempio Studio o Wrangler, per utilizzare le funzionalità di Cloud Data Fusion.
Nella console Google Cloud, apri la pagina Istanze.
Nella colonna Azioni per l'istanza, fai clic sul link Visualizza istanza. L'interfaccia utente di Cloud Data Fusion si apre in una nuova scheda del browser.
Crea la pipeline
Crea una pipeline che oscura i dati sensibili dei clienti. La pipeline che crei esegue quanto segue:
- Legge i dati di input utilizzando il plug-in di origine Cloud Storage.
- Esegue il deployment del plug-in Cloud DLP dall'hub.
- Scrive i dati di output utilizzando un plug-in sink di Cloud Storage.
Carica i dati dei clienti
Questo tutorial utilizza il set di dati di input, CallCenterRecords.csv
, fornito in un bucket Cloud Storage disponibile pubblicamente.
Apri l'istanza di Cloud Data Fusion e fai clic su menu Menu > Studio.
Nel menu Origine, fai clic sul plug-in Cloud Storage.
Nel nodo Cloud Storage, fai clic su Proprietà.
Inserisci un nome nel campo Nome riferimento.
Nel campo Percorso, inserisci
gs://datafusion-sample-datasets/CallCenterRecords.csv
.Nel campo Formato, seleziona
CSV
.Per Schema di output, elimina i campi offset e body. Fai clic su
Aggiungi e inserisci i seguenti campi:- Data
- Banca
- Stato
- CAP
- Note
Fai clic su Convalida per verificare l'eventuale presenza di errori.
Fai clic su
Close (Chiudi).
Oscurare i dati sensibili
Il plug-in Cloud DLP Redact identifica i record sensibili nel flusso di input di dati e applica le trasformazioni definite a questi record. Un record di dati è considerato sensibile se corrisponde ai filtri Cloud DLP predefiniti che scegli o a un modello personalizzato che definisci.
In questo tutorial vuoi oscurare i numeri di telefono dei clienti di cui alcuni tecnici dell'assistenza del tuo team hanno preso nota per errore. Ha inserito le informazioni sensibili nella sezione Note dei ticket di assistenza, visualizzata come colonna Note nel file CSV. Crei un modello Cloud DLP personalizzato, quindi fornisci l'ID modello nel menu delle proprietà del plug-in.
Esegui il deployment del plug-in Cloud DLP
Nell'istanza di Cloud Data Fusion, fai clic su Hub.
Fai clic sul plug-in Cloud DLP.
Fai clic su Esegui il deployment.
Fai clic su Fine.
Fai clic su
Chiudi per uscire dalla finestra di dialogo Cloud DLP.Fai clic su
Chiudi per uscire dall'hub.
Crea un modello personalizzato
Nella console Google Cloud, vai alla pagina di Cloud DLP.
Nel menu Crea, scegli Modello.
Nel campo ID modello, inserisci un ID per il tuo modello.
Fai clic su Continua.
Nel campo Configura rilevamento, fai clic su Gestisci infoType.
Nella scheda Integrati, utilizza il filtro per cercare "numero di telefono".
Seleziona PHONE_NUMBER.
Fai clic su Fine > Crea.
Scopri di più sulla creazione di modelli Cloud DLP.
Applica la trasformazione oscura di Cloud DLP
Vai alla pagina Studio di Cloud Data Fusion e fai clic per espandere il menu Trasforma.
Fai clic sul plug-in Oscura di Cloud DLP.
Trascina una freccia di connessione dal nodo Cloud Storage al nodo Oscura.
Tieni il puntatore sul nodo Oscura e fai clic su Proprietà.
Imposta Modello personalizzato su
Yes
.Nel campo ID modello, inserisci l'ID del modello personalizzato che hai creato.
Nel campo Corrispondenza , applica Mascheramento a Modello personalizzato in Note.
Nel campo Carattere di mascheramento, inserisci
#
.Fai clic su Convalida per verificare l'eventuale presenza di errori.
Fai clic su
Close (Chiudi).
Archivia i dati di output
Archivia i risultati della pipeline in un file Cloud Storage.
Nella pagina di Studio, fai clic per espandere il menu Sink.
Fai clic su Cloud Storage.
Trascina una freccia di connessione dal nodo Oscura al nodo Cloud Storage2.
Tieni il puntatore sul nodo Cloud Storage2 e fai clic su Proprietà.
Inserisci un nome nel campo Nome riferimento.
Nel campo Percorso, inserisci il percorso di un bucket Cloud Storage in cui vuoi archiviare i risultati della pipeline. Cloud Data Fusion crea il bucket per te. Assicurati di seguire le linee guida per la denominazione dei bucket.
Nel campo Formato, seleziona CSV.
Fai clic su Convalida per assicurarti che non siano presenti errori.
Fai clic su
Close (Chiudi).
Esegui la pipeline in modalità di anteprima
Esegui la pipeline in modalità di anteprima prima di eseguirne il deployment.
Fai clic su Anteprima e poi su Esegui.
Se fai clic su Esegui, viene visualizzato lo stato della pipeline, che inizia con Avvio, quindi passa a Stop e infine a Esegui.
Al termine dell'esecuzione dell'anteprima, sul nodo Oscura fai clic su Anteprima dati per visualizzare un confronto affiancato dei dati di input e di output. Verifica che i numeri di telefono siano stati mascherati con il carattere
#
.
Oscura un altro tipo di dati
Mentre esamini i risultati dell'esecuzione in anteprima, noti che nella colonna Note vengono ancora visualizzate informazioni sensibili: gli indirizzi email. Torna indietro e modifica il modello Cloud DLP per oscurare anche gli indirizzi email.
Nella console Google Cloud, vai alla pagina di Cloud DLP.
Nella scheda Configurazione, seleziona il tuo modello.
Fai clic su Modifica.
Fai clic su Gestisci infoType.
Nella scheda Integrati, utilizza il filtro per cercare "OR" "indirizzo email".
Seleziona tutto e fai clic su Fine.
Fai clic su Salva.
Ancora una volta, esegui la pipeline in modalità di anteprima. Cloud Data Fusion utilizzerà automaticamente il modello Cloud DLP aggiornato.
Controlla che i numeri di telefono e gli indirizzi email siano stati mascherati con il carattere
#
.
Esegui il deployment della pipeline ed eseguila
Assicurati che la modalità Anteprima sia deselezionata.
Fai clic su Salva. Se fai clic su Salva, ti viene chiesto di assegnare un nome alla pipeline. Poi, fai clic su OK.
Fai clic su Esegui il deployment.
Al termine del deployment, fai clic su Esegui. L'esecuzione della pipeline può richiedere alcuni minuti. Nel frattempo, puoi osservare lo stato della transizione della pipeline da Provisioning a In fase di avvio a In esecuzione e Deprovisioning ad Riuscito.
Visualizza i risultati
Nella console Google Cloud, vai alla pagina di Cloud Storage.
Nel browser Storage, vai al bucket Cloud Storage del sink che hai specificato nelle proprietà del plug-in Cloud Storage del sink.
In URL link, fai clic sul link per scaricare il file CSV con i risultati. Verifica che i numeri di telefono e gli indirizzi email siano stati mascherati con il carattere
#
.
Esegui la pulizia
Per evitare che al tuo Account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.
Elimina l'istanza di Cloud Data Fusion
Segui queste istruzioni per eliminare l'istanza di Cloud Data Fusion.
Elimina il progetto
Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per il tutorial.
Per eliminare il progetto:
- Nella console Google Cloud, vai alla pagina Gestisci risorse.
- Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
- Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.
Passaggi successivi
- Scopri di più su Cloud Data Fusion.
- Scopri come utilizzare il plug-in di Cloud Data Fusion, che fornisce i plug-in per la trasformazione di Redact e Filtra PII.