Tutorial ini menunjukkan cara menggunakan plugin Cloud Data Fusion untuk Cloud DLP guna menyamarkan data sensitif.
Skenario
Pertimbangkan skenario berikut, yang mengharuskan beberapa informasi pelanggan sensitif disamarkan:
Tim dukungan Anda mendokumentasikan detail setiap kasus dukungan yang mereka tangani dalam tiket dukungan. Semua informasi dalam tiket dukungan akan diambil ke dalam file CSV. Teknisi dukungan tidak boleh mendokumentasikan informasi pelanggan yang dianggap sensitif, tetapi terkadang mereka melakukannya secara tidak sengaja. Anda melihat bahwa dalam file CSV, beberapa nomor telepon pelanggan muncul.
Anda ingin melihat file CSV dan menyembunyikan semua nomor telepon. Anda membuat pipeline Cloud Data Fusion yang menyamarkan data pelanggan yang sensitif dengan menggunakan plugin Cloud DLP.
Dalam tutorial ini, Anda akan membuat pipeline yang melakukan hal berikut:
- Menyamarkan nomor telepon pelanggan dengan menyamarkannya dengan karakter
#
. - Menyimpan data sensitif yang disamarkan dan data yang tidak sensitif di bucket Cloud Storage.
Tujuan
- Hubungkan Cloud Data Fusion ke sumber Cloud Storage.
- Men-deploy plugin Cloud DLP.
- Membuat template Cloud DLP kustom.
- Gunakan plugin transformasi Redact untuk menyamarkan data pelanggan yang sensitif.
- Tulis data output ke Cloud Storage.
Biaya
Dalam dokumen ini, Anda akan menggunakan komponen Google Cloud yang dapat ditagih berikut:
Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda,
gunakan kalkulator harga.
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc APIs.
- Buat instance Cloud Data Fusion.
Mendapatkan izin Cloud DLP
Di Konsol Google Cloud, buka halaman IAM.
Di tabel izin, di kolom Akun utama, cari akun layanan yang cocok dengan format
service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com
.Klik edit Edit.
Klik Add Another Role.
Gunakan kotak penelusuran untuk melakukan penelusuran, lalu pilih DLP Administrator.
Klik Simpan.
Pastikan DLP Administrator muncul di kolom Role.
Membuka UI Cloud Data Fusion
Saat menggunakan Cloud Data Fusion, Anda menggunakan Konsol Google Cloud dan UI Cloud Data Fusion terpisah. Di konsol Google Cloud, Anda dapat membuat project konsol Google Cloud serta membuat dan menghapus instance Cloud Data Fusion. Di UI Cloud Data Fusion, Anda dapat menggunakan berbagai halaman, seperti Studio atau Wrangler, untuk menggunakan fitur Cloud Data Fusion.
Di konsol Google Cloud, buka halaman Instance.
Di kolom Actions untuk instance, klik link View Instance. UI Cloud Data Fusion akan terbuka di tab browser baru.
Membuat pipeline
Buat pipeline yang menyamarkan data pelanggan yang sensitif. Pipeline yang Anda build akan melakukan hal berikut:
- Membaca data input menggunakan plugin sumber Cloud Storage.
- Men-deploy plugin Cloud DLP dari Hub.
- Menulis data output menggunakan plugin sink Cloud Storage.
Memuat data pelanggan
Tutorial ini menggunakan set data input, CallCenterRecords.csv
, yang disediakan di
bucket Cloud Storage yang tersedia secara publik.
Buka instance Cloud Data Fusion Anda, lalu klik menu Menu > Studio.
Di menu Source, klik plugin Cloud Storage.
Di node Cloud Storage, klik Properties.
Di kolom Nama referensi, masukkan nama.
Di kolom Path, masukkan
gs://datafusion-sample-datasets/CallCenterRecords.csv
.Di kolom Format, pilih
CSV
.Untuk Output Schema, hapus kolom offset dan body. Klik
Tambahkan, lalu masukkan kolom berikut:- Tanggal
- Bank
- Status
- Kode Pos
- Catatan
Klik Validasi untuk memeriksa error.
Klik
Tutup.
Menyamarkan data sensitif
Plugin Redact Cloud DLP mengidentifikasi data sensitif dalam aliran input data Anda dan menerapkan transformasi yang Anda tentukan ke data tersebut. Kumpulan data dianggap sensitif jika cocok dengan filter Cloud DLP yang telah ditentukan sebelumnya yang Anda pilih atau template kustom yang Anda tentukan.
Dalam tutorial ini, Anda ingin menyamarkan nomor telepon pelanggan yang tidak sengaja dicatat oleh beberapa teknisi dukungan di tim Anda. Mereka memasukkan informasi sensitif di bagian Catatan pada tiket dukungan, yang muncul sebagai kolom Catatan dalam file CSV. Anda membuat template Cloud DLP kustom, lalu memberikan ID template di menu properti plugin.
Men-deploy plugin Cloud DLP
Di instance Cloud Data Fusion, klik Hub.
Klik plugin Cloud DLP.
Klik Deploy.
Klik Selesai.
Klik
Tutup untuk keluar dari dialog Cloud DLP.Klik
Tutup untuk keluar dari Hub.
Membuat template kustom
Di konsol Google Cloud, buka halaman Cloud DLP.
Dari menu Create, pilih Template.
Di kolom Template ID, masukkan ID untuk template Anda.
Klik Lanjutkan.
Di kolom Configure detection, klik Manage infotypes.
Di tab Built-in, gunakan filter untuk menelusuri "nomor telepon".
Pilih PHONE_NUMBER.
Klik Selesai > Buat.
Pelajari lebih lanjut cara membuat template Cloud DLP.
Menerapkan transformasi Cloud DLP Redact
Buka halaman Studio Cloud Data Fusion, lalu klik untuk memperluas menu Transform.
Klik plugin Redact Cloud DLP.
Tarik panah koneksi dari node Cloud Storage ke node Redact.
Arahkan kursor ke node Redact, lalu klik Properties.
Tetapkan Template Kustom ke
Yes
.Di kolom Template ID, masukkan ID template template kustom yang Anda buat.
Di kolom Pencocokan , terapkan Masking pada Template kustom dalam Catatan.
Di kolom Masking Character, masukkan
#
.Klik Validasi untuk memeriksa error.
Klik
Tutup.
Menyimpan data output
Simpan hasil pipeline Anda dalam file Cloud Storage.
Dari halaman Studio, klik untuk meluaskan menu Sink.
Klik Cloud Storage.
Tarik panah koneksi dari node Redact ke node Cloud Storage2.
Arahkan kursor ke node Cloud Storage2, lalu klik Properties.
Di kolom Nama referensi, masukkan nama.
Di kolom Path, masukkan jalur bucket Cloud Storage tempat Anda ingin menyimpan hasil pipeline. Cloud Data Fusion akan membuat bucket untuk Anda. Pastikan untuk mengikuti panduan pemberian nama bucket.
Di kolom Format, pilih CSV.
Klik Validasi untuk memastikan tidak ada error.
Klik
Tutup.
Menjalankan pipeline dalam mode pratinjau
Jalankan pipeline dalam mode pratinjau sebelum men-deploy-nya.
Klik Pratinjau, lalu klik Jalankan.
Mengklik Run akan menampilkan status pipeline, yang dimulai dengan Starting, lalu berubah menjadi Stop, lalu menjadi Run.
Setelah pratinjau selesai dijalankan, di node Redact, klik Preview Data untuk melihat perbandingan data input dan output secara berdampingan. Pastikan nomor telepon telah disamarkan dengan karakter
#
.
Menyamarkan jenis data lain
Saat memeriksa hasil pratinjau yang dijalankan, Anda melihat bahwa masih ada informasi sensitif yang muncul di kolom Catatan: alamat email. Anda kembali dan mengedit template Cloud DLP untuk menyamarkan alamat email juga.
Di konsol Google Cloud, buka halaman Cloud DLP.
Di tab Configuration, pilih template Anda.
Klik Edit.
Klik Kelola infotype.
Di tab Built-in, gunakan filter untuk menelusuri "ATAU" "alamat email".
Pilih semua, lalu klik Selesai.
Klik Simpan.
Sekali lagi, jalankan pipeline Anda dalam mode pratinjau. Cloud Data Fusion akan otomatis menggunakan template Cloud DLP yang diperbarui.
Pastikan nomor telepon dan alamat email telah disamarkan dengan karakter
#
.
Men-deploy dan menjalankan pipeline
Pastikan mode Pratinjau tidak dicentang.
Klik Simpan. Mengklik Simpan akan meminta Anda untuk memberi nama pipeline. Kemudian, klik OK.
Klik Deploy.
Setelah deployment selesai, klik Run. Menjalankan pipeline dapat memerlukan waktu beberapa menit. Sementara menunggu, Anda dapat mengamati Status transisi pipeline dari Penyediaan ke Dimulai ke Berjalan ke Penghentian Penyediaan ke Berhasil.
Melihat hasil
Di konsol Google Cloud, buka halaman Cloud Storage.
Di Storage browser, buka bucket Cloud Storage sink yang Anda tentukan di properti plugin Cloud Storage sink.
Di Link URL, klik link untuk mendownload file CSV dengan hasil. Pastikan nomor telepon dan alamat email telah disamarkan dengan karakter
#
.
Pembersihan
Agar tidak perlu membayar biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus setiap resource.
Menghapus instance Cloud Data Fusion
Ikuti petunjuk ini untuk menghapus instance Cloud Data Fusion.
Menghapus project
Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk tutorial.
Untuk menghapus project:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Langkah selanjutnya
- Pelajari Cloud Data Fusion lebih lanjut.
- Lihat cara menggunakan plugin Cloud Data Fusion, yang menyediakan plugin transformasi Redact dan Filter PII.