Menyamarkan data rahasia


Tutorial ini menunjukkan cara menggunakan plugin Cloud Data Fusion untuk Cloud DLP guna menyamarkan data sensitif.

Skenario

Pertimbangkan skenario berikut, saat beberapa informasi pelanggan yang sensitif harus disamarkan:

Tim dukungan Anda mendokumentasikan detail setiap kasus dukungan yang mereka tangani di tiket dukungan. Semua informasi di tiket dukungan ditarik ke dalam file CSV. Teknisi dukungan tidak seharusnya mendokumentasikan informasi pelanggan apa pun yang dianggap sensitif, tetapi terkadang mereka keliru melakukannya. Anda melihat bahwa dalam file CSV, beberapa nomor telepon pelanggan muncul.

Anda ingin menggunakan file CSV dan menyembunyikan semua nomor telepon. Anda membuat pipeline Cloud Data Fusion yang menyamarkan data sensitif pelanggan menggunakan plugin Cloud DLP.

Dalam tutorial ini, Anda akan membuat pipeline yang melakukan hal berikut:

  • Menyamarkan nomor telepon pelanggan dengan menyamarkannya dengan karakter #.
  • Menyimpan data sensitif yang disamarkan dan data tidak sensitif di bucket Cloud Storage.

Tujuan

  • Hubungkan Cloud Data Fusion ke sumber Cloud Storage.
  • Men-deploy plugin Cloud DLP.
  • Membuat template Cloud DLP kustom.
  • Gunakan plugin transformasi Redact untuk menyamarkan data pelanggan yang sensitif.
  • Menulis data output ke Cloud Storage.

Biaya

Dalam dokumen ini, Anda menggunakan komponen Google Cloud yang dapat ditagih berikut:

Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan kalkulator harga. Pengguna baru Google Cloud mungkin memenuhi syarat untuk mendapatkan uji coba gratis.

Sebelum memulai

  1. Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  4. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  5. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  6. Enable the Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc APIs.

    Enable the APIs

  7. Membuat instance Cloud Data Fusion.

Mendapatkan izin Cloud DLP

  1. Di Konsol Google Cloud, buka halaman IAM.

    Buka halaman IAM

  2. Di tabel izin, di kolom Principal, cari akun layanan yang cocok dengan format service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com.

  3. Klik Edit.

  4. Klik Add Another Role.

  5. Gunakan kotak penelusuran untuk melakukan penelusuran, lalu pilih Administrator DLP.

  6. Klik Save.

  7. Pastikan Administrator DLP muncul di kolom Peran.

Saat menggunakan Cloud Data Fusion, Anda menggunakan Konsol Google Cloud dan UI Cloud Data Fusion yang terpisah. Di konsol Google Cloud, Anda dapat membuat project konsol Google Cloud serta membuat dan menghapus instance Cloud Data Fusion. Di UI Cloud Data Fusion, Anda dapat menggunakan berbagai halaman, seperti Studio atau Wrangler, untuk menggunakan fitur Cloud Data Fusion.

  1. Di konsol Google Cloud, buka halaman Instances.

    Buka halaman Instances

  2. Di kolom Tindakan untuk instance, klik link Lihat Instance. UI Cloud Data Fusion akan terbuka di tab browser baru.

Membuat pipeline

Buat pipeline yang menyamarkan data pelanggan yang sensitif. Pipeline yang Anda buat akan melakukan hal berikut:

  • Membaca data input menggunakan plugin sumber Cloud Storage.
  • Men-deploy plugin Cloud DLP dari Hub.
  • Menulis data output menggunakan plugin sink Cloud Storage.

Memuat data pelanggan

Tutorial ini menggunakan set data input, CallCenterRecords.csv, yang disediakan di bucket Cloud Storage yang tersedia secara publik.

  1. Buka instance Cloud Data Fusion, lalu klik Menu > Studio.

  2. Di menu Source, klik plugin Cloud Storage.

    Pilih plugin.

  3. Di node Cloud Storage, klik Properties.

  4. Di kolom Nama referensi, masukkan nama.

  5. Di kolom Path, masukkan gs://datafusion-sample-datasets/CallCenterRecords.csv.

  6. Di kolom Format, pilih CSV.

  7. Untuk Skema Output, hapus kolom offset dan body. Klik Tambahkan dan masukkan kolom berikut:

    • Tanggal
    • Bank
    • Negara bagian/Provinsi
    • Kode Pos
    • Notes

    Masukkan properti sumber.

  8. Klik Validasi untuk memeriksa error.

  9. Klik Tutup.

Menyamarkan data sensitif

Plugin Cloud DLP Redact mengidentifikasi data sensitif dalam aliran input data dan menerapkan transformasi yang Anda tentukan ke data tersebut. Kumpulan data dianggap sensitif jika cocok dengan filter Cloud DLP standar yang Anda pilih atau template kustom yang Anda tentukan.

Dalam tutorial ini, Anda ingin menyamarkan nomor telepon pelanggan yang tidak sengaja dicatat oleh beberapa teknisi dukungan di tim Anda. Mereka memasukkan informasi sensitif di bagian Catatan pada tiket dukungan, yang muncul sebagai kolom Catatan di file CSV. Anda membuat template Cloud DLP kustom, lalu memberikan ID template di menu properti plugin.

Men-deploy plugin Cloud DLP

  1. Di instance Cloud Data Fusion, klik Hub.

  2. Klik plugin Cloud DLP.

  3. Klik Deploy.

  4. Klik Selesai.

  5. Klik Close untuk keluar dari dialog Cloud DLP.

  6. Klik Close untuk keluar dari Hub.

Buat template kustom

  1. Di konsol Google Cloud, buka halaman Cloud DLP.

    Buka Cloud DLP

  2. Dari menu Buat, pilih Template. gambar

  3. Di kolom ID Template, masukkan ID untuk template Anda.

  4. Klik Lanjutkan.

  5. Di kolom Konfigurasi deteksi, klik Kelola infotypes.

  6. Di tab Bawaan, gunakan filter untuk menelusuri "nomor telepon".

    Filter<i}." class="l10n-absolute-url-src" l10n-attrs-original-order="src,alt,class" src="https://cloud.google.com/static/data-fusion/docs/images/tutorials/redact-pipeline/phone-number-only.png" />

  7. Pilih PHONE_NUMBER.

  8. Klik Selesai > Buat.

Pelajari lebih lanjut cara membuat template Cloud DLP.

Menerapkan transformasi Penyamaran Cloud DLP

  1. Buka halaman Studio Cloud Data Fusion, lalu klik untuk memperluas menu Transform.

  2. Klik plugin Redact Cloud DLP.

    Klik plugin untuk menambahkannya ke pipeline Anda.

  3. Tarik panah koneksi dari node Cloud Storage ke node Redact.

    Hubungkan kedua node tersebut.

  4. Tahan kursor ke node Redact, lalu klik Properties.

    1. Setel Custom Template ke Yes.

    2. Di kolom ID Template, masukkan ID template dari template kustom yang Anda buat.

    3. Di kolom Pencocokan , terapkan Masking pada Template kustom dalam Catatan.

    4. Di kolom Masking Karakter, masukkan #.

      Samarkan.

    5. Klik Validasi untuk memeriksa error.

    6. Klik Tutup.

Menyimpan data output

Simpan hasil pipeline Anda dalam file Cloud Storage.

  1. Dari halaman Studio, klik untuk meluaskan menu Sink.

  2. Klik Cloud Storage.

  3. Tarik panah koneksi dari node Redact ke node Cloud Storage2.

    Hubungkan node Redact ke node Cloud Storage kedua.

  4. Tahan kursor ke node Cloud Storage2, lalu klik Properties.

    1. Di kolom Nama referensi, masukkan nama.

    2. Di kolom Path, masukkan jalur bucket Cloud Storage tempat Anda ingin menyimpan hasil pipeline. Cloud Data Fusion akan membuatkan bucket untuk Anda. Pastikan untuk mengikuti pedoman penamaan bucket.

    3. Di kolom Format, pilih CSV.

    4. Klik Validasi untuk memastikan tidak ada error.

    5. Klik Tutup.

Menjalankan pipeline dalam mode pratinjau

Jalankan pipeline dalam mode pratinjau sebelum Anda men-deploy-nya.

  1. Klik Preview, lalu klik Run.

    Jalankan pipeline.

    Mengklik Run akan menampilkan status pipeline, yang dimulai dengan Mulai, lalu berubah menjadi Stop, lalu Run.

  2. Setelah proses pratinjau selesai, pada node Redact, klik Preview Data untuk melihat perbandingan data input dan output secara berdampingan. Pastikan nomor telepon telah disamarkan dengan karakter #.

    Pastikan nomor telepon disamarkan.

Menyamarkan jenis data lain

Saat memeriksa hasil eksekusi pratinjau, Anda melihat bahwa masih ada informasi sensitif yang muncul di kolom Catatan: alamat email. Anda juga dapat kembali dan mengedit template Cloud DLP untuk menyamarkan alamat email.

  1. Di konsol Google Cloud, buka halaman Cloud DLP.

    Buka halaman Cloud DLP

  2. Di tab Configuration, pilih template Anda.

  3. Klik Edit.

  4. Klik Kelola jenis info.

  5. Di tab bawaan, gunakan filter untuk menelusuri "ATAU" "alamat email".

    Filter<i}." class="l10n-absolute-url-src" l10n-attrs-original-order="src,alt,class" src="https://cloud.google.com/static/data-fusion/docs/images/tutorials/redact-pipeline/phone-number-or-email.png" />

  6. Pilih semua, lalu klik Selesai.

  7. Klik Save.

  8. Sekali lagi, jalankan pipeline dalam mode pratinjau. Cloud Data Fusion akan otomatis menggunakan template Cloud DLP yang diperbarui.

  9. Pastikan kedua nomor telepon dan alamat email disamarkan dengan karakter #.

    Periksa apakah data disamarkan.

Men-deploy dan menjalankan pipeline

  1. Pastikan mode Pratinjau tidak dicentang.

  2. Klik Save. Mengklik Simpan akan meminta Anda memberi nama pipeline. Lalu, klik OK.

  3. Klik Deploy.

  4. Setelah deployment selesai, klik Run. Menjalankan {i>pipe<i} bisa memakan waktu beberapa menit. Selagi menunggu, Anda dapat mengamati Status transisi pipeline dari Penyediaan ke Mulai ke Berjalan ke Pencabutan Akses ke Berhasil.

Melihat hasil

  1. Di konsol Google Cloud, buka halaman Cloud Storage.

    Buka Cloud Storage

  2. Di Storage browser, buka bucket Cloud Storage sink yang Anda tentukan di properti plugin Cloud Storage sink.

  3. Di URL Link, klik link untuk mendownload file CSV berisi hasilnya. Pastikan nomor telepon dan alamat email telah disamarkan dengan karakter #.

    Periksa apakah data disamarkan.

Pembersihan

Agar tidak dikenakan biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus setiap resource-nya.

Menghapus instance Cloud Data Fusion

Ikuti petunjuk ini untuk menghapus instance Cloud Data Fusion.

Menghapus project

Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk tutorial.

Untuk menghapus project:

  1. Di konsol Google Cloud, buka halaman Manage resource.

    Buka Manage resource

  2. Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
  3. Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.

Langkah selanjutnya