Membuat salinan data yang tidak diidentifikasi dan disimpan di Cloud Storage menggunakan Konsol Google Cloud

Halaman ini menjelaskan cara memeriksa direktori Cloud Storage dan membuat salinan file yang didukung yang telah dide-identifikasi, menggunakan Perlindungan Data Sensitif di Konsol Google Cloud.

Operasi ini membantu memastikan bahwa file yang Anda gunakan dalam proses bisnis Anda tidak berisi data sensitif, seperti informasi identitas pribadi (PII). Perlindungan Data Sensitif dapat memeriksa file dalam bucket Cloud Storage untuk menemukan data sensitif, dan membuat salinan yang telah dide-identifikasi dari file tersebut di bucket terpisah. Selanjutnya, Anda dapat menggunakan salinan yang telah dide-identifikasi dalam proses bisnis Anda.

Untuk mengetahui informasi selengkapnya tentang apa yang terjadi jika Anda melakukan de-identifikasi data di penyimpanan, lihat De-identifikasi data sensitif di penyimpanan.

Sebelum memulai

Halaman ini mengasumsikan hal berikut:

Pelajari batasan dan titik pertimbangan untuk operasi ini.

Pemeriksaan penyimpanan memerlukan cakupan OAuth berikut: https://www.googleapis.com/auth/cloud-platform. Untuk mengetahui informasi selengkapnya, lihat bagian Mengautentikasi ke DLP API.

Peran IAM yang diperlukan

Jika semua resource untuk operasi ini berada dalam project yang sama, peran Agen Layanan DLP API (roles/dlp.serviceAgent) pada agen layanan sudah cukup. Dengan peran tersebut, Anda dapat melakukan hal berikut:

  • Membuat tugas inspeksi
  • Membaca file di direktori input
  • Menulis file yang telah dide-identifikasi di direktori output
  • Menulis detail transformasi dalam tabel BigQuery

Resource yang relevan mencakup tugas pemeriksaan, template de-identifikasi, bucket input, bucket output, dan tabel detail transformasi.

Jika Anda harus memiliki resource di project terpisah, pastikan agen layanan project Anda juga memiliki peran berikut:

  • Peran Storage Object Viewer (roles/storage.objectViewer) pada bucket input atau project yang memuatnya.
  • Peran Storage Object Creator (roles/storage.objectCreator) pada bucket output atau project yang berisinya.
  • Peran BigQuery Data Editor (roles/bigquery.dataEditor) pada tabel detail transformasi atau project yang memuatnya.

Untuk memberikan peran kepada agen layanan Anda, yang merupakan akun layanan yang dikelola Google, lihat Memberikan satu peran. Anda juga dapat mengontrol akses pada tingkat berikut:

Ringkasan

Untuk membuat salinan file Cloud Storage yang telah dide-identifikasi, Anda perlu mengonfigurasi tugas pemeriksaan yang mencari data sensitif sesuai dengan kriteria yang Anda tentukan. Kemudian, dalam tugas pemeriksaan, Anda mengaktifkan tindakan Buat salinan yang dide-identifikasi. Anda dapat menetapkan template de-identifikasi yang menentukan bagaimana Perlindungan Data Sensitif harus mengubah temuan. Jika Anda tidak memberikan template de-identifikasi apa pun, Perlindungan Data Sensitif akan mengubah temuan seperti yang dijelaskan dalam Perilaku de-identifikasi default.

Jika Anda mengaktifkan tindakan Buat salinan yang dide-identifikasi, secara default, Perlindungan Data Sensitif akan mengubah semua jenis file yang didukung yang disertakan dalam pemindaian. Namun, Anda dapat mengonfigurasi tugas untuk mengubah hanya sebagian dari jenis file yang didukung.

Opsional: Membuat template de-identifikasi

Jika Anda ingin mengontrol cara temuan ditransformasi, buat template berikut. Template ini memberikan petunjuk tentang transformasi temuan dalam file terstruktur, file tidak terstruktur, dan gambar.

  • Template de-identifikasi: template de-identifikasi default yang akan digunakan untuk file tidak terstruktur, seperti file teks berformat bebas. Jenis template de-identifikasi ini tidak boleh berisi transformasi data, yang hanya didukung untuk konten terstruktur. Jika template ini tidak ada, Perlindungan Data Sensitif akan menggunakan metode penggantian infoType untuk mengubah file tidak terstruktur.

  • Template de-identifikasi terstruktur: template de-identifikasi yang akan digunakan untuk file terstruktur, seperti file CSV. Template de-identifikasi ini dapat berisi transformasi data. Jika template ini tidak ada, Perlindungan Data Sensitif akan menggunakan template de-identifikasi default yang Anda buat. Jika itu juga tidak ada, Perlindungan Data Sensitif akan menggunakan metode pengganti infoType untuk mengubah file terstruktur.

  • Template penyamaran gambar: template de-identifikasi yang akan digunakan untuk gambar. Jika template ini tidak ada, Perlindungan Data Sensitif akan menyamarkan semua temuan dalam gambar dengan kotak hitam.

Pelajari cara membuat template de-identifikasi.

Membuat tugas inspeksi yang memiliki tindakan de-identifikasi

  1. Di konsol Google Cloud, buka halaman Buat tugas atau pemicu tugas.

    Buka Buat tugas atau pemicu tugas

  2. Masukkan informasi tugas Perlindungan Data Sensitif, lalu klik Lanjutkan untuk menyelesaikan setiap langkah.

Bagian berikut menjelaskan cara mengisi bagian halaman yang relevan.

Pilih data input

Di bagian Pilih data input, lakukan hal berikut:

  1. Opsional: Untuk Nama, masukkan ID untuk tugas pemeriksaan.
  2. Untuk Resource location, pilih Global atau region tempat Anda ingin menyimpan tugas pemeriksaan.
  3. Untuk Lokasi, pilih Google Cloud Storage.
  4. Untuk URL, masukkan jalur ke direktori input. Direktori input berisi data yang ingin Anda pindai—misalnya, gs://input-bucket/folder1/folder1a. Jika Anda ingin memindai direktori input secara rekursif, tambahkan garis miring ke URL, lalu pilih Scan recursively.
  5. Di bagian Pengambilan sampel, pada daftar Metode pengambilan sampel, pilih Tidak ada pengambilan sampel.

    Sampling tidak didukung pada tugas dan pemicu tugas yang dikonfigurasi dengan de-identifikasi.

Konfigurasikan deteksi

Di bagian Konfigurasi deteksi, pilih jenis data sensitif yang akan diperiksa. Ini disebut infoTypes. Anda dapat memilih dari daftar infoTypes yang telah ditentukan, atau Anda dapat memilih template jika ada. Untuk mengetahui detail selengkapnya, lihat Mengonfigurasi deteksi.

Tambah tindakan

Di bagian Tambahkan tindakan, lakukan hal berikut:

  1. Aktifkan Buat salinan yang dide-identifikasi.
  2. Opsional: Untuk template de-identifikasi, masukkan nama resource lengkap dari template de-identifikasi default jika Anda membuatnya.
  3. Opsional: Untuk Structured de-identification template, masukkan nama lengkap resource dari template de-identifikasi untuk file terstruktur jika Anda telah membuatnya. Jika tidak, Perlindungan Data Sensitif akan menggunakan template default jika Anda membuatnya.
  4. Opsional: Untuk Image redaction template, masukkan nama lengkap resource template penyamaran gambar untuk gambar jika Anda sudah membuatnya.
  5. Opsional: Jika Anda ingin Perlindungan Data Sensitif untuk menyimpan detail transformasi di tabel BigQuery, pilih Ekspor detail transformasi ke BigQuery, lalu isi data berikut:

    • Project ID: project yang berisi tabel BigQuery.
    • ID Set Data: set data yang berisi tabel BigQuery.
    • ID Tabel: tabel tempat Perlindungan Data Sensitif harus menyimpan detail tentang setiap transformasi. Perlindungan Data Sensitif membuat tabel ini dengan ID tabel yang Anda berikan. Jika Anda tidak memberikan ID tabel, sistem akan membuatnya secara otomatis.

    Tabel ini tidak menyimpan konten sebenarnya yang telah dide-identifikasi.

    Ketika data ditulis ke tabel BigQuery, penagihan dan penggunaan kuota diterapkan ke project yang berisi tabel tujuan.

  6. Untuk Lokasi output Cloud Storage, masukkan URL direktori Cloud Storage tempat Anda ingin menyimpan file yang dide-identifikasi. Direktori ini tidak boleh berada di bucket Cloud Storage yang sama dengan direktori input.

  7. Opsional: Untuk File types, pilih jenis file yang ingin diubah.

Untuk mengetahui informasi selengkapnya mengenai tindakan lain yang dapat Anda tambahkan, lihat Menambahkan tindakan.

Jadwal

Di bagian Schedule, tentukan apakah Anda ingin menjadikan tugas ini sebagai tugas berulang:

  • Untuk menjalankan pemindaian hanya sekali, biarkan kolom ditetapkan ke None.
  • Untuk menjadwalkan pemindaian agar berjalan secara berkala, klik Create a trigger to run tugas pada jadwal berkala.

Untuk informasi selengkapnya, lihat Jadwal.

Ulasan

  1. Di bagian Jadwal, tinjau konfigurasi tugas, dan edit tugas jika perlu.

  2. Klik Create.

Jika Anda memilih untuk tidak menjadwalkan tugas, Perlindungan Data Sensitif akan segera mulai menjalankan tugas tersebut. Setelah tugas selesai, sistem akan mengalihkan Anda ke halaman Detail tugas, tempat Anda dapat melihat hasil operasi pemeriksaan dan de-identifikasi.

Jika Anda memilih untuk mengekspor detail transformasi ke tabel BigQuery, tabel akan terisi. File ini berisi satu baris untuk setiap transformasi yang dilakukan oleh Perlindungan Data Sensitif. Untuk setiap transformasi, detailnya mencakup deskripsi, kode keberhasilan atau error, detail error, jumlah byte yang ditransformasi, lokasi konten yang ditransformasi, dan nama tugas pemeriksaan tempat Perlindungan Data Sensitif melakukan transformasi. Tabel ini tidak berisi konten sebenarnya yang telah dide-identifikasi.

Pastikan file telah dide-identifikasi

  1. Pada halaman Job details, klik tab Configuration.
  2. Untuk melihat file yang dide-identifikasi dalam direktori output, klik link di kolom Bucket output untuk data Cloud Storage yang telah dide-identifikasi.
  3. Untuk melihat tabel BigQuery yang berisi detail transformasi, klik link di kolom Transformation Details.

    Untuk mengetahui informasi tentang cara membuat kueri tabel BigQuery, lihat Menjalankan kueri interaktif.

Langkah selanjutnya