Halaman ini menjelaskan cara memeriksa direktori Cloud Storage dan membuat salinan file yang didukung yang telah dideidentifikasi, menggunakan Perlindungan Data Sensitif di konsol Google Cloud.
Operasi ini membantu memastikan bahwa file yang Anda gunakan dalam proses bisnis tidak berisi data sensitif, seperti informasi identitas pribadi (PII). Sensitive Data Protection dapat memeriksa file di bucket Cloud Storage untuk menemukan data sensitif, dan membuat salinan file yang telah disamarkan di bucket terpisah. Kemudian, Anda dapat menggunakan salinan yang dide-identifikasi dalam proses bisnis Anda.
Untuk informasi selengkapnya tentang hal yang terjadi saat Anda melakukan de-identifikasi data di penyimpanan, lihat De-identifikasi data sensitif di penyimpanan.
Sebelum memulai
Halaman ini mengasumsikan hal berikut:
Anda telah mengaktifkan penagihan.
Anda telah mengaktifkan Perlindungan Data Sensitif.
Anda memiliki bucket Cloud Storage dengan data yang ingin dide-identifikasi.
Pelajari batasan dan poin pertimbangan untuk operasi ini.
Pemeriksaan penyimpanan memerlukan cakupan OAuth berikut:
https://www.googleapis.com/auth/cloud-platform
. Untuk informasi selengkapnya, lihat
Mengautentikasi ke DLP API.
Peran IAM yang diperlukan
Jika semua resource untuk operasi ini berada dalam project yang sama, peran Agen Layanan DLP API (roles/dlp.serviceAgent
) di
agen layanan sudah memadai. Dengan peran tersebut, Anda dapat melakukan hal berikut:
- Membuat tugas inspeksi
- Membaca file di direktori input
- Menulis file yang dide-identifikasi di direktori output
- Menulis detail transformasi dalam tabel BigQuery
Resource yang relevan mencakup tugas inspeksi, template de-identifikasi, bucket input, bucket output, dan tabel detail transformasi.
Jika Anda harus memiliki resource dalam project terpisah, pastikan bahwa agen layanan project Anda juga memiliki peran berikut:
- Peran Storage Object Viewer (
roles/storage.objectViewer
) di bucket input atau project yang berisinya. - Peran Storage Object Creator
(
roles/storage.objectCreator
) di bucket output atau project yang berisi bucket tersebut. - Peran BigQuery Data Editor (
roles/bigquery.dataEditor
) di tabel detail transformasi atau project yang berisinya.
Untuk memberikan peran kepada agen layanan, lihat Memberikan satu peran. Anda juga dapat mengontrol akses di tingkat berikut:
Ringkasan
Untuk membuat salinan file Cloud Storage yang telah dide-identifikasi, Anda mengonfigurasi tugas pemeriksaan yang mencari data sensitif sesuai dengan kriteria yang Anda tentukan. Kemudian, dalam tugas pemeriksaan, Anda mengaktifkan tindakan Buat salinan yang tidak diidentifikasi. Anda dapat menetapkan template de-identifikasi yang menentukan cara Sensitive Data Protection harus mengubah temuan. Jika Anda tidak memberikan template de-identifikasi, Perlindungan Data Sensitif akan mengubah temuan seperti yang dijelaskan dalam Perilaku de-identifikasi default.
Jika Anda mengaktifkan tindakan Buat salinan yang dide-identifikasi, secara default, Perlindungan Data Sensitif akan mengubah semua jenis file yang didukung yang disertakan dalam pemindaian. Namun, Anda dapat mengonfigurasi tugas untuk hanya mengubah sebagian jenis file yang didukung.
Opsional: Membuat template anonim/beridentitas lain
Jika Anda ingin mengontrol cara transformasi temuan, buat template berikut. Template ini memberikan petunjuk tentang cara mengubah temuan dalam file terstruktur, file tidak terstruktur, dan gambar.
Template de-identifikasi: template de-identifikasi default yang akan digunakan untuk file tidak terstruktur, seperti file teks bentuk bebas. Jenis template penghapusan identitas ini tidak boleh berisi transformasi data, yang hanya didukung untuk konten terstruktur. Jika template ini tidak ada, Perlindungan Data Sensitif akan menggunakan metode penggantian infoType untuk mengubah file tidak terstruktur.
Template penghapusan identitas terstruktur: template penghapusan identitas yang akan digunakan untuk file terstruktur, seperti file CSV. Template de-identifikasi ini dapat berisi transformasi kumpulan data. Jika template ini tidak ada, Perlindungan Data Sensitif akan menggunakan template de-identifikasi default yang Anda buat. Jika tidak ada juga, Perlindungan Data Sensitif akan menggunakan metode penggantian infoType untuk mengubah file terstruktur.
Template penyamaran gambar: template anonim/beridentitas lain yang akan digunakan untuk gambar. Jika template ini tidak ada, Perlindungan Data Sensitif akan menyamarkan semua temuan dalam gambar dengan kotak hitam.
Pelajari cara membuat template penghapusan identitas.
Membuat tugas inspeksi yang memiliki tindakan penghapusan identitas
Di konsol Google Cloud, buka halaman Create job or job trigger.
Masukkan informasi tugas Perlindungan Data Sensitif, lalu klik Lanjutkan untuk menyelesaikan setiap langkah.
Bagian berikut menjelaskan cara mengisi bagian halaman yang relevan.
Pilih data input
Di bagian Choose input data, lakukan hal berikut:
- Opsional: Untuk Name, masukkan ID untuk tugas inspeksi.
- Untuk Resource location, pilih Global atau region tempat Anda ingin menyimpan tugas inspeksi.
- Untuk Location, pilih Google Cloud Storage.
- Untuk URL, masukkan jalur ke direktori input. Direktori input
berisi data yang ingin Anda pindai—misalnya,
gs://input-bucket/folder1/folder1a
. Jika Anda ingin memindai direktori input secara rekursif, tambahkan garis miring penutup ke URL, lalu pilih Pindai secara rekursif. Di bagian Sampling, dalam daftar Sampling method, pilih No sampling.
Pengambilan sampel tidak didukung pada tugas dan pemicu tugas yang dikonfigurasi dengan de-identifikasi.
Konfigurasikan deteksi
Di bagian Configure detection, pilih jenis data sensitif yang akan diperiksa. Ini disebut infoTypes. Anda dapat memilih dari daftar infoTypes standar, atau Anda dapat memilih template jika ada. Untuk mengetahui detail selengkapnya, lihat Mengonfigurasi deteksi.
Tambah tindakan
Di bagian Tambahkan tindakan, lakukan tindakan berikut:
- Aktifkan Buat salinan yang dideidentifikasi.
- Opsional: Untuk De-identification template, masukkan nama resource lengkap template de-identifikasi default jika Anda membuatnya.
- Opsional: Untuk Template penghapusan identitas terstruktur, masukkan nama resource lengkap template penghapusan identitas untuk file terstruktur jika Anda membuatnya. Jika tidak, Perlindungan Data Sensitif akan menggunakan template default jika Anda membuatnya.
- Opsional: Untuk Template penyamaran gambar, masukkan nama resource lengkap template penyamaran gambar untuk gambar jika Anda membuatnya.
Opsional: Jika Anda ingin Perlindungan Data Sensitif menyimpan detail transformasi di tabel BigQuery, pilih Export transformation details to BigQuery, lalu isi informasi berikut:
- Project ID: project yang berisi tabel BigQuery.
- ID Set Data: set data yang berisi tabel BigQuery.
- ID Tabel: tabel tempat Perlindungan Data Sensitif harus menyimpan detail tentang setiap transformasi. Perlindungan Data Sensitif membuat tabel ini dengan ID tabel yang Anda berikan. Jika Anda tidak memberikan ID tabel, sistem akan otomatis membuatnya.
Tabel ini tidak menyimpan konten yang telah dideidentifikasi.
Saat data ditulis ke tabel BigQuery, tagihan dan penggunaan kuota akan diterapkan ke project yang berisi tabel tujuan.
Untuk Cloud Storage output location, masukkan URL direktori Cloud Storage tempat Anda ingin menyimpan file yang dide-identifikasi. Direktori ini tidak boleh berada di bucket Cloud Storage yang sama dengan direktori input.
Opsional: Untuk File types, pilih jenis file yang ingin Anda transformasi.
Untuk informasi selengkapnya tentang tindakan lain yang dapat Anda tambahkan, lihat Menambahkan tindakan.
Jadwal
Di bagian Jadwal, tentukan apakah Anda ingin menjadikan tugas ini sebagai tugas berulang:
- Untuk menjalankan pemindaian hanya sekali, tetapkan kolom ke Tidak ada.
- Untuk menjadwalkan pemindaian agar berjalan secara berkala, klik Buat pemicu untuk menjalankan tugas pada jadwal berkala.
Untuk informasi selengkapnya, lihat Jadwal.
Ulasan
Di bagian Schedule, tinjau konfigurasi tugas, dan jika diperlukan, edit tugas.
Klik Create.
Jika Anda memilih untuk tidak menjadwalkan tugas, Perlindungan Data Sensitif akan segera mulai menjalankannya. Setelah tugas selesai, sistem akan mengalihkan Anda ke halaman Detail tugas, tempat Anda dapat melihat hasil operasi pemeriksaan dan penghapusan identitas.
Jika Anda memilih untuk mengekspor detail transformasi ke tabel BigQuery, tabel akan diisi. Tabel ini berisi satu baris untuk setiap transformasi yang dilakukan Perlindungan Data Sensitif. Untuk setiap transformasi, detailnya mencakup deskripsi, kode berhasil atau error, detail error apa pun, jumlah byte yang ditransformasi, lokasi konten yang ditransformasi, dan nama tugas pemeriksaan tempat Perlindungan Data Sensitif melakukan transformasi. Tabel ini tidak berisi konten yang telah dideidentifikasi.
Mengonfirmasi bahwa file telah dideidentifikasi
- Di halaman Detail tugas, klik tab Konfigurasi.
- Untuk melihat file yang dide-identifikasi di direktori output, klik link di kolom Output bucket for de-identified Cloud Storage data.
Untuk melihat tabel BigQuery yang berisi detail transformasi, klik link di kolom Transformation Details.
Untuk mengetahui informasi tentang cara membuat kueri tabel BigQuery, lihat Menjalankan kueri interaktif.
Langkah selanjutnya
- Pelajari lebih lanjut proses de-identifikasi data dalam penyimpanan.
- Pelajari cara melakukan de-identifikasi data sensitif yang disimpan di Cloud Storage menggunakan DLP API.
- Ikuti codelab Membuat Salinan Data yang Dide-identifikasi di Cloud Storage.
- Pelajari transformasi de-identifikasi lebih lanjut.
- Pelajari cara membuat dan menjadwalkan tugas inspeksi.