Perlindungan Data Sensitif menggunakan jenis informasi—atau infoTypes—untuk menentukan apa yang dipindainya. infoType adalah jenis data sensitif, seperti nama, alamat email, nomor telepon, nomor identifikasi, nomor kartu kredit, dan sebagainya. Pendeteksi infoType adalah mekanisme deteksi yang sesuai dan cocok dengan kriteria pencocokan infoType.
Cara menggunakan infoTypes
Perlindungan Data Sensitif menggunakan detektor infoType dalam konfigurasi untuk pemindaiannya guna menentukan apa yang harus diperiksa dan cara mengubah temuan. Nama InfoType juga digunakan saat menampilkan atau melaporkan hasil pemindaian.
Misalnya, jika ingin mencari alamat email di blok teks, Anda akan menentukan detektor infoType EMAIL_ADDRESS
dalam konfigurasi pemeriksaan. Jika ingin menyamarkan alamat email dari blok teks, Anda perlu menentukan EMAIL_ADDRESS
dalam konfigurasi pemeriksaan dan konfigurasi de-identifikasi untuk menunjukkan cara menyamarkan atau mengubah jenis tersebut.
Selain itu, Anda dapat menggunakan kombinasi detektor infoType bawaan dan kustom untuk mengecualikan subset alamat email dari temuan pemindaian. Pertama, buat infoType kustom yang disebut INTERNAL_EMAIL_ADDRESS
, lalu konfigurasikan untuk mengecualikan alamat email pengujian internal. Kemudian, Anda dapat menyiapkan pemindaian untuk menyertakan
temuan EMAIL_ADDRESS
, tetapi menyertakan aturan pengecualian yang mengecualikan
temuan apa pun yang cocok dengan INTERNAL_EMAIL_ADDRESS
. Untuk mengetahui informasi selengkapnya tentang aturan pengecualian dan fitur lain dari detektor infoType kustom, lihat Membuat detektor infoType kustom.
Perlindungan Data Sensitif menyediakan kumpulan detektor infoType bawaan yang Anda tentukan berdasarkan nama, yang masing-masing tercantum dalam referensi detektor InfoType. Detektor ini menggunakan berbagai teknik untuk menemukan dan mengklasifikasikan setiap jenis detektor. Misalnya, beberapa jenis akan memerlukan pencocokan pola, sebagian mungkin memiliki checksum matematika, sebagian memiliki batasan digit khusus, dan jenis lainnya mungkin memiliki awalan atau konteks tertentu seputar temuan tersebut.
Contoh
Saat menyiapkan Perlindungan Data Sensitif untuk memindai konten, Anda menyertakan detektor infoType untuk digunakan dalam konfigurasi pemindaian.
Misalnya, contoh kode dan JSON berikut menunjukkan permintaan pemindaian sederhana ke DLP API. Perhatikan bahwa pendeteksi PHONE_NUMBER
ditentukan dalam
inspectConfig
,
yang menginstruksikan Perlindungan Data Sensitif untuk memindai string yang diberikan untuk
nomor telepon.
C#
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Perlindungan Data Sensitif, lihat Library klien Perlindungan Data Sensitif.
Untuk mengautentikasi Perlindungan Data Sensitif, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Go
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Perlindungan Data Sensitif, lihat Library klien Perlindungan Data Sensitif.
Untuk mengautentikasi Perlindungan Data Sensitif, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Java
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Perlindungan Data Sensitif, lihat Library klien Perlindungan Data Sensitif.
Untuk mengautentikasi Perlindungan Data Sensitif, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Node.js
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Perlindungan Data Sensitif, lihat Library klien Perlindungan Data Sensitif.
Untuk mengautentikasi Perlindungan Data Sensitif, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
PHP
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Perlindungan Data Sensitif, lihat Library klien Perlindungan Data Sensitif.
Untuk mengautentikasi Perlindungan Data Sensitif, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Python
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Perlindungan Data Sensitif, lihat Library klien Perlindungan Data Sensitif.
Untuk mengautentikasi Perlindungan Data Sensitif, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
REST
Input JSON:
POST https://dlp.googleapis.com/v2/projects/[PROJECT-ID]/content:inspect?key={YOUR_API_KEY}
{
"item":{
"value":"My phone number is (415) 555-0890"
},
"inspectConfig":{
"includeQuote":true,
"minLikelihood":"POSSIBLE",
"infoTypes":{
"name":"PHONE_NUMBER"
}
}
}
Saat Anda mengirim permintaan sebelumnya ke endpoint yang ditentukan, Perlindungan Data Sensitif akan menampilkan hal berikut:
Output JSON:
{
"result":{
"findings":[
{
"quote":"(415) 555-0890",
"infoType":{
"name":"PHONE_NUMBER"
},
"likelihood":"VERY_LIKELY",
"location":{
"byteRange":{
"start":"19",
"end":"33"
},
"codepointRange":{
"start":"19",
"end":"33"
}
},
"createTime":"2018-10-29T23:46:34.535Z"
}
]
}
}
Jika memerlukan kontrol dan prediktabilitas yang akurat terkait pendeteksi yang dijalankan, Anda harus menentukan infoTypes tertentu yang tercantum dalam referensi. Jika tidak, Perlindungan Data Sensitif akan menggunakan daftar default, yang dapat berubah dari waktu ke waktu. Bergantung pada jumlah konten yang akan dipindai, pemindaian infoType default dapat sangat memakan waktu atau mahal.
Untuk informasi selengkapnya tentang cara menggunakan detektor infoType untuk memindai konten, lihat salah satu topik petunjuk tentang pemeriksaan, penyamaran, atau de-identifikasi.
Kepastian dan pengujian
Temuan dilaporkan dengan skor kepastian yang disebut kemungkinan. Skor kemungkinan menunjukkan seberapa besar kemungkinan sebuah temuan cocok dengan jenis yang sesuai. Misalnya, suatu jenis dapat menampilkan kemungkinan yang lebih rendah jika hanya cocok dengan pola dan menampilkan kemungkinan yang lebih tinggi jika cocok dengan pola dan memiliki konteks positif. Karena alasan ini, Anda mungkin melihat bahwa satu temuan dapat cocok dengan beberapa jenis dengan kemungkinan yang lebih rendah. Selain itu, temuan mungkin tidak muncul atau mungkin memiliki kepastian yang lebih rendah jika tidak cocok dengan tepat, atau jika memiliki konteks negatif. Misalnya, temuan mungkin tidak dilaporkan jika cocok dengan struktur untuk infoType yang ditentukan, tetapi gagal dengan checksum infoType. Atau, temuan dapat cocok dengan lebih dari satu infoType tetapi memiliki konteks yang meningkatkan salah satunya, sehingga hanya dilaporkan untuk jenis tersebut.
Jika Anda menguji berbagai detektor, Anda mungkin melihat bahwa data sampel atau palsu tidak dilaporkan karena data sampel atau palsu tidak lulus pemeriksaan yang cukup untuk dilaporkan.
Jenis pendeteksi infoType
Perlindungan Data Sensitif mencakup beberapa jenis detektor infoType, yang semuanya dirangkum di sini:
- Pendeteksi infoType bawaan disertakan dalam Perlindungan Data Sensitif. Alat tersebut mencakup detektor untuk jenis data sensitif khusus negara atau wilayah serta jenis data yang berlaku secara global.
- Pendeteksi infoType kustom adalah pendeteksi yang Anda buat sendiri. Ada tiga jenis pendeteksi infoType kustom:
- Pendeteksi kamus kustom kecil adalah daftar kata sederhana yang cocok dengan Perlindungan Data Sensitif. Gunakan pendeteksi kamus kustom kecil saat Anda memiliki daftar yang berisi hingga beberapa puluhan ribu kata atau frasa. Pendeteksi kamus kustom berukuran kecil akan lebih diutamakan jika Anda tidak mengantisipasi perubahan daftar kata secara signifikan.
- Pendeteksi kamus kustom berukuran besar dihasilkan oleh Perlindungan Data Sensitif menggunakan daftar besar kata atau frasa yang disimpan di Cloud Storage atau BigQuery. Gunakan pendeteksi kamus kustom yang besar saat Anda memiliki daftar kata atau frasa dalam jumlah besar—hingga puluhan juta.
- Pendeteksi ekspresi reguler (regex) memungkinkan Perlindungan Data Sensitif untuk mendeteksi kecocokan berdasarkan pola ekspresi reguler.
Selain itu, Perlindungan Data Sensitif menyertakan konsep aturan pemeriksaan, yang memungkinkan Anda menyempurnakan hasil pemindaian menggunakan hal berikut:
- Aturan pengecualian memungkinkan Anda mengurangi jumlah temuan yang ditampilkan dengan menambahkan aturan ke detektor infoType bawaan atau kustom.
- Aturan frasa pengaktif memungkinkan Anda meningkatkan kuantitas atau mengubah nilai kemungkinan temuan yang ditampilkan dengan menambahkan aturan ke detektor infoType bawaan atau kustom.
Pendeteksi infoType bawaan
Detektor infoType bawaan disertakan dalam Perlindungan Data Sensitif, dan
menyertakan pendeteksi untuk jenis data sensitif khusus negara atau wilayah tertentu seperti
teknik Numéro d'Inscription au Répertoire (NIR) Prancis,
nomor surat izin mengemudi (UK_DRIVERS_LICENSE_NUMBER
) Inggris, dan nomor Jaminan Sosial
AS (US_SOCIAL_SECURITY_NUMBER
). Detektor ini juga mencakup nomor konteks dan info
yang sesuai secara global (PERSON_NAME
), jenis data yang sesuai
dan data yang sesuai secara global (PERSON_NAME
).FRANCE_NIR
PHONE_NUMBER
EMAIL_ADDRESS
CREDIT_CARD_NUMBER
Daftar pendeteksi infoType bawaan selalu diperbarui. Untuk mengetahui daftar lengkap detektor infoType bawaan yang saat ini didukung, lihat Referensi detektor InfoType.
Anda juga dapat melihat daftar lengkap semua detektor infoType bawaan dengan
memanggil metode
infoTypes.list
Perlindungan Data Sensitif.
Detektor infoType bawaan bukan metode deteksi yang 100% akurat. Misalnya, mereka tidak dapat menjamin kepatuhan terhadap persyaratan peraturan. Anda harus memutuskan data mana yang sensitif dan cara terbaik untuk melindunginya. Google merekomendasikan agar Anda menguji setelan untuk memastikan konfigurasi memenuhi persyaratan.
Dukungan bahasa
InfoType spesifik per negara mendukung bahasa Inggris dan bahasa negara masing-masing. Sebagian besar infoType global berfungsi dengan beberapa bahasa. Uji Perlindungan Data Sensitif dengan data Anda untuk memverifikasi bahwa data tersebut memenuhi persyaratan Anda.
Pendeteksi infoType kustom
Ada tiga jenis pendeteksi infoType kustom:
- Pendeteksi kamus kustom berukuran kecil
- Pendeteksi kamus kustom yang berukuran besar
- Ekspresi reguler (regex)
Selain itu, Perlindungan Data Sensitif menyertakan aturan pemeriksaan, yang memungkinkan Anda meningkatkan hasil pemindaian dengan menambahkan hal berikut ke pendeteksi yang ada:
Pendeteksi kamus kustom kecil
Gunakan pendeteksi kamus kecil kustom (juga disebut sebagai "pendeteksi kamus kustom reguler") untuk mencocokkan daftar singkat (hingga beberapa puluhan ribu) kata atau frasa. Kamus khusus berukuran kecil dapat bertindak sebagai pendeteksi uniknya sendiri.
Pendeteksi kamus kustom berguna saat Anda ingin memindai daftar kata atau frasa yang tidak mudah dicocokkan dengan ekspresi reguler atau detektor bawaan. Misalnya, Anda ingin memindai ruang konferensi yang biasanya disebut berdasarkan nama ruangan yang ditetapkan, bukan nomor kamarnya, seperti nama negara bagian atau wilayah, tempat terkenal, karakter fiksi, dan sebagainya. Anda dapat membuat detektor kamus kustom kecil yang berisi daftar nama ruangan ini. Perlindungan Data Sensitif dapat memindai konten Anda untuk setiap nama kamar dan menampilkan kecocokan jika menemukan salah satunya dalam konteks. Pelajari lebih lanjut cara Perlindungan Data Sensitif mencocokkan kata dan frasa kamus di bagian "Khusus pencocokan kamu" dalam Membuat pendeteksi kamus khusus reguler.
Untuk detail selengkapnya tentang cara kerja detektor infoType kustom kamus kecil, serta contoh cara kerjanya, lihat Membuat pendeteksi kamus kustom reguler.
Pendeteksi kamus kustom yang besar
Gunakan pendeteksi kamus kustom yang besar (juga disebut sebagai "pendeteksi kamus kustom yang disimpan") saat Anda memiliki lebih dari beberapa kata atau frasa untuk dipindai, atau jika daftar kata atau frasa Anda sering berubah. Pendeteksi kamus kustom yang besar dapat mencocokkan hingga puluhan juta kata atau frasa.
Pendeteksi kamus kustom berukuran besar dibuat secara berbeda dengan pendeteksi kustom ekspresi reguler dan detektor kamus kustom yang kecil. Setiap kamus kustom berukuran besar memiliki dua komponen:
- Daftar frasa yang Anda buat dan definisikan. Daftar ini disimpan sebagai file teks dalam Cloud Storage atau kolom dalam tabel BigQuery.
- File kamus yang dihasilkan, yang dibuat oleh Perlindungan Data Sensitif berdasarkan daftar frasa Anda. File kamus disimpan di Cloud Storage, dan terdiri dari salinan data frasa sumber ditambah filter mekar, yang membantu dalam penelusuran dan pencocokan. Anda tidak dapat mengedit file-file ini secara langsung.
Setelah membuat daftar kata dan menggunakan Perlindungan Data Sensitif untuk membuat kamus kustom, Anda akan memulai atau menjadwalkan pemindaian menggunakan detektor kamus kustom besar dengan cara serupa seperti detektor infoType lainnya.
Untuk detail selengkapnya tentang cara kerja detektor kamus khusus besar, serta contoh cara kerjanya, lihat Membuat pendeteksi kamus khusus tersimpan.
Ekspresi reguler
Detektor infoType kustom ekspresi reguler (regex) memungkinkan Anda membuat
detektor infoType Anda sendiri yang memungkinkan Perlindungan Data Sensitif mendeteksi kecocokan
berdasarkan pola ekspresi reguler. Misalnya, anggaplah Anda memiliki nomor rekam medis
dalam bentuk ###-#-#####
. Anda dapat menentukan pola ekspresi reguler seperti berikut:
[1-9]{3}-[1-9]{1}-[1-9]{5}
Perlindungan Data Sensitif kemudian akan mencocokkan item seperti ini:
123-4-56789
Anda juga dapat menentukan kemungkinan untuk ditetapkan ke setiap kecocokan infoType kustom. Artinya, jika Perlindungan Data Sensitif cocok dengan urutan yang Anda tentukan, Perlindungan Data Sensitif akan menetapkan kemungkinan yang telah Anda tunjukkan. Hal ini
berguna karena jika ekspresi reguler kustom Anda menentukan urutan yang cukup umum, ekspresi reguler tersebut dapat dengan mudah mencocokkan beberapa urutan acak lainnya, Anda tidak ingin
Perlindungan Data Sensitif memberi label pada setiap kecocokan sebagai VERY_LIKELY
. Melakukannya akan
mengikis kepercayaan hasil pemindaian dan berpotensi menyebabkan informasi yang salah
dicocokkan atau dide-identifikasi.
Untuk informasi selengkapnya tentang detektor infoType kustom ekspresi reguler, dan untuk melihat cara kerjanya, lihat Membuat deteksi ekspresi reguler kustom.
Aturan inspeksi
Anda menggunakan aturan pemeriksaan untuk menyaring hasil yang ditampilkan oleh pendeteksi infoType yang ada—baik bawaan maupun kustom. Aturan inspeksi dapat berguna saat hasil yang ditampilkan Perlindungan Data Sensitif perlu ditingkatkan dengan cara tertentu, baik dengan menambahkan ke dan mengecualikan dari pendeteksi infoType yang ada.
Dua jenis aturan inspeksi adalah:
- Aturan pengecualian
- Aturan frasa pengaktif
Untuk mengetahui informasi selengkapnya tentang aturan pemeriksaan, lihat Mengubah detektor infoType untuk meningkatkan kualitas hasil pemindaian.
Aturan pengecualian
Aturan pengecualian memungkinkan Anda mengurangi kuantitas atau presisi temuan yang ditampilkan dengan menambahkan aturan ke detektor infoType bawaan atau kustom. Aturan pengecualian dapat membantu Anda mengurangi derau atau temuan yang tidak diinginkan lainnya agar tidak ditampilkan oleh detektor infoType.
Misalnya, jika memindai database untuk alamat email, Anda dapat menambahkan aturan pengecualian dalam bentuk ekspresi reguler kustom yang menginstruksikan Perlindungan Data Sensitif untuk mengecualikan temuan apa pun yang diakhiri dengan "@example.com".
Untuk mengetahui informasi selengkapnya tentang aturan pengecualian, lihat Mengubah detektor infoType untuk menyaring hasil pemindaian.
Aturan frasa pengaktif
Aturan frasa pengaktif memungkinkan Anda meningkatkan kuantitas atau akurasi temuan yang ditampilkan dengan menambahkan aturan ke detektor infoType bawaan atau kustom. Aturan frasa pengaktif dapat secara efektif membantu Anda melonggarkan aturan detektor infoType yang ada.
Misalnya, Anda ingin memindai database medis untuk mencari nama pasien. Anda dapat menggunakan pendeteksi infoType PERSON_NAME
bawaan Perlindungan Data Sensitif, tetapi deteksi Perlindungan Data Sensitif akan cocok dengan semua nama orang, bukan hanya nama pasien. Untuk memperbaikinya, Anda dapat menyertakan aturan frasa pengaktif dalam bentuk infoType kustom ekspresi reguler yang mencari kata "patient" dalam jarak karakter tertentu dari karakter pertama pada
potensi kecocokan. Anda kemudian dapat menetapkan temuan yang cocok dengan pola ini sebagai kemungkinan "sangat mungkin", karena temuan tersebut sesuai dengan kriteria khusus Anda.
Untuk mengetahui informasi selengkapnya tentang aturan frasa pengaktif, lihat Mengubah detektor infoType untuk menyaring hasil pemindaian.
Contoh
Untuk mendapatkan gambaran yang lebih baik tentang kecocokan infoTypes dengan temuan, lihat contoh pencocokan berikut pada serangkaian digit untuk menentukan apakah angka tersebut merupakan nomor Jaminan Sosial AS atau Nomor Identifikasi Wajib Pajak Pribadi AS. Perlu diingat bahwa contoh ini ditujukan untuk detektor infoType bawaan. Saat membuat detektor infoType kustom, Anda menentukan kriteria yang menentukan kemungkinan kecocokan pemindaian.
Contoh 1
"SSN 222-22-2222"
Melaporkan skor kemungkinan tinggi sebesar VERY_LIKELY
untuk
US_SOCIAL_SECURITY_NUMBER
karena:
- Nomor ini menggunakan format nomor Jaminan Sosial standar, yang meningkatkan kepastian.
- Memiliki konteks terdekat ("SSN") yang mengarah ke
US_SOCIAL_SECURITY_NUMBER
.
Contoh 2
"999-99-9999"
Melaporkan skor kemungkinan rendah sebesar VERY_UNLIKELY
untuk
US_SOCIAL_SECURITY_NUMBER
karena:
- Ini adalah format standar, yang meningkatkan kepastiannya.
- Dimulai dengan angka 9, yang tidak diizinkan dalam angka Jaminan Sosial, sehingga menurunkan kepastian.
- Tidak memiliki konteks, sehingga menurunkan kepastian.
Contoh 3
"999-98-9999"
Melaporkan skor kemungkinan POSSIBLE
untuk
US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER
dan VERY_UNLIKELY
untuk
US_SOCIAL_SECURITY_NUMBER
karena:
- Class ini memiliki format standar untuk
US_SOCIAL_SECURITY_NUMBER
danUS_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER
. - Dimulai dengan 9 dan memiliki pemeriksaan digit lain, yang meningkatkan kepastian untuk
US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER
. - Tidak memiliki konteks apa pun, sehingga menurunkan kepastian keduanya.
Langkah selanjutnya
Tim Perlindungan Data Sensitif merilis detektor dan grup infoType baru secara berkala. Untuk mempelajari cara mendapatkan daftar terbaru infoType bawaan, lihat Mencantumkan detektor infoType bawaan.