De-identifikasi

Perlindungan Data Sensitif menggunakan jenis informasi—atau infoType—untuk menentukan apa yang dipindai. InfoType adalah jenis data sensitif, seperti nama, alamat email, nomor telepon, nomor identifikasi, nomor kartu kredit, dan sebagainya.

Setiap infoType yang ditentukan di Sensitive Data Protection memiliki detektor yang sesuai. Perlindungan Data Sensitif menggunakan pendeteksi infoType dalam konfigurasi untuk pemindaian guna menentukan apa yang akan diperiksa dan cara mengubah temuan. Nama InfoType juga digunakan saat menampilkan atau melaporkan hasil pemindaian.

Topik ini menjelaskan infoType dan pendeteksi infoType secara mendetail, serta memberikan panduan tentang cara menggunakan pendeteksi infoType saat memindai konten untuk menemukan data sensitif menggunakan Perlindungan Data Sensitif.

Menentukan pendeteksi infoType

Saat menyiapkan Perlindungan Data Sensitif untuk memindai konten, Anda menyertakan pendeteksi infoType yang akan digunakan dalam konfigurasi pemindaian.

Misalnya, JSON berikut menunjukkan permintaan pemindaian sederhana ke DLP API. Perhatikan bahwa detektor PHONE_NUMBER ditentukan di inspectConfig, yang menginstruksikan Perlindungan Data Sensitif untuk memindai string yang diberikan untuk menemukan nomor telepon.

POST https://dlp.googleapis.com/v2/projects/[PROJECT_ID]/content:inspect?key={YOUR_API_KEY}

{
  "item":{
    "value":"My phone number is (415) 555-0890"
  },
  "inspectConfig":{
    "includeQuote":true,
    "minLikelihood":"POSSIBLE",
    "infoTypes":{
      "name":"PHONE_NUMBER"
    }
  }
}

Permintaan sebelumnya menampilkan hal berikut:

{
  "result":{
    "findings":[
      {
        "quote":"(415) 555-0890",
        "infoType":{
          "name":"PHONE_NUMBER"
        },
        "likelihood":"VERY_LIKELY",
        "location":{
          "byteRange":{
            "start":"19",
            "end":"33"
          },
          "codepointRange":{
            "start":"19",
            "end":"33"
          }
        },
        "createTime":"2018-10-29T23:46:34.535Z"
      }
    ]
  }
}

Selalu tentukan infoTypes dalam konfigurasi pemindaian. Jika Anda tidak menentukan infoType apa pun, Sensitive Data Protection akan menggunakan daftar infoType default. Bergantung pada jumlah konten yang akan dipindai, pemindaian infoTypes default dapat menghabiskan banyak waktu atau mahal.

Untuk mengetahui informasi selengkapnya tentang cara menggunakan detektor infoType untuk memindai konten Anda, lihat salah satu topik cara tentang memeriksa, menyamarkan, atau menghapus identitas.

Jenis pendeteksi infoType

Detektor jenis informasi (atau "infoType") adalah mekanisme yang digunakan Perlindungan Data Sensitif untuk menemukan data sensitif.

Perlindungan Data Sensitif mencakup beberapa jenis detektor infoType, yang semuanya disertakan di sini:

  • Detektor infoType bawaan disertakan dalam Perlindungan Data Sensitif. Pendeteksi ini mencakup pendeteksi untuk jenis data sensitif khusus negara atau wilayah serta jenis data yang berlaku secara global.
  • Detektor infoType kustom adalah pendeteksi yang Anda buat sendiri. Ada tiga jenis pendeteksi infoType kustom:
    • Pendeteksi kamus kustom reguler adalah daftar kata sederhana yang cocok dengan Perlindungan Data Sensitif. Gunakan pendeteksi kamus kustom reguler jika Anda memiliki daftar hingga beberapa puluhan ribu kata atau frasa. Detektor kamus kustom reguler lebih disukai jika Anda tidak mengantisipasi perubahan daftar kata secara signifikan.
    • Detektor kamus kustom tersimpan dibuat oleh Perlindungan Data Sensitif menggunakan daftar besar kata atau frasa yang disimpan di Cloud Storage atau BigQuery. Gunakan detektor kamus kustom yang disimpan jika Anda memiliki daftar kata atau frasa yang besar—hingga puluhan juta.
    • Detektor ekspresi reguler (regex) memungkinkan Perlindungan Data Sensitif mendeteksi kecocokan berdasarkan pola ekspresi reguler.

Selain itu, Perlindungan Data Sensitif mencakup konsep aturan pemeriksaan, yang memungkinkan Anda menyesuaikan hasil pemindaian menggunakan hal berikut:

  • Aturan pengecualian memungkinkan Anda mengurangi jumlah temuan yang ditampilkan dengan menambahkan aturan ke detektor infoType bawaan atau kustom.
  • Aturan kata cepat memungkinkan Anda meningkatkan kuantitas atau mengubah nilai kemungkinan temuan yang ditampilkan dengan menambahkan aturan ke detektor infoType bawaan atau kustom.

Pendeteksi infoType bawaan

Detektor infoType bawaan terintegrasi dalam Perlindungan Data Sensitif, dan menyertakan detektor untuk jenis data sensitif khusus negara atau wilayah seperti Numéro d'Inscription au Répertoire (NIR) Prancis (FRANCE_NIR), nomor surat izin mengemudi Inggris Raya (UK_DRIVERS_LICENSE_NUMBER), dan nomor Jaminan Sosial Amerika Serikat (US_SOCIAL_SECURITY_NUMBER). Detektor ini juga mencakup jenis data yang berlaku secara global seperti nama orang (PERSON_NAME), nomor telepon (PHONE_NUMBER), alamat email (EMAIL_ADDRESS), dan nomor kartu kredit (CREDIT_CARD_NUMBER).Untuk mendeteksi konten yang sesuai dengan infoType, Perlindungan Data Sensitif memanfaatkan berbagai teknik termasuk pencocokan pola, checksum, machine learning, analisis konteks, dan lainnya.

Daftar pendeteksi infoType bawaan selalu diperbarui. Untuk daftar lengkap detektor infoType bawaan yang saat ini didukung, lihat Referensi detektor InfoType.

Anda juga dapat melihat daftar lengkap semua detektor infoType bawaan dengan memanggil metode infoTypes.list Sensitive Data Protection.

Pendeteksi infoType kustom

Ada tiga jenis pendeteksi infoType kustom:

Selain itu, Perlindungan Data Sensitif menyertakan aturan pemeriksaan, yang memungkinkan Anda menyesuaikan hasil pemindaian dengan menambahkan hal berikut ke pendeteksi yang ada:

Pendeteksi kamus kustom reguler

Gunakan pendeteksi kamus kustom reguler untuk mencocokkan daftar kata atau frasa yang singkat (hingga beberapa puluh ribu). Kamus kustom reguler dapat bertindak sebagai pendeteksi uniknya sendiri.

Pendeteksi kamus kustom berguna saat Anda ingin memindai daftar kata atau frasa yang tidak mudah dicocokkan dengan ekspresi reguler atau pendeteksi bawaan. Misalnya, Anda ingin memindai ruang konferensi yang biasa disebut dengan nama ruang yang ditetapkan, bukan nomor ruangnya, seperti nama negara bagian atau wilayah, penanda, karakter fiksi, dan sebagainya. Anda dapat membuat pendeteksi kamus kustom reguler yang berisi daftar nama ruangan ini. Sensitive Data Protection dapat memindai konten Anda untuk setiap nama ruangan dan menampilkan kecocokan saat menemukan salah satunya dalam konteks. Pelajari lebih lanjut cara Perlindungan Data Sensitif mencocokkan kata dan frasa dicikon bagian "Detail pencocokan dicikon" di Membuat Detektor Kamus Kustom Reguler.

Untuk mengetahui detail selengkapnya tentang cara kerja detektor infoType kustom kamus reguler, serta contoh penerapannya, lihat Membuat Detektor Kamus Kustom Reguler.

Pendeteksi kamus kustom yang disimpan

Gunakan detektor kamus kustom tersimpan jika Anda memiliki lebih dari beberapa kata atau frasa yang akan dipindai, atau jika daftar kata atau frasa Anda sering berubah. Pendeteksi kamus kustom yang disimpan dapat cocok dengan hingga puluhan juta kata atau frasa.

Pendeteksi kamus kustom yang disimpan, karena sifatnya sebagai pendeteksi kustom yang sangat besar, dibuat secara berbeda dari pendeteksi kustom ekspresi reguler dan pendeteksi kamus kustom reguler. Setiap kamus kustom yang disimpan memiliki dua komponen:

  • Daftar frasa yang Anda buat dan tentukan. Daftar disimpan sebagai file teks dalam Cloud Storage atau kolom dalam tabel BigQuery.
  • File kamus yang dihasilkan, yang dibuat oleh Perlindungan Data Sensitif berdasarkan daftar frasa Anda. File kamus disimpan di Cloud Storage, dan terdiri dari salinan data frasa sumber serta filter bloom, yang membantu penelusuran dan pencocokan. Anda tidak dapat mengedit file ini secara langsung.

Setelah membuat daftar kata, lalu menggunakan Perlindungan Data Sensitif untuk membuat kamus kustom, Anda memulai atau menjadwalkan pemindaian menggunakan pendeteksi kamus kustom yang disimpan dengan cara yang mirip dengan pendeteksi infoType lainnya.

Untuk mengetahui detail selengkapnya tentang cara kerja pendeteksi kamus kustom yang disimpan, serta contoh penerapannya, lihat Membuat Pendeteksi Kamus Kustom yang Disimpan.

Ekspresi reguler

Detektor infoType kustom ekspresi reguler (regex) memungkinkan Anda membuat detektor infoType sendiri yang memungkinkan Perlindungan Data Sensitif mendeteksi kecocokan berdasarkan pola ekspresi reguler. Misalnya, Anda memiliki nomor catatan medis dalam bentuk ###-#-#####. Anda dapat menentukan pola ekspresi reguler seperti berikut:

[1-9]{3}-[1-9]{1}-[1-9]{5}

Perlindungan Data Sensitif kemudian akan mencocokkan item seperti ini:

123-4-56789

Anda juga dapat menentukan kemungkinan untuk ditetapkan ke setiap pencocokan infoType kustom. Artinya, saat Sensitive Data Protection cocok dengan urutan yang Anda tentukan, fitur ini akan menetapkan kemungkinan yang telah Anda tunjukkan. Hal ini berguna karena jika ekspresi reguler kustom Anda menentukan urutan yang cukup umum, urutan tersebut dapat dengan mudah cocok dengan beberapa urutan acak lainnya. Anda tidak ingin Perlindungan Data Sensitif melabeli setiap kecocokan sebagai VERY_LIKELY. Tindakan ini akan mengurangi keyakinan pada hasil pemindaian dan berpotensi menyebabkan informasi yang salah di-de-identifikasi.

Untuk mengetahui informasi selengkapnya tentang detektor infoType kustom ekspresi reguler, dan untuk melihat cara kerjanya, lihat Membuat Detektor Regex Kustom.

Aturan inspeksi

Anda menggunakan aturan pemeriksaan untuk menyaring hasil yang ditampilkan oleh pendeteksi infoType yang ada—baik bawaan maupun kustom. Aturan pemeriksaan dapat berguna saat hasil yang ditampilkan Sensitive Data Protection perlu ditingkatkan dengan cara tertentu, baik dengan menambahkan ke dan mengecualikan dari detector infoType yang ada.

Dua jenis aturan inspeksi adalah:

  • Aturan pengecualian
  • Aturan frasa pengaktif

Untuk informasi selengkapnya tentang aturan pemeriksaan, lihat Mengubah Detektor InfoType untuk Memperbaiki Hasil Pemindaian.

Aturan pengecualian

Aturan pengecualian memungkinkan Anda mengurangi jumlah atau presisi temuan yang ditampilkan dengan menambahkan aturan ke detektor infoType bawaan atau kustom. Aturan pengecualian dapat membantu Anda mengurangi derau atau temuan tidak diinginkan lainnya agar tidak ditampilkan oleh detektor infoType.

Misalnya, jika Anda memindai database untuk menemukan alamat email, Anda dapat menambahkan aturan pengecualian dalam bentuk ekspresi reguler kustom yang menginstruksikan Perlindungan Data Sensitif untuk mengecualikan temuan apa pun yang diakhiri dengan "@example.com".

Untuk mengetahui informasi selengkapnya tentang aturan pengecualian, lihat Mengubah Detektor InfoType untuk Memfilter Hasil Pemindaian.

Aturan frasa pengaktif

Aturan frasa pengaktif memungkinkan Anda meningkatkan kuantitas atau akurasi temuan yang ditampilkan dengan menambahkan aturan ke detektor infoType bawaan atau kustom. Aturan kata cepat dapat membantu Anda melonggarkan aturan detektor infoType yang ada secara efektif.

Misalnya, Anda ingin memindai database medis untuk mencari nama pasien. Anda dapat menggunakan detector infoType PERSON_NAME bawaan Sensitive Data Protection, tetapi hal itu akan menyebabkan Sensitive Data Protection cocok dengan semua nama orang, bukan hanya nama pasien. Untuk memperbaikinya, Anda dapat menyertakan aturan frasa pengaktif dalam bentuk infoType kustom ekspresi reguler yang mencari kata "pasien" dalam kedekatan karakter tertentu dari karakter pertama potensial kecocokan. Kemudian, Anda dapat menetapkan temuan yang cocok dengan pola ini dengan kemungkinan "sangat mungkin", karena sesuai dengan kriteria khusus Anda.

Untuk mengetahui informasi selengkapnya tentang aturan frasa pengaktif, lihat Mengubah Detektor InfoType untuk Memperbaiki Hasil Pemindaian.