De-identifikasi

Perlindungan Data Sensitif menggunakan jenis informasi—atau infoTypes—untuk menentukan apa yang dipindainya. infoType adalah jenis data sensitif, seperti nama, alamat email, nomor telepon, nomor identifikasi, nomor kartu kredit, dan sebagainya.

Setiap infoType yang ditentukan dalam Perlindungan Data Sensitif memiliki deteksi yang sesuai. Perlindungan Data Sensitif menggunakan detektor infoType dalam konfigurasi untuk pemindaiannya guna menentukan apa yang harus diperiksa dan cara mentransformasi temuan. Nama InfoType juga digunakan saat menampilkan atau melaporkan hasil pemindaian.

Topik ini menjelaskan detektor infoType dan infoType secara mendetail, serta memberikan panduan cara menggunakan detektor infoType saat memindai konten untuk mendeteksi data sensitif menggunakan Perlindungan Data Sensitif.

Menentukan detektor infoType

Saat menyiapkan Perlindungan Data Sensitif untuk memindai konten, Anda menyertakan detektor infoType untuk digunakan dalam konfigurasi pemindaian.

Misalnya, JSON berikut menunjukkan permintaan pemindaian sederhana ke DLP API. Perhatikan bahwa detektor PHONE_NUMBER ditentukan dalam inspectConfig, yang menginstruksikan Perlindungan Data Sensitif untuk memindai string yang diberikan untuk menemukan nomor telepon.

POST https://dlp.googleapis.com/v2/projects/[PROJECT_ID]/content:inspect?key={YOUR_API_KEY}

{
  "item":{
    "value":"My phone number is (415) 555-0890"
  },
  "inspectConfig":{
    "includeQuote":true,
    "minLikelihood":"POSSIBLE",
    "infoTypes":{
      "name":"PHONE_NUMBER"
    }
  }
}

Permintaan sebelumnya menampilkan hal berikut:

{
  "result":{
    "findings":[
      {
        "quote":"(415) 555-0890",
        "infoType":{
          "name":"PHONE_NUMBER"
        },
        "likelihood":"VERY_LIKELY",
        "location":{
          "byteRange":{
            "start":"19",
            "end":"33"
          },
          "codepointRange":{
            "start":"19",
            "end":"33"
          }
        },
        "createTime":"2018-10-29T23:46:34.535Z"
      }
    ]
  }
}

Selalu tentukan infoTypes dalam konfigurasi pemindaian Anda. Jika Anda tidak menentukan infoType apa pun, Perlindungan Data Sensitif akan menggunakan daftar infoType default. Bergantung pada jumlah konten yang akan dipindai, pemindaian untuk infoType default dapat sangat memakan waktu atau mahal.

Untuk informasi selengkapnya tentang cara menggunakan detektor infoType untuk memindai konten, lihat salah satu topik petunjuk tentang pemeriksaan, penyamaran, atau de-identifikasi.

Jenis pendeteksi infoType

Pendeteksi jenis informasi (atau "infoType") adalah mekanisme yang digunakan Perlindungan Data Sensitif untuk menemukan data sensitif.

Perlindungan Data Sensitif mencakup beberapa jenis detektor infoType, yang semuanya dirangkum di sini:

  • Pendeteksi infoType bawaan disertakan dalam Perlindungan Data Sensitif. Alat tersebut mencakup detektor untuk jenis data sensitif khusus negara atau wilayah serta jenis data yang berlaku secara global.
  • Pendeteksi infoType kustom adalah pendeteksi yang Anda buat sendiri. Ada tiga jenis pendeteksi infoType kustom:
    • Pendeteksi kamus kustom biasa adalah daftar kata sederhana yang cocok dengan Perlindungan Data Sensitif. Gunakan pendeteksi kamus kustom reguler saat Anda memiliki daftar yang berisi hingga beberapa puluhan ribu kata atau frasa. Pendeteksi kamus khusus reguler lebih diutamakan jika Anda tidak mengantisipasi perubahan daftar kata secara signifikan.
    • Pendeteksi kamus kustom yang tersimpan dihasilkan oleh Perlindungan Data Sensitif menggunakan daftar besar kata atau frasa yang disimpan di Cloud Storage atau BigQuery. Gunakan pendeteksi kamus kustom yang tersimpan saat Anda memiliki daftar kata atau frasa dalam jumlah besar—hingga puluhan juta.
    • Pendeteksi ekspresi reguler (regex) memungkinkan Perlindungan Data Sensitif untuk mendeteksi kecocokan berdasarkan pola ekspresi reguler.

Selain itu, Perlindungan Data Sensitif menyertakan konsep aturan pemeriksaan, yang memungkinkan Anda menyempurnakan hasil pemindaian menggunakan hal berikut:

  • Aturan pengecualian memungkinkan Anda mengurangi jumlah temuan yang ditampilkan dengan menambahkan aturan ke detektor infoType bawaan atau kustom.
  • Aturan frasa pengaktif memungkinkan Anda meningkatkan kuantitas atau mengubah nilai kemungkinan temuan yang ditampilkan dengan menambahkan aturan ke detektor infoType bawaan atau kustom.

Pendeteksi infoType bawaan

Detektor infoType bawaan disertakan dalam Perlindungan Data Sensitif, dan menyertakan pendeteksi untuk jenis data sensitif khusus negara atau wilayah tertentu seperti teknik Numéro d'Inscription au Répertoire (NIR) Prancis, nomor lisensi pengemudi Inggris Raya (UK_DRIVERS_LICENSE_NUMBER), dan nomor Jaminan Sosial AS (US_SOCIAL_SECURITY_NUMBER). Jenis deteksi ini juga mencakup nomor konteks dan info yang sesuai secara global (PERSON_NAME), untuk mendeteksi jenis data yang berlaku secara global (seperti nama orang (PERSON_NAME), dan info kartu kredit yang sesuai secara global (PERSON_NAME).FRANCE_NIRPHONE_NUMBEREMAIL_ADDRESSCREDIT_CARD_NUMBER

Daftar pendeteksi infoType bawaan selalu diperbarui. Untuk mengetahui daftar lengkap detektor infoType bawaan yang saat ini didukung, lihat Referensi detektor InfoType.

Anda juga dapat melihat daftar lengkap semua detektor infoType bawaan dengan memanggil metode infoTypes.list Perlindungan Data Sensitif.

Detektor infoType bawaan bukan metode deteksi yang 100% akurat. Misalnya, mereka tidak dapat menjamin kepatuhan terhadap persyaratan peraturan. Anda harus memutuskan data mana yang sensitif dan cara terbaik untuk melindunginya. Google merekomendasikan agar Anda menguji setelan untuk memastikan konfigurasi memenuhi persyaratan.

Pendeteksi infoType kustom

Ada tiga jenis pendeteksi infoType kustom:

Selain itu, Perlindungan Data Sensitif menyertakan aturan pemeriksaan, yang memungkinkan Anda meningkatkan hasil pemindaian dengan menambahkan hal berikut ke pendeteksi yang ada:

Pendeteksi kamus kustom reguler

Gunakan pendeteksi kamus kustom reguler untuk mencocokkan daftar singkat (hingga beberapa puluhan ribu) kata atau frasa. Kamus khusus reguler dapat bertindak sebagai pendeteksi uniknya sendiri.

Pendeteksi kamus kustom berguna saat Anda ingin memindai daftar kata atau frasa yang tidak mudah dicocokkan dengan ekspresi reguler atau detektor bawaan. Misalnya, Anda ingin memindai ruang konferensi yang biasanya disebut berdasarkan nama ruangan yang ditetapkan, bukan nomor kamarnya, seperti nama negara bagian atau wilayah, tempat terkenal, karakter fiksi, dan sebagainya. Anda dapat membuat pendeteksi kamus kustom reguler yang berisi daftar nama ruangan ini. Perlindungan Data Sensitif dapat memindai konten Anda untuk setiap nama kamar dan menampilkan kecocokan jika menemukan salah satunya dalam konteks. Pelajari lebih lanjut cara Perlindungan Data Sensitif mencocokkan kata dan frasa kamus di bagian "Khusus pencocokan kamus" dalam Membuat Detektor Kamus Kustom Reguler.

Untuk detail selengkapnya tentang cara kerja pendeteksi infoType kustom kamus reguler, serta cara kerja contoh, lihat Membuat Pendeteksi Kamus Kustom reguler.

Pendeteksi kamus kustom yang disimpan

Gunakan pendeteksi kamus kustom yang disimpan jika Anda memiliki lebih dari beberapa kata atau frasa untuk dipindai, atau jika daftar kata atau frasa Anda sering berubah. Pendeteksi kamus kustom yang disimpan dapat cocok dengan hingga puluhan juta kata atau frasa.

Pendeteksi kamus kustom yang disimpan, karena sifatnya sebagai pendeteksi kustom yang sangat besar, dibuat secara berbeda dari pendeteksi kustom ekspresi reguler dan detektor kamus kustom reguler. Setiap kamus khusus yang tersimpan memiliki dua komponen:

  • Daftar frasa yang Anda buat dan definisikan. Daftar ini disimpan sebagai file teks dalam Cloud Storage atau kolom dalam tabel BigQuery.
  • File kamus yang dihasilkan, yang dibuat oleh Perlindungan Data Sensitif berdasarkan daftar frasa Anda. File kamus disimpan di Cloud Storage, dan terdiri dari salinan data frasa sumber ditambah filter mekar, yang membantu dalam penelusuran dan pencocokan. Anda tidak dapat mengedit file ini secara langsung.

Setelah membuat daftar kata dan menggunakan Perlindungan Data Sensitif untuk membuat kamus kustom, Anda akan memulai atau menjadwalkan pemindaian menggunakan detektor kamus kustom yang tersimpan dengan cara yang sama seperti detektor infoType lainnya.

Untuk detail selengkapnya tentang cara kerja detektor kamus khusus tersimpan, serta contoh cara kerjanya, lihat Membuat Pendeteksi Kamus Kustom Tersimpan.

Ekspresi reguler

Detektor infoType kustom ekspresi reguler (regex) memungkinkan Anda membuat detektor infoType Anda sendiri yang memungkinkan Perlindungan Data Sensitif mendeteksi kecocokan berdasarkan pola ekspresi reguler. Misalnya, anggaplah Anda memiliki nomor rekam medis dalam bentuk ###-#-#####. Anda dapat menentukan pola ekspresi reguler seperti berikut:

[1-9]{3}-[1-9]{1}-[1-9]{5}

Perlindungan Data Sensitif kemudian akan mencocokkan item seperti ini:

123-4-56789

Anda juga dapat menentukan kemungkinan untuk ditetapkan pada setiap kecocokan infoType kustom. Artinya, jika Perlindungan Data Sensitif cocok dengan urutan yang Anda tentukan, Perlindungan Data Sensitif akan menetapkan kemungkinan yang telah Anda tunjukkan. Hal ini berguna karena jika ekspresi reguler kustom Anda menentukan urutan yang cukup umum, ekspresi reguler tersebut dapat dengan mudah mencocokkan beberapa urutan acak lainnya, Anda tidak ingin Perlindungan Data Sensitif memberi label setiap kecocokan sebagai VERY_LIKELY. Melakukannya akan mengikis kepercayaan hasil pemindaian dan berpotensi menyebabkan informasi yang salah dide-identifikasi.

Untuk informasi selengkapnya tentang pendeteksi infoType kustom ekspresi reguler, dan untuk melihat cara kerjanya, lihat Membuat Pendeteksi Ekspresi Reguler Kustom.

Aturan inspeksi

Anda menggunakan aturan pemeriksaan untuk menyaring hasil yang ditampilkan oleh pendeteksi infoType yang ada—baik bawaan maupun kustom. Aturan inspeksi dapat berguna saat hasil yang ditampilkan Perlindungan Data Sensitif perlu ditambah dengan cara tertentu, baik dengan menambahkan ke atau mengecualikan dari detektor infoType yang ada.

Dua jenis aturan inspeksi adalah:

  • Aturan pengecualian
  • Aturan frasa pengaktif

Untuk informasi selengkapnya tentang aturan pemeriksaan, lihat Memodifikasi Pendeteksi InfoType untuk Menyaring Hasil Pemindaian.

Aturan pengecualian

Aturan pengecualian memungkinkan Anda mengurangi kuantitas atau presisi temuan yang ditampilkan dengan menambahkan aturan ke detektor infoType bawaan atau kustom. Aturan pengecualian dapat membantu Anda mengurangi derau atau temuan yang tidak diinginkan lainnya agar tidak ditampilkan oleh detektor infoType.

Misalnya, jika memindai database untuk alamat email, Anda dapat menambahkan aturan pengecualian dalam bentuk ekspresi reguler kustom yang menginstruksikan Perlindungan Data Sensitif untuk mengecualikan temuan apa pun yang diakhiri dengan "@example.com".

Untuk informasi selengkapnya tentang aturan pengecualian, lihat Memodifikasi Pendeteksi InfoType untuk Menyaring Hasil Pemindaian.

Aturan frasa pengaktif

Aturan frasa pengaktif memungkinkan Anda meningkatkan kuantitas atau akurasi temuan yang ditampilkan dengan menambahkan aturan ke detektor infoType bawaan atau kustom. Aturan frasa pengaktif dapat secara efektif membantu Anda melonggarkan aturan detektor infoType yang ada.

Misalnya, Anda ingin memindai database medis untuk mencari nama pasien. Anda dapat menggunakan pendeteksi infoType PERSON_NAME bawaan Perlindungan Data Sensitif, tetapi deteksi Perlindungan Data Sensitif akan cocok dengan semua nama orang, bukan hanya nama pasien. Untuk memperbaikinya, Anda dapat menyertakan aturan frasa pengaktif dalam bentuk infoType kustom ekspresi reguler yang mencari kata "patient" dalam jarak karakter tertentu dari karakter pertama pada potensi kecocokan. Anda kemudian dapat menetapkan temuan yang cocok dengan pola ini sebagai kemungkinan "sangat mungkin", karena temuan tersebut sesuai dengan kriteria khusus Anda.

Untuk informasi selengkapnya tentang aturan frasa pengaktif, lihat Memodifikasi Pendeteksi InfoType untuk Menyaring Hasil Pemindaian.