Halaman ini mencantumkan masalah umum terkait Perlindungan Data Sensitif, beserta cara yang dapat Anda lakukan untuk menghindari atau memulihkan dari masalah berikut.
Masalah umum
Menyimpan hasil ke BigQuery
Saat pemindaian tugas atau penemuan menyimpan hasil ke BigQuery, error Already exists
akan muncul dalam log. Error tersebut tidak menunjukkan bahwa ada masalah; hasil Anda akan disimpan seperti yang diharapkan.
Pemindaian BigQuery
Bagian ini menjelaskan masalah yang mungkin Anda alami saat inspecting atau membuat profil data BigQuery.
Masalah umum pada operasi pemeriksaan dan pembuatan profil
Masalah berikut berlaku untuk operasi pemeriksaan dan pembuatan profil BigQuery.
Masalah berikut juga berlaku untuk operasi de-identifikasi di BigQuery (dalam Pratinjau).Baris dengan keamanan tingkat baris tidak dapat dipindai
Kebijakan keamanan tingkat baris dapat mencegah Perlindungan Data Sensitif memeriksa dan membuat profil tabel BigQuery yang dilindungi. Jika Anda memiliki kebijakan keamanan tingkat baris yang diterapkan pada tabel BigQuery, sebaiknya tetapkan filter TRUE dan sertakan agen layanan dalam daftar penerima hibah:
- Jika Anda membuat profil data di tingkat organisasi atau folder, sertakan agen layanan project container dalam daftar penerima hibah.
- Jika Anda membuat profil data di level project atau menjalankan tugas pemeriksaan di tabel, sertakan agen layanan project dalam daftar penerima hibah.
Baris duplikat
Saat menulis data ke tabel BigQuery, Perlindungan Data Sensitif mungkin menulis baris duplikat.
Data yang baru di-streaming
Perlindungan Data Sensitif tidak memindai data yang baru saja di-streaming (sebelumnya dikenal sebagai buffer streaming). Untuk mengetahui informasi selengkapnya, lihat Ketersediaan data streaming dalam dokumentasi BigQuery.
Masalah pemeriksaan BigQuery
Masalah berikut hanya berlaku untuk operasi pemeriksaan pada data BigQuery. Hal ini tidak memengaruhi profil data.
Temuan yang diekspor tidak memiliki nilai untuk kolom row_number
Saat Anda mengonfigurasi Perlindungan Data Sensitif untuk menyimpan temuan ke BigQuery, kolom location.content_locations.record_location.record_key.big_query_key.row_number
dalam tabel BigQuery yang dihasilkan disimpulkan pada saat tabel input dipindai. Nilainya tidak deterministik, tidak dapat dikueri, dan dapat bernilai
null untuk tugas inspeksi.
Jika Anda perlu mengidentifikasi baris tertentu yang berisi temuan, tentukan
inspectJob.storageConfig.bigQueryOptions.identifyingFields
pada waktu
pembuatan tugas.
Kolom pengidentifikasi dapat ditemukan di tabel BigQuery yang dihasilkan, di kolom location.content_locations.record_location.record_key.id_values
.
Membatasi pemindaian pada konten BigQuery baru
Masalah ini juga berlaku untuk operasi de-identifikasi di BigQuery (dalam Pratinjau).Jika Anda membatasi pemindaian hanya pada konten baru, dan menggunakan BigQuery Storage Write API untuk mengisi tabel input, Perlindungan Data Sensitif mungkin tidak akan memindai beberapa baris.
Untuk mengurangi masalah ini, dalam tugas pemeriksaan Anda, pastikan timestampField
dari objek TimespanConfig
adalah stempel waktu commit yang dibuat secara otomatis oleh BigQuery.
Namun, masih tidak ada jaminan bahwa tidak ada baris yang dilewati, karena Perlindungan Data Sensitif tidak membaca dari data yang baru-baru ini di-streaming.
Jika ingin membuat stempel waktu commit secara otomatis untuk suatu kolom, dan menggunakan streaming API lama untuk mengisi tabel input, lakukan hal berikut:
Dalam skema tabel input, pastikan kolom stempel waktu berjenis
TIMESTAMP
.Contoh skema
Contoh berikut menentukan kolom
commit_time_stamp
dan menetapkan jenisnya keTIMESTAMP
:... { "name": "commit_time_stamp", "type": "TIMESTAMP" } ...
Di kolom
rows[].json
pada metodetabledata.insertAll
, pastikan nilai dalam kolom stempel waktu ditetapkan keAUTO
.Contoh JSON
Contoh berikut menetapkan nilai kolom
commit_time_stamp
keAUTO
:{ ... "commit_time_stamp": "AUTO", ... }
Membatasi pemindaian dengan menetapkan persentase atau baris maksimum
Jika Anda menetapkan batas pengambilan sampel berdasarkan persentase dari jumlah total baris tabel (rowsLimitPercent
), Perlindungan Data Sensitif dapat memeriksa lebih banyak baris dari yang diharapkan. Jika Anda perlu
membatasi jumlah baris yang akan dipindai, sebaiknya tetapkan
jumlah baris maksimum
(rowsLimit
).
Sebagai gantinya.
Masalah pembuatan profil BigQuery
Masalah berikut hanya berlaku untuk operasi pembuatan profil pada data BigQuery. Untuk mengetahui informasi selengkapnya, lihat Profil data untuk data BigQuery.
Organisasi atau project dengan lebih dari 500 juta tabel
Perlindungan Data Sensitif menampilkan error jika Anda mencoba membuat profil organisasi atau project yang memiliki lebih dari 500 juta tabel. Jika mengalami error ini, Anda dapat mengirimkan masukan melalui email ke cloud-dlp-feedback@google.com.
Jika jumlah tabel organisasi Anda lebih dari 500 juta tabel, dan Anda memiliki project dengan jumlah tabel lebih rendah, coba lakukan pemindaian level project.
Untuk mengetahui informasi tentang batas tabel dan kolom, lihat Batas pembuatan profil data.
Template inspeksi
Template pemeriksaan harus berada di region yang sama
dengan data yang akan dibuat profilnya. Jika Anda memiliki data di beberapa region, gunakan beberapa template inspeksi—satu template untuk setiap region tempat Anda memiliki data.
Anda juga dapat menggunakan template inspeksi yang disimpan di region global
.
Jika Anda menyertakan template di wilayah global
, Perlindungan Data Sensitif akan menggunakannya untuk data apa pun yang tidak memiliki template spesifik per wilayah. Untuk mengetahui informasi selengkapnya,
lihat Pertimbangan residensi data.
infoTypes yang Disimpan
infoType yang disimpan (juga dikenal sebagai detektor kamus kustom tersimpan) yang dirujuk dalam template pemeriksaan Anda harus disimpan dalam salah satu hal berikut:
- Region
global
. - Region yang sama dengan template inspeksi.
Jika tidak, operasi pembuatan profil akan gagal dengan error, Resource not found
.
Kontrol Layanan VPC
Penggunaan fitur ini dengan zona Kontrol Layanan VPC tidak didukung secara resmi. Jika Anda mencoba memindai data di dalam zona Kontrol Layanan VPC, beri tahu kami masalah yang Anda alami dengan mengirimkan email ke cloud-dlp-feedback@google.com.
Pemindaian Cloud Storage
Bagian ini menjelaskan masalah yang mungkin Anda alami saat inspecting atau melakukan de-identifikasi data.
Pemeriksaan file XLSX dengan pendeteksi kamus kustom berukuran besar
Saat Anda menggunakan detektor kamus kustom berukuran besar (juga dikenal sebagai detektor kamus kustom yang disimpan) untuk memeriksa file .xlsx
Microsoft Excel, tugas pemeriksaan dapat berjalan lambat, macet, dan menimbulkan operasi Cloud Storage Class B dalam jumlah besar.
Hal ini karena Perlindungan Data Sensitif mungkin membaca daftar istilah sumber dari
kamus kustom besar satu kali untuk setiap sel dalam file .xlsx
. Volume
operasi baca dapat membuat tugas pemeriksaan Perlindungan Data Sensitif menunjukkan sedikit
progres dan tampak terhenti.
Untuk mengetahui informasi selengkapnya tentang biaya penagihan Cloud Storage yang relevan, lihat biaya untuk operasi Kelas B di bagian Biaya operasi.
File terstruktur sedang dipindai dalam mode biner
Dalam kasus tertentu, file yang biasanya dipindai dalam mode penguraian terstruktur mungkin dipindai dalam mode biner, yang tidak mencakup peningkatan mode penguraian terstruktur. Untuk informasi selengkapnya, lihat Memindai file terstruktur dalam mode penguraian terstruktur.
Penguraian dokumen cerdas
Bagian ini berisi masalah umum terkait penguraian dokumen.
Objek DocumentLocation
tidak diisi
Kolom location.content_locations.document_location.file_offset
tidak
diisi untuk mode pemindaian Penguraian Dokumen Cerdas.
Deteksi
Kata kamus yang berisi karakter dalam Sistem Multibahasa Tambahan standar Unicode dapat menghasilkan temuan yang tidak terduga. Contoh karakter tersebut adalah bahasa China, Jepang, Korea, dan emoji.