Masalah umum

Halaman ini berisi daftar masalah umum pada Perlindungan Data Sensitif, beserta cara menghindari atau memulihkan dari masalah berikut.

Masalah umum

Menyimpan hasil ke BigQuery

Saat tugas atau pemindaian penemuan menyimpan hasil ke BigQuery, error Already exists akan muncul di log. Error ini tidak menunjukkan bahwa ada masalah; hasil Anda akan disimpan seperti yang diharapkan.

Pemindaian BigQuery

Bagian ini menjelaskan masalah yang mungkin Anda alami saat memeriksa atau membuat profil data BigQuery.

Masalah umum pada operasi inspeksi dan pembuatan profil

Masalah berikut berlaku untuk operasi pembuatan profil dan pemeriksaan BigQuery.

Baris dengan keamanan tingkat baris tidak dapat dipindai

Kebijakan keamanan tingkat baris dapat mencegah Perlindungan Data Sensitif memeriksa dan membuat profil tabel BigQuery yang dilindungi. Jika Anda memiliki kebijakan keamanan tingkat baris yang diterapkan ke tabel BigQuery, sebaiknya tetapkan filter BENAR dan sertakan agen layanan dalam daftar penerima:

Baris duplikat

Saat menulis data ke tabel BigQuery, Perlindungan Data Sensitif dapat menulis baris duplikat.

Data yang baru-baru ini di-streaming

Sensitive Data Protection tidak memindai data yang baru-baru ini di-streaming (sebelumnya dikenal sebagai buffer streaming). Untuk informasi selengkapnya, lihat Ketersediaan data streaming dalam dokumentasi BigQuery.

Masalah inspeksi BigQuery

Masalah berikut hanya berlaku untuk operasi inspeksi pada data BigQuery. Perubahan ini tidak memengaruhi profil data.

Temuan yang diekspor tidak memiliki nilai untuk kolom row_number

Saat Anda mengonfigurasi Perlindungan Data Sensitif untuk menyimpan temuan ke BigQuery, kolom location.content_locations.record_location.record_key.big_query_key.row_number di tabel BigQuery yang dihasilkan akan disimpulkan pada saat tabel input dipindai. Nilainya nondeterministik, tidak dapat dikueri, dan dapat null untuk tugas inspeksi.

Jika Anda perlu mengidentifikasi baris tertentu tempat temuan berada, tentukan inspectJob.storageConfig.bigQueryOptions.identifyingFields pada waktu pembuatan tugas.

Kolom identifikasi dapat ditemukan di tabel BigQuery yang dihasilkan, di kolom location.content_locations.record_location.record_key.id_values.

Membatasi pemindaian ke konten BigQuery baru

Jika Anda membatasi pemindaian hanya ke konten baru, dan menggunakan BigQuery Storage Write API untuk mengisi tabel input, Perlindungan Data Sensitif mungkin akan melewati pemindaian beberapa baris.

Untuk mengurangi masalah ini, di tugas inspeksi, pastikan timestampField objek TimespanConfig adalah stempel waktu commit yang dibuat otomatis oleh BigQuery. Namun, masih belum ada jaminan bahwa tidak ada baris yang dilewati, karena Perlindungan Data Sensitif tidak membaca dari data yang baru di-streaming.

Jika Anda ingin membuat stempel waktu commit secara otomatis untuk kolom, dan Anda menggunakan API streaming lama untuk mengisi tabel input, lakukan hal berikut:

  1. Dalam skema tabel input, pastikan kolom stempel waktu berjenis TIMESTAMP.

    Contoh skema

    Contoh berikut menentukan kolom commit_time_stamp dan menetapkan jenisnya ke TIMESTAMP:

    ...
    {
     "name": "commit_time_stamp",
     "type": "TIMESTAMP"
    }
    ...
    
  2. Di kolom rows[].json metode tabledata.insertAll, pastikan nilai di kolom stempel waktu ditetapkan ke AUTO.

    Contoh JSON

    Contoh berikut menetapkan nilai kolom commit_time_stamp ke AUTO:

    {
      ...
      "commit_time_stamp": "AUTO",
      ...
    }
    

Membatasi pemindaian dengan menetapkan persentase atau baris maksimum

Jika Anda menetapkan batas pengambilan sampel berdasarkan persentase dari jumlah total baris tabel (rowsLimitPercent), Perlindungan Data Sensitif dapat memeriksa lebih banyak baris daripada yang diharapkan. Jika Anda perlu menetapkan batas keras pada jumlah baris yang akan dipindai, sebaiknya tetapkan jumlah maksimum baris (rowsLimit) sebagai gantinya.

Masalah pembuatan profil BigQuery

Masalah berikut hanya berlaku untuk operasi pembuatan profil pada data BigQuery. Untuk mengetahui informasi selengkapnya, lihat Profil data untuk data BigQuery.

Organisasi atau project dengan lebih dari 500 juta tabel

Perlindungan Data Sensitif akan menampilkan error jika Anda mencoba membuat profil organisasi atau project yang memiliki lebih dari 500 juta tabel. Jika Anda mengalami error ini, ikuti petunjuk dalam pesan error.

Jika jumlah tabel organisasi Anda memiliki lebih dari 500 juta tabel, dan Anda memiliki project dengan jumlah tabel yang lebih rendah, coba lakukan pemindaian tingkat project.

Untuk mengetahui informasi tentang batas tabel dan kolom, lihat Batas pembuatan profil data.

Template inspeksi

Template inspeksi harus berada di region yang sama dengan data yang akan dibuat profilnya. Jika Anda memiliki data di beberapa region, gunakan beberapa template pemeriksaan—satu untuk setiap region tempat Anda memiliki data. Anda juga dapat menggunakan template inspeksi yang disimpan di region global. Jika Anda menyertakan template di region global, Perlindungan Data Sensitif akan menggunakannya untuk data apa pun yang tidak memiliki template khusus region. Untuk mengetahui informasi selengkapnya, lihat Pertimbangan residensi data.

infoTypes yang Disimpan

infoType tersimpan (juga dikenal sebagai detektor kamus kustom tersimpan) yang direferensikan dalam template inspeksi Anda harus disimpan di salah satu dari hal berikut:

  • Region global.
  • Region yang sama dengan template inspeksi.

Jika tidak, operasi pembuatan profil akan gagal dengan error, Resource not found.

Visibilitas resource

Dalam profil data tabel, klasifikasi visibilitas resource yang diberikan ke tabel BigQuery bergantung pada visibilitas set data yang berisi tabel, bukan visibilitas tabel. Oleh karena itu, jika izin IAM tabel berbeda dengan izin IAM set data, visibilitas resource tabel yang ditunjukkan dalam profil data dapat salah. Masalah ini memengaruhi penemuan untuk BigQuery dan penemuan untuk Vertex AI.

Di konsol Google Cloud, visibilitas resource ditunjukkan di kolom Publik profil data tabel. Di Cloud Data Loss Prevention API, visibilitas resource ditunjukkan di kolom resourceVisibility dari TableDataProfile.

Pemindaian Cloud Storage

Bagian ini menjelaskan masalah yang mungkin Anda alami saat memeriksa atau menghapus identifikasi data.

Pemeriksaan file XLSX dengan pendeteksi kamus kustom yang besar

Saat Anda menggunakan pendeteksi kamus kustom besar (juga dikenal sebagai pendeteksi kamus kustom tersimpan) untuk memeriksa file .xlsx Microsoft Excel, tugas inspeksi dapat berjalan lambat, tampak macet, dan menimbulkan banyak operasi Cloud Storage Class B. Hal ini karena Sensitive Data Protection mungkin membaca daftar istilah sumber dari kamus kustom besar sekali untuk setiap sel dalam file .xlsx. Volume operasi baca dapat membuat tugas pemeriksaan Perlindungan Data Sensitif menunjukkan sedikit progres dan tampak macet.

Untuk mengetahui informasi selengkapnya tentang tagihan penagihan Cloud Storage yang relevan, lihat tagihan untuk operasi Class B di Tagihan operasi.

File terstruktur yang dipindai dalam mode biner

Dalam kasus tertentu, file yang biasanya dipindai dalam mode penguraian terstruktur mungkin dipindai dalam mode biner, yang tidak menyertakan peningkatan mode penguraian terstruktur. Untuk informasi selengkapnya, lihat Memindai file terstruktur dalam mode penguraian terstruktur.

Melakukan de-identifikasi file yang dipisahkan koma

Saat Anda menghapus identitas file yang dipisahkan koma (misalnya, file CSV) dengan tugas inspeksi, output mungkin memiliki sel kosong tambahan di beberapa baris. Solusi untuk menghindari sel tambahan ini adalah dengan menghapus identifikasi data menggunakan metode content.deidentify.

Penemuan untuk Cloud SQL

Temuan duplikat Security Command Center

Pemprofilan data Cloud SQL mendukung publikasi temuan ke Security Command Center.

Sebelum 25 April 2024, bug menyebabkan Perlindungan Data Sensitif terkadang menghasilkan temuan duplikat untuk instance Cloud SQL di Security Command Center. Temuan ini dibuat dengan ID temuan unik, tetapi berkaitan dengan instance Cloud SQL yang sama. Masalah telah teratasi, tetapi temuan duplikat masih ada. Anda dapat menonaktifkan duplikat untuk menyembunyikannya di halaman Temuan Security Command Center.

Penemuan untuk Amazon S3

Temuan untuk Amazon S3 yang dikirim Sensitive Data Protection ke Security Command Center mungkin tidak memiliki informasi tentang ID akun atau nama tampilan AWS resource yang terpengaruh. Hal ini biasanya terjadi dalam kasus berikut:

  • Konektor AWS hanya berlaku selama sekitar 24 jam pada saat temuan dikirim ke Security Command Center.
  • Akun AWS baru disertakan dalam konektor AWS selama sekitar 24 jam pada saat temuan dikirim ke Security Command Center.

Untuk mengatasi masalah ini, setelah sekitar 24 jam, buat ulang profil data dengan menghapusnya atau dengan menetapkan jadwal pembuatan profil. Detail temuan lengkap dikirim ke Security Command Center.

Penguraian dokumen cerdas

Bagian ini berisi masalah umum terkait penguraian dokumen.

Objek DocumentLocation tidak diisi

Kolom location.content_locations.document_location.file_offset tidak diisi untuk mode pemindaian Intelligent Document Parsing.

Deteksi

Kata kamus yang berisi karakter dalam Supplementary Multilingual Plane dari standar Unicode dapat menghasilkan temuan yang tidak terduga. Contoh karakter tersebut adalah emoji, simbol ilmiah, dan skrip historis.