Menganalisis profil data

Jika Anda mengonfigurasi layanan penemuan data sensitif untuk mengirim semua profil data yang berhasil dibuat ke BigQuery, Anda dapat membuat kueri profil data tersebut untuk mendapatkan insight tentang data Anda. Anda juga dapat menggunakan alat visualisasi seperti Looker Studio untuk membuat laporan kustom yang disesuaikan dengan kebutuhan bisnis Anda. Atau, Anda dapat menggunakan laporan siap pakai yang disediakan oleh Sensitive Data Protection, menyesuaikannya, dan membagikannya sesuai kebutuhan.

Halaman ini memberikan contoh kueri SQL yang dapat Anda gunakan untuk mempelajari lebih lanjut profil data Anda. Panduan ini juga menunjukkan cara memvisualisasikan profil data di Looker Studio.

Untuk informasi selengkapnya tentang profil data, lihat Profil data.

Sebelum memulai

Halaman ini mengasumsikan bahwa Anda telah mengonfigurasi pembuatan profil di tingkat organisasi, folder, atau project. Dalam konfigurasi pemindaian penemuan, pastikan untuk mengaktifkan ekspor profil data dengan mengklik tombol Simpan salinan profil data ke BigQuery. Untuk mengetahui informasi selengkapnya tentang cara membuat konfigurasi pemindaian penemuan, lihat Membuat konfigurasi pemindaian.

Dalam dokumen ini, tabel yang berisi profil data yang diekspor disebut tabel output.

Pastikan Anda memiliki project ID, ID set data, dan ID tabel dari tabel output yang sudah tersedia. Anda memerlukannya untuk melakukan prosedur di halaman ini.

Tampilan latest

Saat mengekspor profil data ke tabel output, Sensitive Data Protection juga membuat tampilan latest. Tampilan ini adalah tabel virtual yang telah difilter sebelumnya dan hanya menyertakan snapshot terbaru dari profil data Anda. Tampilan latest memiliki skema yang sama dengan tabel output, sehingga Anda dapat menggunakan keduanya secara bergantian dalam kueri SQL dan laporan Looker Studio. Hasilnya dapat berbeda karena tabel output berisi snapshot profil data yang lebih lama.

Tampilan latest disimpan di lokasi yang sama dengan tabel output. Namanya memiliki format berikut:

OUTPUT_TABLE_latest_VERSION

Ganti kode berikut:

  • OUTPUT_TABLE: ID tabel yang berisi profil data yang diekspor.
  • VERSION: nomor versi tampilan.

Misalnya, jika nama tabel output Anda adalah table-profile, tampilan latest akan memiliki nama seperti table-profile_latest_v1.

Tampilan terbaru

Saat menggunakan tampilan latest dalam kueri SQL, gunakan nama lengkap tampilan, yang mencakup project ID, ID set data, ID tabel, dan akhiran—misalnya, myproject.mydataset.table-profile_latest_v1.

PROJECT_ID.DATASET_ID.OUTPUT_TABLE_latest_VERSION

Memilih antara tabel output dan tampilan latest

Tampilan latest hanya menyertakan snapshot profil data terbaru, sedangkan tabel output memiliki semua snapshot profil data, termasuk snapshot yang sudah tidak berlaku. Misalnya, kueri pada tabel output dapat menampilkan beberapa profil data kolom untuk kolom yang sama—satu untuk setiap kali kolom tersebut dibuat profilnya.

Saat memilih antara menggunakan tabel output dan tampilan latest dalam kueri SQL atau laporan Looker Studio, pertimbangkan hal-hal berikut:

  • Tampilan latest berguna jika Anda memiliki aset data yang telah dibuat ulang profilnya dan Anda hanya ingin melihat profil terbaru, bukan versi sebelumnya. Artinya, Anda ingin melihat status data yang diprofilkan saat ini.

  • Tabel output berguna jika Anda ingin mendapatkan tampilan historis data yang diprofilkan. Misalnya, Anda mencoba menentukan apakah organisasi Anda pernah menyimpan infoType tertentu, atau Anda ingin melihat perubahan yang telah dilakukan pada profil data tertentu.

Contoh kueri SQL

Bagian ini memberikan contoh kueri yang dapat Anda gunakan saat menganalisis profil data. Untuk menjalankan kueri ini, lihat Menjalankan kueri interaktif.

Pada contoh berikut, ganti TABLE_OR_VIEW dengan salah satu hal berikut:

  • Nama tabel output, yang merupakan tabel yang berisi profil data yang diekspor—misalnya, myproject.mydataset.table-profile.
  • Nama tampilan latest dari tabel output—misalnya, myproject.mydataset.table-profile_latest_v1.

Dalam kedua kasus tersebut, Anda harus menyertakan project ID dan ID set data.

Untuk informasi selengkapnya, lihat Memilih antara tabel output dan tampilan latest di halaman ini.

Untuk memecahkan masalah error yang Anda alami, lihat Pesan error.

Mencantumkan semua kolom yang memiliki skor teks bebas tinggi dan bukti kecocokan infoType lainnya

SELECT
  column_profile.table_full_resource,
  column_profile.COLUMN,
  other_matches.info_type.name,
  column_profile.profile_last_generated
FROM
   `TABLE_OR_VIEW`
  LEFT JOIN UNNEST(column_profile.other_matches) AS other_matches
WHERE
  column_profile.free_text_score = 1
  AND ( column_profile.column_info_type.info_type.name>""
    OR ARRAY_LENGTH(column_profile.other_matches)>0 )

Untuk mengetahui informasi tentang cara memperbaiki temuan ini, lihat Strategi yang direkomendasikan untuk mengurangi risiko data.

Untuk mengetahui informasi selengkapnya tentang metrik Skor teks bebas dan infoType Lainnya, lihat Profil data kolom.

Mencantumkan semua tabel yang berisi kolom nomor kartu kredit

SELECT
  column_profile.table_full_resource,
  column_profile.profile_last_generated
FROM
  `TABLE_OR_VIEW`
WHERE
  column_profile.column_info_type.info_type.name="CREDIT_CARD_NUMBER"

CREDIT_CARD_NUMBER adalah infoType bawaan yang mewakili nomor kartu kredit.

Untuk mengetahui informasi tentang cara memperbaiki temuan ini, lihat Strategi yang direkomendasikan untuk mengurangi risiko data.

Mencantumkan profil tabel yang berisi kolom nomor kartu kredit, nomor Jaminan Sosial AS, dan nama orang

SELECT
  table_full_resource,
  COUNT(*) AS count_findings
FROM (
  SELECT
    DISTINCT column_profile.table_full_resource,
    column_profile.column_info_type.info_type.name
  FROM
    `TABLE_OR_VIEW`
  WHERE
    column_profile.column_info_type.info_type.name IN ('PERSON_NAME',
      'CREDIT_CARD_NUMBER',
      'US_SOCIAL_SECURITY_NUMBER')
  ORDER BY
    column_profile.table_full_resource ) ot1
GROUP BY
  table_full_resource
  #increase this number to match the total distinct infoTypes that must be present
HAVING
  count_findings>=3

Kueri ini menggunakan infoType bawaan berikut:

  • CREDIT_CARD_NUMBER: mewakili nomor kartu kredit
  • PERSON_NAME: mewakili nama lengkap seseorang
  • US_SOCIAL_SECURITY_NUMBER mewakili nomor Jaminan Sosial AS

Untuk mengetahui informasi tentang cara memperbaiki temuan ini, lihat Strategi yang direkomendasikan untuk mengurangi risiko data.

Mencantumkan bucket dengan skor sensitivitas SENSITIVITY_HIGH

SELECT file_store_profile.file_store_path, file_store_profile.resource_visibility, file_store_profile.sensitivity_score
FROM `TABLE_OR_VIEW`
WHERE file_store_profile.sensitivity_score.score ='SENSITIVITY_HIGH'
;

Untuk informasi selengkapnya, lihat Profil data penyimpanan file.

Mencantumkan semua jalur bucket, cluster, dan ekstensi file yang dipindai dengan skor sensitivitas SENSITIVITY_HIGH

SELECT file_store_profile.file_store_path, summaries.file_cluster_type.cluster, STRING_AGG(scanned_file_extensions.file_extension) AS scanned_extensions, file_store_profile.profile_last_generated.timestamp
FROM `TABLE_OR_VIEW`
LEFT JOIN UNNEST(file_store_profile.file_cluster_summaries) as summaries
LEFT JOIN UNNEST(summaries.file_store_info_type_summaries) as info_types
LEFT JOIN UNNEST(summaries.file_extensions_scanned) as scanned_file_extensions
WHERE file_store_profile.data_source_type.data_source = 'google/storage/bucket'
AND summaries.sensitivity_score.score ='SENSITIVITY_HIGH'
GROUP BY 1, 2, 4
;

Untuk informasi selengkapnya, lihat Profil data penyimpanan file.

Mencantumkan semua jalur bucket, cluster, dan ekstensi file yang dipindai tempat nomor kartu kredit terdeteksi

SELECT file_store_profile.file_store_path, summaries.file_cluster_type.cluster, STRING_AGG(scanned_file_extensions.file_extension) AS scanned_extensions
FROM `TABLE_OR_VIEW`
LEFT JOIN UNNEST(file_store_profile.file_cluster_summaries) as summaries
LEFT JOIN UNNEST(summaries.file_store_info_type_summaries) as info_types
LEFT JOIN UNNEST(summaries.file_extensions_scanned) as scanned_file_extensions
WHERE file_store_profile.data_source_type.data_source = 'google/storage/bucket'
AND info_types.info_type.name='CREDIT_CARD_NUMBER'
GROUP BY 1, 2
;

CREDIT_CARD_NUMBER adalah infoType bawaan yang mewakili nomor kartu kredit.

Untuk informasi selengkapnya, lihat Profil data penyimpanan file.

Mencantumkan semua jalur bucket, cluster, dan ekstensi file yang dipindai tempat nomor kartu kredit, nama orang, atau nomor Jaminan Sosial AS terdeteksi

SELECT file_store_profile.file_store_path, summaries.file_cluster_type.cluster, STRING_AGG(scanned_file_extensions.file_extension) AS scanned_extensions
FROM `TABLE_OR_VIEW`
LEFT JOIN UNNEST(file_store_profile.file_cluster_summaries) as summaries
LEFT JOIN UNNEST(summaries.file_store_info_type_summaries) as info_types
LEFT JOIN UNNEST(summaries.file_extensions_scanned) as scanned_file_extensions
WHERE file_store_profile.data_source_type.data_source = 'google/storage/bucket'
AND info_types.info_type.name IN ('CREDIT_CARD_NUMBER', 'PERSON_NAME', 'US_SOCIAL_SECURITY_NUMBER')
GROUP BY 1, 2
;

Kueri ini menggunakan infoType bawaan berikut:

  • CREDIT_CARD_NUMBER: mewakili nomor kartu kredit
  • PERSON_NAME: mewakili nama lengkap seseorang
  • US_SOCIAL_SECURITY_NUMBER mewakili nomor Jaminan Sosial AS

Untuk informasi selengkapnya, lihat Profil data penyimpanan file.

Menggunakan profil data di Looker Studio

Untuk memvisualisasikan profil data di Looker Studio, Anda dapat menggunakan laporan siap pakai, atau membuat laporan Anda sendiri.

Menggunakan laporan siap pakai

Perlindungan Data Sensitif menyediakan laporan Looker Studio bawaan yang menyoroti insight lengkap profil data. Dasbor Perlindungan Data Sensitif adalah laporan multi-halaman yang memberikan ringkasan garis besar profil data Anda dengan cepat, termasuk pengelompokan menurut risiko, menurut infoType, dan menurut lokasi. Jelajahi tab lainnya untuk melihat tampilan menurut wilayah geografis dan risiko postur, atau lihat perincian metrik tertentu. Anda dapat menggunakan laporan siap pakai ini apa adanya, atau menyesuaikannya sesuai kebutuhan. Ini adalah versi laporan bawaan yang direkomendasikan.

Untuk melihat laporan siap pakai dengan data Anda, masukkan nilai yang diperlukan di URL berikut. Kemudian, salin URL yang dihasilkan ke browser Anda.

https://lookerstudio.google.com/c/u/0/reporting/create?c.reportId=c9826374-e016-4c96-a495-7281328375c6&ds.connector=BIG_QUERY&ds.projectId=PROJECT_ID&ds.datasetId=DATASET_ID&ds.tableId=TABLE_OR_VIEW&ds.type=TABLE&ds.useFreshSchema=false

Ganti kode berikut:

  • PROJECT_ID: project yang berisi tabel output.
  • DATASET_ID: set data yang berisi tabel output.
  • TABLE_OR_VIEW: salah satu dari hal berikut:

    • Nama tabel output, yaitu tabel yang berisi profil data yang diekspor—misalnya,myproject.mydataset.table-profile.
    • Nama tampilan latest dari tabel output—misalnya, myproject.mydataset.table-profile_latest_v1.

    Untuk informasi selengkapnya, lihat Memilih antara tabel output dan tampilan latest di halaman ini.

Mungkin perlu waktu beberapa menit hingga Looker Studio memuat laporan dengan data Anda. Jika Anda mengalami error atau laporan tidak dapat dimuat, lihat Memecahkan masalah error dengan laporan siap pakai di halaman ini.

Pada contoh berikut, dasbor menunjukkan bahwa data dengan sensitivitas rendah dan sensitivitas tinggi ada di beberapa negara di seluruh dunia.

Laporan siap pakai

Versi sebelumnya dari laporan siap pakai

Versi pertama laporan siap pakai masih tersedia di alamat berikut:

https://lookerstudio.google.com/c/u/0/reporting/create?c.reportId=907a2b73-ffe4-40b2-b9a1-c2aa0bbd69fd&ds.connector=BIG_QUERY&ds.projectId=PROJECT_ID&ds.datasetId=DATASET_ID&ds.tableId=TABLE_OR_VIEW&ds.type=TABLE&ds.useFreshSchema=false

Membuat laporan

Looker Studio memungkinkan Anda membuat laporan interaktif. Di bagian ini, Anda akan membuat laporan tabel sederhana di Looker Studio yang didasarkan pada profil data yang diekspor ke tabel output di BigQuery.

Pastikan Anda memiliki project ID, ID set data, dan ID tabel dari tabel output atau tampilan latest yang sudah tersedia. Anda memerlukannya untuk melakukan prosedur ini.

Contoh ini menunjukkan cara membuat laporan yang berisi tabel yang menampilkan setiap infoType yang dilaporkan di profil data Anda dan frekuensinya yang sesuai.

Secara umum, Anda akan dikenai biaya penggunaan BigQuery saat mengakses BigQuery melalui Looker Studio. Untuk mengetahui informasi selengkapnya, lihat artikel Memvisualisasikan data BigQuery menggunakan Looker Studio.

Untuk membuat laporan, lakukan tindakan berikut:

  1. Buka Looker Studio dan login.
  2. Klik Laporan Kosong.
  3. Di tab Hubungkan ke data, klik kartu BigQuery.
  4. Jika diminta, izinkan Looker Studio untuk mengakses project BigQuery Anda.
  5. Menghubungkan ke data BigQuery:

    1. Untuk Project, pilih project yang berisi tabel output. Anda dapat menelusuri project di tab Project terbaru, Project saya, dan Project bersama.
    2. Untuk Set data, pilih set data yang berisi tabel output.
    3. Untuk Tabel, pilih tabel output atau tampilan latest dari tabel output.

      Untuk informasi selengkapnya, lihat Memilih antara tabel output dan tampilan latest di halaman ini.

    4. Klik Tambahkan.

    5. Pada dialog yang muncul, klik Tambahkan ke laporan.

  6. Untuk menambahkan tabel yang menampilkan setiap infoType yang dilaporkan dan frekuensinya yang sesuai (jumlah data), ikuti langkah-langkah berikut:

    1. Klik Tambahkan diagram.
    2. Pilih gaya tabel.
    3. Klik area tempat Anda ingin memosisikan diagram.

      Diagram akan muncul dalam format tabel.

    4. Ubah ukuran tabel sesuai kebutuhan.

      Selama tabel dipilih, propertinya akan muncul di panel Diagram.

    5. Di panel Diagram, pada tab Penyiapan, hapus dimensi dan metrik yang telah dipilih sebelumnya.

    6. Untuk Dimensi, tambahkan column_profile.column_info_type.info_type.name atau file_store_profile.file_cluster_summaries.file_store_info_type_summaries.info_type.name.

      Contoh ini memberikan data di tingkat kolom dan cluster file. Anda juga dapat mencoba dimensi lain. Misalnya, Anda dapat menggunakan dimensi tingkat tabel dan tingkat bucket.

    7. Untuk Metrik, tambahkan Jumlah Kumpulan Data.

    Tabel yang dihasilkan akan terlihat seperti berikut:

    Tabel yang menampilkan infoType yang terdeteksi dan jumlah catatannya yang sesuai

Pelajari tabel di Looker Studio lebih lanjut.

Memecahkan masalah error pada laporan siap pakai

Jika Anda melihat error, kontrol yang tidak ada, atau diagram yang tidak ada saat memuat laporan siap pakai, pastikan laporan siap pakai menggunakan kolom terbaru:

  • Jika laporan siap pakai Anda terhubung ke tabel output, pastikan tabel ini disertakan ke konfigurasi pemindaian penemuan yang aktif. Untuk melihat setelan konfigurasi pemindaian, lihat Melihat konfigurasi pemindaian.

  • Jika laporan siap pakai Anda terhubung ke tampilan latest, pastikan tampilan ini masih ada di BigQuery. Jika ada, coba buat perubahan pada tampilan. Atau, buat salinan tampilan dan hubungkan laporan bawaan ke salinan tersebut. Untuk mengetahui informasi selengkapnya tentang tampilan latest, lihat Tampilan latest di halaman ini.

Jika Anda terus melihat error setelah mencoba langkah-langkah ini, hubungi Cloud Customer Care.

Langkah selanjutnya

Pelajari tindakan yang dapat Anda lakukan untuk memperbaiki temuan profil data.