Menganalisis profil data

Jika mengonfigurasi layanan penemuan data sensitif untuk mengirim semua profil data yang berhasil dibuat ke BigQuery, Anda dapat membuat kueri profil data tersebut untuk mendapatkan insight tentang data Anda. Anda juga dapat menggunakan alat visualisasi seperti Looker Studio untuk membuat laporan kustom yang disesuaikan dengan kebutuhan bisnis Anda. Atau, Anda dapat menggunakan laporan siap pakai yang disediakan Perlindungan Data Sensitif, menyesuaikannya, dan membagikannya sesuai kebutuhan.

Halaman ini menyediakan contoh kueri SQL yang dapat digunakan untuk mempelajari profil data Anda lebih lanjut. Bagian ini juga menunjukkan cara memvisualisasikan profil data di Looker Studio.

Untuk mengetahui informasi selengkapnya tentang profil data, lihat Profil data.

Sebelum memulai

Halaman ini mengasumsikan bahwa Anda telah mengonfigurasi pembuatan profil di tingkat organisasi, folder, atau project. Dalam konfigurasi Anda, pastikan untuk mengaktifkan ekspor profil data dengan mengklik tombol Save data profile copied to BigQuery.

Dalam dokumen ini, tabel yang berisi profil data yang diekspor disebut tabel output.

Pastikan Anda memiliki project ID, ID set data, dan ID tabel dari tabel output yang sudah tersedia. Anda membutuhkan mereka untuk melakukan prosedur pada halaman ini.

Tampilan latest

Saat Perlindungan Data Sensitif mengekspor profil data ke tabel output Anda, tampilan latest juga akan dibuat. Tampilan ini adalah tabel virtual yang telah difilter yang hanya menyertakan ringkasan terbaru dari profil data Anda. Tampilan latest memiliki skema yang sama dengan tabel output, sehingga Anda dapat menggunakan keduanya secara bergantian dalam kueri SQL dan laporan Looker Studio. Hasilnya dapat berbeda karena tabel output berisi snapshot yang lebih lama dari profil data.

Tampilan latest disimpan di lokasi yang sama dengan tabel output. Namanya memiliki format berikut:

OUTPUT_TABLE_latest_VERSION

Ganti kode berikut:

  • OUTPUT_TABLE: ID tabel yang berisi profil data yang diekspor.
  • VERSION: nomor versi tampilan.

Misalnya, jika nama tabel output Anda adalah table-profile, tampilan latest akan memiliki nama seperti table-profile_latest_v1.

Penayangan terbaru

Saat menggunakan tampilan latest dalam kueri SQL, gunakan nama lengkap tampilan tersebut, yang menyertakan project ID, ID set data, ID tabel, dan akhiran—misalnya, myproject.mydataset.table-profile_latest_v1.

PROJECT_ID.DATASET_ID.OUTPUT_TABLE_latest_VERSION

Pilih antara tabel output dan tampilan latest

Tampilan latest hanya menyertakan snapshot profil data terbaru, sedangkan tabel output memiliki semua snapshot profil data, termasuk snapshot yang sudah usang. Misalnya, kueri pada tabel output dapat menampilkan beberapa profil data kolom untuk kolom yang sama—satu untuk setiap kali kolom dibuat profil.

Saat memilih antara menggunakan tabel output dan tampilan latest dalam kueri SQL atau laporan Looker Studio, pertimbangkan hal berikut:

  • Tampilan latest berguna jika Anda memiliki tabel yang telah dibuat ulang profil dan Anda hanya ingin melihat profil terbaru—bukan versi yang lebih lama. Artinya, Anda ingin melihat status saat ini dari data yang dibuat profil.

  • Tabel output berguna jika Anda ingin mendapatkan tampilan historis data yang diprofilkan. Misalnya, Anda mencoba menentukan apakah organisasi Anda pernah menyimpan infoType tertentu, atau Anda ingin melihat perubahan yang terjadi di profil data tertentu.

Contoh kueri SQL

Bagian ini menyediakan contoh kueri yang dapat Anda gunakan saat menganalisis profil data. Untuk menjalankan kueri ini, lihat bagian Menjalankan kueri interaktif.

Pada contoh berikut, ganti TABLE_OR_VIEW dengan salah satu hal berikut:

  • Nama tabel output, yaitu tabel yang berisi profil data yang diekspor—misalnya, myproject.mydataset.table-profile.
  • Nama tampilan latest dari tabel output—misalnya, myproject.mydataset.table-profile_latest_v1.

Dalam kedua kasus tersebut, Anda harus menyertakan project ID dan ID set data.

Untuk informasi selengkapnya, lihat Memilih antara tabel output dan tampilan latest di halaman ini.

Untuk memecahkan masalah error yang Anda alami, lihat Pesan error.

Cantumkan semua kolom yang memiliki skor teks bebas yang tinggi dan bukti kecocokan infoType lainnya

SELECT
  column_profile.table_full_resource,
  column_profile.COLUMN,
  other_matches.info_type.name,
  column_profile.profile_last_generated
FROM
   `TABLE_OR_VIEW`,
  UNNEST(column_profile.other_matches) AS other_matches
WHERE
  column_profile.free_text_score = 1
  AND ( column_profile.column_info_type.info_type.name>""
    OR ARRAY_LENGTH(column_profile.other_matches)>0 )

Untuk mengetahui informasi tentang cara memperbaiki temuan ini, lihat Skor teks bebas yang tinggi.

Untuk mengetahui informasi selengkapnya tentang metrik Skor teks gratis dan InfoTypes lainnya, lihat Profil data kolom.

Mencantumkan semua tabel yang berisi kolom nomor kartu kredit

SELECT
  column_profile.table_full_resource,
  column_profile.profile_last_generated
FROM
  `TABLE_OR_VIEW`
WHERE
  column_profile.column_info_type.info_type.name="CREDIT_CARD_NUMBER"

CREDIT_CARD_NUMBER adalah infoType bawaan yang mewakili nomor kartu kredit.

Untuk mengetahui informasi tentang cara memperbaiki temuan ini, lihat Risiko data tinggi.

Cantumkan profil tabel yang berisi kolom nomor kartu kredit, nomor Jaminan Sosial AS, dan nama orang

SELECT
  table_full_resource,
  COUNT(*) AS count_findings
FROM (
  SELECT
    DISTINCT column_profile.table_full_resource,
    column_profile.column_info_type.info_type.name
  FROM
    `TABLE_OR_VIEW`
  WHERE
    column_profile.column_info_type.info_type.name IN ('PERSON_NAME',
      'CREDIT_CARD_NUMBER',
      'US_SOCIAL_SECURITY_NUMBER')
  ORDER BY
    column_profile.table_full_resource ) ot1
GROUP BY
  table_full_resource
  #increase this number to match the total distinct infoTypes that must be present
HAVING
  count_findings>=3

Kueri ini menggunakan infoTypes bawaan berikut:

  • CREDIT_CARD_NUMBER: mewakili nomor kartu kredit
  • PERSON_NAME: mewakili nama lengkap seseorang
  • US_SOCIAL_SECURITY_NUMBER mewakili nomor Jaminan Sosial AS

Untuk mengetahui informasi tentang cara memperbaiki temuan ini, lihat Risiko data tinggi.

Menggunakan profil data di Looker Studio

Untuk memvisualisasikan profil data di Looker Studio, Anda dapat menggunakan laporan siap pakai, atau dapat membuatnya sendiri.

Menggunakan laporan siap pakai

Perlindungan Data Sensitif memberikan laporan Looker Studio siap pakai yang menyoroti insight lengkap profil data. Dasbor Perlindungan Data Sensitif adalah laporan multi-halaman yang memberi Anda tampilan cepat terkait profil data, termasuk perincian berdasarkan risiko, menurut infoType, dan menurut lokasi. Jelajahi tab lainnya untuk melihat tampilan berdasarkan wilayah geografis dan risiko postur, atau lihat perincian metrik tertentu. Anda dapat menggunakan laporan siap pakai ini apa adanya, atau Anda dapat menyesuaikannya sesuai kebutuhan. Ini adalah versi yang direkomendasikan dari laporan siap pakai.

Untuk melihat laporan siap pakai dengan data Anda, masukkan nilai yang diperlukan di URL berikut. Kemudian, salin URL yang dihasilkan ke browser.

https://lookerstudio.google.com/c/u/0/reporting/create?c.reportId=c9826374-e016-4c96-a495-7281328375c6&ds.connector=BIG_QUERY&ds.projectId=PROJECT_ID&ds.datasetId=DATASET_ID&ds.tableId=TABLE_OR_VIEW&ds.type=TABLE&ds.useFreshSchema=false

Ganti kode berikut:

  • PROJECT_ID: project yang berisi tabel output.
  • DATASET_ID: set data yang berisi tabel output.
  • TABLE_OR_VIEW: salah satu dari yang berikut:

    • Nama tabel output, yaitu tabel yang berisi profil data yang diekspor—misalnya,myproject.mydataset.table-profile.
    • Nama tampilan latest dari tabel output—misalnya, myproject.mydataset.table-profile_latest_v1.

    Untuk mengetahui informasi selengkapnya, lihat Memilih antara tabel output dan tampilan latest di halaman ini.

Looker Studio perlu waktu beberapa menit untuk memuat laporan dengan data Anda.

Dalam contoh berikut, dasbor menunjukkan bahwa data sensitivitas rendah dan sensitivitas tinggi ada di beberapa negara di seluruh dunia.

Laporan siap pakai

Versi sebelumnya dari laporan siap pakai

Versi pertama laporan siap pakai masih tersedia di alamat berikut:

https://lookerstudio.google.com/c/u/0/reporting/create?c.reportId=907a2b73-ffe4-40b2-b9a1-c2aa0bbd69fd&ds.connector=BIG_QUERY&ds.projectId=PROJECT_ID&ds.datasetId=DATASET_ID&ds.tableId=TABLE_OR_VIEW&ds.type=TABLE&ds.useFreshSchema=false

Membuat laporan

Looker Studio memungkinkan Anda membuat laporan interaktif. Di bagian ini, Anda akan membuat laporan tabel sederhana di Looker Studio yang didasarkan pada profil data yang diekspor ke tabel output di BigQuery.

Pastikan Anda memiliki project ID, ID set data, dan ID tabel dari tabel output atau tampilan latest sudah tersedia. Anda membutuhkan mereka untuk melakukan prosedur ini.

Contoh ini menunjukkan cara membuat laporan yang berisi tabel yang menampilkan setiap infoType yang dilaporkan dalam profil data Anda dan frekuensinya yang sesuai.

Secara umum, Anda dikenai biaya penggunaan BigQuery saat mengakses BigQuery melalui Looker Studio. Untuk informasi selengkapnya, lihat Memvisualisasikan data BigQuery menggunakan Looker Studio.

Untuk membuat laporan, lakukan tindakan berikut:

  1. Buka Looker Studio dan login.
  2. Klik Laporan Kosong.
  3. Pada tab Hubungkan ke data, klik kartu BigQuery.
  4. Jika diminta, izinkan Looker Studio untuk mengakses project BigQuery Anda.
  5. Hubungkan ke data BigQuery Anda:

    1. Untuk Project, pilih project yang berisi tabel output. Anda dapat menelusuri project di tab Project terbaru, Project saya, dan Project bersama.
    2. Untuk Set data, pilih set data yang berisi tabel output.
    3. Untuk Tabel, pilih tabel output atau tampilan latest dari tabel output.

      Untuk mengetahui informasi selengkapnya, lihat Memilih antara tabel output dan tampilan latest di halaman ini.

    4. Klik Tambahkan.

    5. Pada dialog yang muncul, klik Tambahkan ke laporan.

      Laporan dibuat. Sebuah tabel akan muncul yang berisi profil data tabel dan jumlah kumpulan data yang sesuai.

  6. Untuk menambahkan tabel yang menampilkan setiap infoType yang dilaporkan dan frekuensinya yang sesuai (jumlah catatan), ikuti langkah-langkah berikut:

    1. Klik Tambahkan diagram.
    2. Pilih gaya tabel.
    3. Klik area tempat Anda ingin menempatkan diagram.

      Diagram akan muncul dalam format tabel.

    4. Ubah ukuran tabel sesuai kebutuhan.

      Selama tabel dipilih, propertinya akan muncul di panel Chart > Table.

    5. Di panel Diagram > Tabel, di tab Data, di kolom Dimensi, hapus dimensi yang ada.

    6. Klik Tambahkan dimensi.

    7. Telusuri column_profile.column_info_type.info_type.name, lalu pilih.

    Tabel yang dihasilkan terlihat mirip dengan berikut ini:

    Tabel yang menunjukkan infoType yang terdeteksi dan frekuensinya
yang sesuai

Pelajari tabel di Looker Studio lebih lanjut.

Langkah selanjutnya

Pelajari tindakan yang dapat Anda lakukan untuk remediate temuan profil data.