Menghasilkan insight profil data dengan pemindaian

Dokumen ini menjelaskan cara menggunakan BigQuery dan Dataplex secara bersamaan untuk lebih memahami data Anda. BigQuery menggunakan Dataplex untuk menganalisis karakteristik statistik data Anda, seperti nilai rata-rata, nilai unik, dan nilai maksimum. Dataplex juga menggunakan informasi ini untuk merekomendasikan aturan untuk pemeriksaan kualitas data.

Untuk mengetahui informasi selengkapnya tentang pembuatan profil data, lihat Tentang pembuatan profil data.

Sebelum memulai

  • Untuk membuat dan mengubah pemindaian dalam project Anda: Aktifkan Dataplex API.

    Mengaktifkan Dataplex API

  • Untuk pemindaian lintas project: Buat ID layanan Dataplex dengan perintah gcloud beta services identity create. Jika ID layanan Dataplex tidak ada, perintah ini akan menampilkan ID baru. Jika ID layanan sudah ada, perintah akan menampilkan ID yang sudah ada. Perintah ini mungkin meminta Anda untuk menginstal komponen perintah beta gcloud CLI.

    gcloud beta services identity create
    --service=dataplex.googleapis.com
    

Peran yang diperlukan

Minta administrator Anda untuk memberikan peran berikut ke akun utama akun yang sesuai berdasarkan kasus penggunaan yang perlu diakses. Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses.

Peran BigQuery

  • BigQuery Data Viewer pada tabel untuk memindai tabel tersebut tanpa memublikasikan hasilnya.
  • BigQuery Data Editor pada tabel untuk membuat pemindaian pada tabel tersebut dengan publikasi.
  • Jika tabel BigQuery dan pemindaian profil data berada dalam project yang berbeda, Anda harus memberikan izin baca bigquery.tables.getData kepada akun layanan utama atau akun layanan Dataplex yang terkait (atau peran BigQuery Data Viewer) pada tabel BigQuery yang sesuai. Untuk mendapatkan identitas layanan akun layanan, lihat Sebelum memulai.
  • Jika Anda memindai tabel eksternal BigQuery dari Cloud Storage, tetapkan peran Cloud Storage (roles/storage.objectViewer) ke akun layanan Dataplex.

Peran Dataplex

  • Administrator Dataplex DataScan di level project - untuk membuat pemindaian.
  • Dataplex DataScan Editor saat pemindaian - untuk mengedit properti pemindaian (kecuali izin), menjalankan pemindaian, dan menghapus pemindaian.
  • Dataplex DataScan DataViewer saat memindai untuk melihat hasil pemindaian.

Peran ini berisi izin yang diperlukan untuk kasus penggunaan sebelumnya. Untuk melihat izin yang diperlukan, luaskan bagian Izin yang diperlukan.

Izin yang diperlukan

Izin berikut diperlukan untuk menggunakan berbagai aspek pemindaian profil data:

  • Untuk mengubah konfigurasi pemindaian data: dataplex.datascans.update - di resource pemindaian data
  • Untuk mengubah kebijakan pemindaian data: dataplex.datascans.setIamPolicy - di resource pemindaian data
  • Untuk membuat pemindaian data pada tabel BigQuery: bigquery.tables.getData - tabel yang akan dipindai
  • Untuk membuat pemindaian data dalam project: dataplex.datascans.create - pada project
  • Untuk menghapus pemindaian data: dataplex.datascans.delete - di resource pemindaian data
  • Untuk mengekspor hasil pemindaian data ke set data BigQuery: bigquery.datasets.get, bigquery.tables.create, bigquery.tables.get, bigquery.tables.update, bigquery.tables.updateData - set data tujuan
  • Untuk memublikasikan hasil pemindaian data ke tabel: bigquery.tables.update - tabel tujuan
  • Untuk menjalankan pemindaian data: dataplex.datascans.run - di resource pemindaian data
  • Untuk memindai tabel eksternal dari Cloud Storage: storage.buckets.get, storage.objects.get - bucket yang berisi tabel yang akan dipindai
  • Untuk melihat hasil pemindaian data: dataplex.datascans.getData - pada resource pemindaian data
  • Untuk melihat hasil pemindaian data: dataplex.datascans.get - pada resource pemindaian data
  • Untuk melihat hasil pemindaian data: dataplex.datascans.list - pada resource pemindaian data

Anda mungkin juga bisa mendapatkan izin ini dengan peran khusus atau peran yang telah ditetapkan lainnya.

Membuat pemindaian profil data

  1. Di konsol Google Cloud, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, klik tabel untuk pemindaian profil data.

  3. Klik tab Profil data.

  4. Klik Pemindaian profil data > Buat pemindaian baru.

  5. Opsional: Edit nilai berikut:

    • Nama tampilan: nama resource yang dapat diubah di konsol.
    • ID: ID unik untuk pemindaian. Kode ini tidak dapat diubah setelah pemindaian dibuat.
    • Deskripsi: deskripsi pemindaian.
    • Region: menentukan region tempat pemindaian data diproses.
    • Cakupan: rentang data yang tersedia untuk dipindai. Pilih Inkremental atau Seluruh data. Jika Anda memilih Inkremental, sebaiknya sertakan kolom DATE atau TIMESTAMP yang meningkat secara linear. Kolom ini dapat digunakan untuk mengidentifikasi data baru. Untuk tabel berpartisi pada kolom jenis DATE atau TIMESTAMP, sebaiknya gunakan kolom partisi sebagai kolom stempel waktu.
    • Filter: filter yang akan diterapkan ke data sebelum pemindaian berjalan. Anda dapat memilih Filter baris, Filter kolom, atau keduanya.
      • Untuk memfilter baris, pilih kotak centang Filter baris, lalu masukkan ekspresi SQL yang valid di kolom teks input. Ekspresi tersebut harus menggunakan sintaksis SQL standar BigQuery dan dapat digunakan dalam klausa WHERE.
      • Untuk memfilter kolom, centang kotak Kolom filter, lalu isi kolom Sertakan kolom, kolom Kecualikan kolom, atau keduanya.
    • Ukuran sampling: persentase data yang ingin diambil sampelnya. Untuk pemindaian data inkremental, hanya penambahan terbaru yang akan diambil sampelnya.
    • Publikasikan hasil ke BigQuery dan UI Katalog Dataplex: opsi ini memungkinkan hasil terbaru pemindaian profiling data yang tersedia di UI BigQuery, di bagian Profil data untuk tabel sumber. Jika pemindaian sedang berjalan dan disetel untuk dipublikasikan, opsi ini mungkin tidak tersedia.
    • Jadwal: Sesuai permintaan (default) atau Berulang. Jika Anda memilih Berulang, tentukan frekuensi pemindaian terjadwal dengan Harian, Mingguan, Bulanan, atau Kustom. Kustom menggunakan format waktu cron untuk menentukan jadwal. Misalnya, pemindaian yang disetel untuk dijalankan pada hari Selasa kedua setiap bulan pada pukul 01.00 akan terlihat seperti ini: 0 1 8-14 * 2.
  6. Opsional: Untuk melanjutkan panel agar menampilkan setelan opsional tambahan, klik Lanjutkan, lalu edit nilai berikut:

    • Ekspor hasil pemindaian ke tabel BigQuery: pilih set data BigQuery dan tabel untuk menyimpan hasil pemindaian profil. Jika set data ditentukan tetapi tidak ada tabel yang ditentukan, Dataplex akan membuatkan tabel untuk Anda. Tabel yang dibuat dengan cara ini mungkin menimbulkan biaya penyimpanan.
    • Label: tambahkan label ke pemindaian.
  7. Klik salah satu tombol berikut berdasarkan kebutuhan Anda:

    • Untuk menyimpan setelan pemindaian, klik Buat.
    • Untuk menyimpan dan menjalankan pemindaian, klik Jalankan.

Mengelola izin pemindaian profil data

Untuk mengubah izin akses pemindaian profil yang ada, lakukan hal berikut:

  1. Buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, pilih tabel untuk pemindaian profil data.

  3. Klik tab Profil data.

  4. Klik Pemindaian profil data > Kelola izin pemindaian. Tindakan ini akan membuka Dataplex di tab baru.

  5. Klik tab Izin.

    • Untuk memberikan akses ke akun utama, klik Berikan akses dan berikan Dataplex DataScan DataViewer kepada akun utama yang terkait.
    • Untuk menghapus akses dari akun utama, klik Hapus akses, lalu hapus Dataplex DataScan DataViewer dari akun utama yang terkait.

Mengedit pemindaian profil data yang ada

  1. Di konsol Google Cloud, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, pilih tabel untuk pemindaian profil data.

  3. Klik Pemindaian profil data > Edit konfigurasi pemindaian.

Tindakan ini akan membuka setelan pemindaian profil data, yang dapat diubah dan disimpan untuk pemindaian mendatang.

Melihat hasil pemindaian profil data

Ada beberapa cara untuk melihat hasil pemindaian profil data. Pilih opsi yang paling sesuai dengan kebutuhan Anda.

Lihat hasil yang dipublikasikan

  1. Di konsol Google Cloud, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, pilih tabel untuk pemindaian profil data.

  3. Klik tab Profil data.

Hasil terbaru yang dipublikasikan ditampilkan dalam tampilan ini.

Lihat hasil pemindaian historis

  1. Di konsol Google Cloud, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, pilih tabel untuk pemindaian profil data.

  3. Klik tab Profil data.

  4. Klik Pemindaian profil data > Lihat hasil historis.

Melihat semua pemindaian profil data pada tabel

Untuk membuka Dataplex dengan histori pemindaian untuk tabel tertentu, lakukan langkah berikut:

  1. Di konsol Google Cloud, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, pilih tabel untuk pemindaian profil data.

  3. Klik Pemindaian profil data > Lihat semua pemindaian.