Memantau kualitas data dengan pemindaian
Dokumen ini menjelaskan cara menggunakan BigQuery dan Dataplex secara bersamaan untuk memastikan bahwa data memenuhi ekspektasi kualitas Anda. BigQuery menggunakan Dataplex untuk menentukan pemeriksaan data berkelanjutan, memantau hasil, dan memecahkan masalah terkait kualitas data.
Untuk mengetahui informasi selengkapnya tentang kualitas data otomatis, lihat Tentang kualitas data otomatis.
Sebelum memulai
Untuk membuat dan mengubah pemindaian dalam project Anda: Aktifkan Dataplex API.
Untuk pemindaian lintas project: Buat ID layanan Dataplex dengan perintah
gcloud beta services identity create
. Jika ID layanan Dataplex tidak ada, perintah ini akan menampilkan ID baru. Jika ID layanan sudah ada, perintah akan menampilkan ID yang sudah ada. Perintah ini mungkin meminta Anda untuk menginstal komponen perintah beta gcloud CLI.gcloud beta services identity create --service=dataplex.googleapis.com
Peran yang diperlukan
Minta administrator Anda untuk memberikan peran berikut ke akun utama akun yang sesuai berdasarkan kasus penggunaan yang perlu diakses. Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses.
Peran BigQuery
- BigQuery Data Viewer pada tabel untuk memindai tabel tersebut tanpa memublikasikan hasilnya.
- BigQuery Data Editor pada tabel untuk membuat pemindaian pada tabel tersebut dengan publikasi.
- Jika tabel BigQuery dan pemindaian kualitas data berada di project yang berbeda, Anda harus memberikan izin baca ke akun layanan Dataplex
bigquery.tables.getData
(atau peranPenampil Data BigQuery) pada tabel BigQuery yang sesuai. Untuk mendapatkan identitas layanan akun layanan, lihat Sebelum memulai. - Jika Anda memindai tabel eksternal BigQuery dari
Cloud Storage, tetapkan peran Cloud Storage
(
roles/storage.objectViewer
) ke akun layanan Dataplex.
Peran Dataplex
- Administrator Dataplex DataScan di level project - untuk membuat pemindaian.
- Dataplex DataScan Editor saat pemindaian - untuk mengedit properti pemindaian (kecuali izin), menjalankan pemindaian, dan menghapus pemindaian.
- Dataplex DataScan DataViewer saat memindai untuk melihat hasil pemindaian.
Peran ini berisi izin yang diperlukan untuk kasus penggunaan sebelumnya. Untuk melihat izin yang diperlukan, luaskan bagian Izin yang diperlukan.
Izin yang diperlukan
Izin berikut diperlukan untuk menggunakan berbagai aspek pemindaian kualitas data:
- Untuk mengubah konfigurasi pemindaian data:
dataplex.datascans.update
- di resource pemindaian data - Untuk mengubah kebijakan pemindaian data:
dataplex.datascans.setIamPolicy
- di resource pemindaian data - Untuk membuat pemindaian data pada tabel BigQuery:
bigquery.tables.getData
- tabel yang akan dipindai - Untuk membuat pemindaian data dalam project:
dataplex.datascans.create
- pada project - Untuk menghapus pemindaian data:
dataplex.datascans.delete
- di resource pemindaian data - Untuk mengekspor hasil pemindaian data ke set data BigQuery:
bigquery.datasets.get
,bigquery.tables.create
,bigquery.tables.get
,bigquery.tables.update
,bigquery.tables.updateData
- set data tujuan - Untuk memublikasikan hasil pemindaian data ke tabel:
bigquery.tables.update
- tabel tujuan - Untuk menjalankan pemindaian data:
dataplex.datascans.run
- di resource pemindaian data - Untuk memindai tabel eksternal dari Cloud Storage:
storage.buckets.get
,storage.objects.get
- bucket yang berisi tabel yang akan dipindai - Untuk melihat hasil pemindaian data:
dataplex.datascans.getData
- pada resource pemindaian data - Untuk melihat hasil pemindaian data:
dataplex.datascans.get
- pada resource pemindaian data - Untuk melihat hasil pemindaian data:
dataplex.datascans.list
- pada resource pemindaian data
Anda mungkin juga bisa mendapatkan izin ini dengan peran khusus atau peran yang telah ditetapkan lainnya.
Membuat pemindaian kualitas data
Di konsol Google Cloud, buka halaman BigQuery.
Di panel Explorer, klik tabel untuk pemindaian kualitas data.
Klik tab Kualitas data.
Klik Pemindaian kualitas data > Buat pemindaian baru.
Opsional: Edit nilai berikut:
- Nama tampilan: nama resource yang dapat diubah di konsol.
- ID: ID unik untuk pemindaian. Kode ini tidak dapat diubah setelah pemindaian dibuat.
- Deskripsi: deskripsi pemindaian.
- Region: menentukan region tempat pemindaian data diproses.
- Cakupan: rentang data yang tersedia untuk dipindai. Pilih
Inkremental atau Seluruh data.
Jika Anda memilih Inkremental, sebaiknya sertakan
kolom
DATE
atauTIMESTAMP
yang meningkat secara linear. Kolom ini dapat digunakan untuk mengidentifikasi data baru. Untuk tabel berpartisi pada kolom jenisDATE
atauTIMESTAMP
, sebaiknya gunakan kolom partisi sebagai kolom stempel waktu. - Filter: filter untuk diterapkan ke data sebelum pemindaian berjalan. Untuk memfilter baris, pilih kotak centang Filter rows, lalu masukkan ekspresi SQL yang valid di kolom teks input. Ekspresi ini harus menggunakan
sintaksis SQL standar BigQuery dan dapat digunakan dalam
klausa
WHERE
. - Ukuran sampling: persentase data yang ingin diambil sampelnya. Untuk pemindaian data inkremental, hanya penambahan terbaru yang akan diambil sampelnya.
- Publikasikan hasil ke BigQuery dan UI Katalog Dataplex: opsi ini memungkinkan hasil terbaru dari pemindaian profiling data yang tersedia di UI BigQuery, di bagian Kualitas data untuk tabel sumber. Jika pemindaian sedang berjalan dan disetel untuk dipublikasikan, opsi ini mungkin tidak tersedia.
- Jadwal: Sesuai permintaan (default) atau
Berulang. Jika Anda memilih Berulang, tentukan frekuensi
pemindaian terjadwal dengan Harian, Mingguan, Bulanan, atau Kustom.
Kustom menggunakan
format waktu cron untuk menentukan jadwal. Misalnya, pemindaian yang disetel untuk dijalankan pada
hari Selasa kedua setiap bulan pada pukul 01.00 akan terlihat seperti ini:
0 1 8-14 * 2
.
Untuk melanjutkan panel guna menampilkan setelan aturan kualitas data, klik Lanjutkan.
Klik Tambah aturan, lalu tambahkan satu atau beberapa aturan berikut sesuai kebutuhan. Aturan juga dapat dihapus dengan
Hapus.- Rekomendasi berbasis profil
- Jenis aturan bawaan
- Aturan pemeriksaan baris SQL
- Aturan pemeriksaan agregat SQL
Opsional: Untuk melanjutkan panel agar menampilkan setelan opsional tambahan, klik Lanjutkan, lalu edit nilai berikut:
- Ekspor hasil pemindaian ke tabel BigQuery: pilih set data BigQuery dan tabel untuk menyimpan hasil pemindaian kualitas. Jika set data ditentukan tetapi tidak ada tabel yang ditentukan, Dataplex akan membuatkan tabel untuk Anda. Tabel yang dibuat dengan cara ini mungkin menimbulkan biaya penyimpanan.
- Label: tambahkan label ke pemindaian.
Klik salah satu tombol berikut berdasarkan kebutuhan Anda:
- Untuk menyimpan setelan pemindaian, klik Buat.
- Untuk menyimpan dan menjalankan pemindaian, klik Jalankan.
Mengelola izin pemindaian kualitas data
Untuk mengubah izin akses pemindaian kualitas yang ada, lakukan hal berikut:
Buka halaman BigQuery.
Di panel Explorer, pilih tabel untuk pemindaian kualitas data.
Klik tab Kualitas data.
Klik Pemindaian kualitas data > Kelola izin pemindaian. Tindakan ini akan membuka Dataplex di tab baru.
Klik tab Izin.
- Untuk memberikan akses ke akun utama, klik Berikan akses dan berikan Dataplex DataScan DataViewer kepada akun utama yang terkait.
- Untuk menghapus akses dari akun utama, klik Hapus akses, lalu hapus Dataplex DataScan DataViewer dari akun utama yang terkait.
Mengedit pemindaian kualitas data yang ada
Di konsol Google Cloud, buka halaman BigQuery.
Di panel Explorer, pilih tabel untuk pemindaian kualitas data.
Klik Pemindaian kualitas data > Edit konfigurasi pemindaian.
Tindakan ini akan membuka setelan pemindaian kualitas data, yang dapat diubah dan disimpan untuk pemindaian mendatang.
Lihat hasil pemindaian kualitas data
Ada beberapa cara untuk melihat hasil pemindaian kualitas data. Pilih opsi yang paling sesuai dengan kebutuhan Anda.
Lihat hasil yang dipublikasikan
Di konsol Google Cloud, buka halaman BigQuery.
Di panel Explorer, pilih tabel untuk pemindaian kualitas data.
Klik tab Kualitas data.
Hasil terbaru yang dipublikasikan ditampilkan dalam tampilan ini.
Lihat hasil pemindaian historis
Di konsol Google Cloud, buka halaman BigQuery.
Di panel Explorer, pilih tabel untuk pemindaian kualitas data.
Klik tab Kualitas data.
Klik Pemindaian kualitas data > Lihat hasil historis.
Melihat semua pemindaian kualitas data pada tabel
Untuk membuka Dataplex dengan histori pemindaian untuk tabel tertentu, lakukan langkah berikut:
Di konsol Google Cloud, buka halaman BigQuery.
Di panel Explorer, pilih tabel untuk pemindaian kualitas data.
Klik Pemindaian kualitas data > Lihat semua pemindaian.