Membuat dan menggunakan pemindaian profil data

Halaman ini menunjukkan cara membuat pemindaian profil data menggunakan Konsol Google Cloud, Google Cloud CLI, atau REST API.

Untuk mengetahui informasi selengkapnya tentang pemindaian profil data Dataplex, lihat Tentang pembuatan profil data.

Sebelum memulai

Di Konsol Google Cloud, aktifkan Dataplex API.

Mengaktifkan API

Izin

Untuk membuat profil tabel BigQuery, Anda memerlukan izin berikut:

  • Untuk menjalankan pemindaian profil data di tabel BigQuery, Anda memerlukan izin untuk membaca tabel BigQuery dan izin untuk membuat tugas BigQuery dalam project yang digunakan untuk memindai tabel.

  • Jika tabel BigQuery dan pemindaian profil data berada di project yang berbeda, Anda harus memberikan izin baca akun layanan Dataplex pada tabel BigQuery yang sesuai.

  • Jika data BigQuery diatur di danau Dataplex, Anda memerlukan peran Dataplex roles/dataplex.metadataReader dan roles/dataplex.viewer untuk membuat pemindaian profil data. Peran ini memberikan izin berikut:

    • dataplex.lakes.list
    • dataplex.lakes.get
    • dataplex.zones.list
    • dataplex.zones.get
    • dataplex.entities.list
    • dataplex.entities.get
    • dataplex.operations.get
  • Jika Anda memindai tabel eksternal BigQuery dari Cloud Storage, tetapkan peran Cloud Storage Object Viewer (roles/storage.objectViewer) atau izin berikut ke akun layanan Dataplex untuk bucket:

    • storage.buckets.get
    • storage.objects.get
  • Jika ingin memublikasikan hasil pemindaian profil data di halaman BigQuery dan Katalog Data di Konsol Google Cloud untuk tabel sumber, Anda harus diberi peran IAM BigQuery Data Editor (roles/bigquery.dataEditor) atau izin bigquery.tables.update pada tabel.

  • Untuk mengekspor hasil pemindaian ke tabel BigQuery, akun layanan Dataplex Anda memerlukan peran BigQuery Data Editor (roles/bigquery.dataEditor). Tindakan ini akan memberikan izin berikut:

    • bigquery.datasets.get
    • bigquery.tables.create
    • bigquery.tables.get
    • bigquery.tables.getData
    • bigquery.tables.update
    • bigquery.tables.updateData
  • Jika Anda perlu mengakses kolom yang dilindungi oleh kebijakan akses tingkat kolom BigQuery, tetapkan izin akun layanan Dataplex untuk kolom tersebut. Pengguna yang membuat atau memperbarui pemindaian data juga memerlukan izin untuk kolom tersebut.

  • Jika tabel memiliki kebijakan akses tingkat baris BigQuery yang diaktifkan, Anda hanya dapat memindai baris yang terlihat oleh akun layanan Dataplex. Perhatikan bahwa hak istimewa akses setiap pengguna tidak dievaluasi untuk kebijakan tingkat baris.

Peran dan izin pemindaian data

Untuk menggunakan pembuatan profil data, administrator project dapat menetapkan peran yang telah ditentukan dengan izin yang sudah diberikan, atau memberikan izin individual. Perannya adalah sebagai berikut:

  • roles/dataplex.dataScanAdmin: Akses penuh ke resource DataScan.
  • roles/dataplex.dataScanEditor: Akses tulis ke resource DataScan.
  • roles/dataplex.dataScanViewer: Akses baca ke resource DataScan, tidak termasuk hasil.
  • roles/dataplex.dataScanDataViewer: Akses baca ke resource DataScan, termasuk hasilnya.

Tabel berikut mencantumkan izin pemindaian data:

Nama izin Memberikan izin untuk melakukan hal berikut:
dataplex.datascans.create Membuat DataScan
dataplex.datascans.delete Menghapus DataScan
dataplex.datascans.get Lihat detail DataScan yang tidak termasuk hasil
dataplex.datascans.getData Lihat detail DataScan termasuk hasilnya
dataplex.datascans.list Daftar DataScan
dataplex.datascans.run Menjalankan DataScan
dataplex.datascans.update Memperbarui deskripsi DataScan
dataplex.datascans.getIamPolicy Melihat izin IAM saat ini pada pemindaian
dataplex.datascans.setIamPolicy Menetapkan izin IAM pada pemindaian

Membuat pemindaian profil data

Konsol

  1. Di konsol Google Cloud, buka halaman Profil.

    Buka Profil Dataplex

  2. Klik Buat pemindaian profil data.

  3. Masukkan Nama tampilan.

  4. Untuk mengubah ID pemindaian yang dibuat secara otomatis, berikan ID pemindaian Anda sendiri. Lihat Konvensi penamaan resource.

  5. Opsional: Masukkan Deskripsi..

  6. Di kolom Table, klik Browse.

  7. Pilih tabel, lalu klik Pilih.

  8. Di kolom Cakupan, pilih Inkremental atau Seluruh data.

    • Jika Anda memilih Data inkremental, di kolom Timestamp, pilih kolom jenis DATE atau TIMESTAMP dari tabel BigQuery yang meningkat secara monoton dan dapat digunakan untuk mengidentifikasi data baru. Untuk tabel yang dipartisi dalam kolom jenis DATE atau TIMESTAMP, sebaiknya gunakan kolom partisi sebagai kolom stempel waktu.
  9. Untuk menerapkan sampling ke pemindaian profil data, di daftar Sampling size, pilih persentase sampling.

    • Pilih nilai persentase yang berkisar antara 0,0% dan 100,0% dengan maksimal 3 digit desimal.
    • Untuk {i>dataset<i} yang lebih besar, pilih persentase pengambilan sampel yang lebih rendah. Misalnya, untuk tabel ~1 PB, jika Anda memasukkan nilai antara 0,1% dan 1,0%, Dataplex mengambil sampel antara 1–10 TB data.
    • Anda memerlukan setidaknya 100 kumpulan data dalam sampel data untuk menampilkan hasil.
    • Untuk pemindaian data inkremental, Dataplex menerapkan pengambilan sampel ke kenaikan terbaru.
  10. Untuk memfilter menurut baris, klik Filter, lalu pilih Filter baris.

  11. Opsional: Klik Filter. Centang kotak Filter kolom.

    a. Di kolom Sertakan kolom, klik Jelajahi.

    • Tentukan kolom yang akan disertakan dalam pemindaian profil. Pilih kolom pilihan Anda dengan mencentang kotak dan mengklik Select.

    b. Di kolom Kecualikan kolom, klik Cari.

    • Tentukan kolom yang akan dikecualikan dari pemindaian profil. Pilih kolom pilihan Anda dengan mencentang kotak dan mengklik Select.
  12. Opsional: Publikasikan hasil pemindaian profil data di halaman BigQuery dan Data Catalog di Google Cloud Console untuk tabel sumber. Klik kotak centang Publish results to the BigQuery and Dataplex Catalog UI.

    Anda dapat melihat hasil pemindaian terbaru di tab Profil Data pada halaman BigQuery dan Data Catalog untuk tabel sumber. Agar pengguna dapat mengakses hasil pemindaian yang dipublikasikan, lihat Membagikan hasil yang dipublikasikan.

    Opsi publikasi mungkin tidak tersedia dalam kasus berikut:

    • Anda tidak memiliki izin yang diperlukan pada tabel.
    • Pemindaian kualitas data lain disetel untuk memublikasikan hasil.

    Untuk mengetahui informasi selengkapnya tentang izin yang diperlukan untuk melihat hasil yang dipublikasikan, lihat Izin.

  13. Opsional: Ekspor hasil pemindaian ke tabel standar BigQuery. Klik Browse untuk memilih set data BigQuery yang ada guna menyimpan hasil pemindaian profil data.

    Jika tabel yang ditentukan tidak ada, Dataplex akan membuatnya untuk Anda. Jika Anda menggunakan tabel yang sudah ada, pastikan tabel tersebut kompatibel dengan skema tabel yang akan dijelaskan nanti di bagian ini.

  14. Opsional: Tambahkan label. Label adalah pasangan key:value yang dapat Anda gunakan untuk mengelompokkan objek terkait bersama atau dengan resource Google Cloud lainnya.

  15. Di bagian Opsi jadwal, pilih salah satu opsi berikut:

    • Repeat: Jalankan tugas pemindaian profil data sesuai jadwal: harian, mingguan, bulanan, atau kustom. Tentukan seberapa sering pemindaian harus dijalankan dan waktunya. Jika Anda memilih kustom, gunakan format cron untuk menentukan jadwal.

    • On-demand: Buat pemindaian profil data dan jalankan kapan saja menggunakan tindakan run now.

  16. Klik Create.

gcloud

Untuk melakukan pemindaian profil data, jalankan perintah berikut:

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-entity=DATA_SOURCE_ENTITY
| --data-source-resource=DATA_SOURCE_RESOURCE

Ganti variabel berikut:

  • DATASCAN: Nama pemindaian profil data.
  • LOCATION: Region Google Cloud tempat pemindaian profil data akan dibuat.
  • DATA_SOURCE_ENTITY: Entitas Dataplex yang berisi data untuk pemindaian profil data. Misalnya, projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity.
  • DATA_SOURCE_RESOURCE: Nama resource yang berisi data untuk pemindaian profil data. Misalnya, //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table.

Untuk argumen opsional, lihat referensi gcloud CLI.

REST

Gunakan APIs Explorer untuk membuat pemindaian profil data.

Membuat beberapa pemindaian profil data

Konsol

  1. Di konsol Google Cloud, buka halaman Profil.

    Buka Profil Dataplex

  2. Klik Buat beberapa pemindaian profil.

  3. Masukkan awalan ID. Dataplex otomatis menghasilkan ID pemindaian dengan menggunakan awalan yang disediakan dan akhiran unik.

  4. Masukkan Deskripsi untuk semua pemindaian profil data.

  5. Di kolom Set data, klik Browse. Pilih {i>dataset <i}untuk memilih tabel. Klik Select.

  6. Jika set data bersifat multi-regional, pilih Region untuk membuat pemindaian profil data.

  7. Pilih Common configuration options:

    1. Di kolom Cakupan, pilih Inkremental atau Seluruh data.

    2. Untuk menerapkan pengambilan sampel ke pemindaian profil data Anda, di daftar Ukuran pengambilan sampel, pilih persentase pengambilan sampel.

      Pilih nilai persentase antara 0,0% dan 100,0% dengan maksimal 3 digit desimal.

    3. Untuk menampilkan hasil semua pemindaian, pilih Publikasi. Anda dapat melihat hasilnya di tab Profil pada detail tabel BigQuery atau Katalog Data. Pastikan Anda memiliki izin bigquery.tables.update di tabel sumber.

    4. Di bagian Opsi jadwal, pilih salah satu opsi berikut:

      1. Ulangi: Jalankan tugas pemindaian profil data sesuai jadwal. Tentukan seberapa sering pemindaian akan dijalankan (harian, mingguan, bulanan, atau kustom) dan waktunya. Jika memilih kustom, gunakan format cron untuk menentukan jadwal.

      2. On-demand: Membuat tugas pemindaian profil data dan menjalankannya kapan saja dengan mengklik Run.

  8. Pada opsi Pilih tabel, klik Cari. Pilih satu atau lebih tabel yang akan dipindai. Klik Select.

  9. Pilih Setelan tambahan:

    1. Untuk menyimpan hasil pemindaian profil data Anda ke tabel BigQuery pilihan Anda, pilih tabel di bagian Ekspor hasil pemindaian ke tabel BigQuery. Dataplex akan otomatis menyalin dan menyimpan hasilnya ke tabel ini untuk setiap tugas pemindaian.

      1. Klik Browse untuk memilih set data.

      2. Masukkan tabel BigQuery untuk menyimpan hasil. Tabel ini dapat berupa tabel yang sudah ada, yang digunakan oleh pemindaian profil data Dataplex lainnya untuk menyimpan hasil. Jika tidak ada tabel dengan nama yang ditentukan, Dataplex akan membuat tabel.

    2. Tambahkan Label untuk memberi anotasi pada pemindaian profil data Anda.

  10. Klik Jalankan pemindaian untuk membuat dan menjalankan semua pemindaian. Opsi ini hanya tersedia untuk pemindaian on demand.

  11. Klik Buat untuk melakukan semua pemindaian.

gcloud

Tidak didukung.

REST

Tidak didukung.

Ekspor skema tabel

Jika Anda ingin mengekspor hasil pemindaian profil data ke tabel BigQuery yang sudah ada, pastikan tabel tersebut kompatibel dengan skema tabel berikut:

Nama kolom Jenis data kolom Nama subkolom
(jika ada)
Jenis data subkolom Mode Contoh
data_profile_scan struct/record resource_name string nullable //dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan
project_id string nullable test-project
location string nullable us-central1
data_scan_id string nullable test-datascan
data_source struct/record resource_name string nullable Kasus entitas:
//dataplex.googleapis.com/projects/test-project/locations/europe-west2/lakes/test-lake/zones/test-zone/entities/test-entity

Kasus tabel: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table
dataplex_entity_project_id string nullable test-project
dataplex_entity_project_number integer nullable 123456789012
dataplex_lake_id string nullable (Hanya berlaku jika sumber adalah entitas)
test-lake
dataplex_zone_id string nullable (Hanya berlaku jika sumber adalah entitas)
test-zone
dataplex_entity_id string nullable (Hanya berlaku jika sumber adalah entitas)
test-entity
table_project_id string nullable dataplex-table
table_project_number int64 nullable 345678901234
dataset_id string nullable (Hanya berlaku jika sumber adalah tabel)
test-dataset
table_id string nullable (Hanya berlaku jika sumber adalah tabel)
test-table
data_profile_job_id string nullable caeba234-cfde-4fca-9e5b-fe02a9812e38
data_profile_job_configuration json trigger string nullable ondemand/schedule
incremental boolean nullable true/false
sampling_percent float nullable (0-100)
20.0 (menunjukkan 20%)
row_filter string nullable col1 >= 0 AND col2 < 10
column_filter json nullable {"include_fields":["col1","col2"], "exclude_fields":["col3"]}
job_labels json nullable {"key1":value1}
job_start_time timestamp nullable 2023-01-01 00:00:00 UTC
job_end_time timestamp nullable 2023-01-01 00:00:00 UTC
job_rows_scanned integer nullable 7500
column_name string nullable column-1
column_type string nullable string
column_mode string nullable repeated
percent_null float nullable (0,0-100,0)
20.0 (menunjukkan 20%)
percent_unique float nullable (0,0-100,0)
92.5
min_string_length integer nullable (Hanya valid jika jenis kolom adalah string)
10
max_string_length integer nullable (Hanya valid jika jenis kolom adalah string)
4
average_string_length float nullable (Hanya valid jika jenis kolom adalah string)
7.2
min_value float nullable (Hanya berlaku jika jenis kolom berupa numerik - bilangan bulat/float)
max_value float nullable (Hanya berlaku jika jenis kolom berupa numerik - bilangan bulat/float)
average_value float nullable (Hanya berlaku jika jenis kolom berupa numerik - bilangan bulat/float)
standard_deviation float nullable (Hanya berlaku jika jenis kolom berupa numerik - bilangan bulat/float)
quartile_lower integer nullable (Hanya berlaku jika jenis kolom berupa numerik - bilangan bulat/float)
quartile_median integer nullable (Hanya berlaku jika jenis kolom berupa numerik - bilangan bulat/float)
quartile_upper integer nullable (Hanya berlaku jika jenis kolom berupa numerik - bilangan bulat/float)
top_n struct/record - repeated value string nullable "4009"
count integer nullable 20
percent float nullable 10 (menunjukkan 10%)

Ekspor penyiapan tabel

Saat Anda mengekspor ke tabel BigQueryExport, ikuti panduan berikut:

  • Untuk kolom resultsTable, gunakan format: //bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}.
  • Gunakan tabel standar BigQuery.
  • Jika tabel tidak ada saat pemindaian dibuat atau diperbarui, Dataplex akan membuatkan tabel untuk Anda.
  • Secara default, tabel dipartisi pada kolom job_start_time setiap hari.
  • Jika Anda ingin tabel dipartisi dalam konfigurasi lain atau jika Anda tidak ingin partisi tersebut, buat ulang tabel dengan skema dan konfigurasi yang diperlukan, lalu berikan tabel yang sudah dibuat sebagai tabel hasil.
  • Pastikan tabel hasil berada di lokasi yang sama dengan tabel sumber.
  • Jika VPC-SC dikonfigurasi pada project, tabel hasil harus berada dalam perimeter VPC-SC yang sama dengan tabel sumber.
  • Jika tabel diubah selama tahap eksekusi pemindaian, tugas yang sedang berjalan saat ini akan diekspor ke tabel hasil sebelumnya dan perubahan tabel akan diterapkan dari tugas pemindaian berikutnya.
  • Jangan ubah skema tabel. Jika Anda membutuhkan kolom yang disesuaikan, buat tampilan di atas tabel.
  • Untuk mengurangi biaya, tetapkan masa berlaku pada partisi berdasarkan kasus penggunaan Anda. Untuk mengetahui informasi selengkapnya, lihat cara menetapkan masa berlaku partisi.

Jalankan pemindaian profil data

Konsol

  1. Di konsol Google Cloud, buka halaman Profile Dataplex. Buka Profil
  2. Klik pemindaian profil data untuk menjalankannya.
  3. Klik Jalankan sekarang.

gcloud

Untuk menjalankan pemindaian profil data, jalankan perintah berikut:

gcloud dataplex datascans run DATASCAN \
--location=LOCATION

Ganti variabel berikut:

  • DATASCAN: Nama pemindaian profil data.
  • LOCATION: Region Google Cloud tempat pemindaian profil data dibuat.

Untuk argumen opsional, lihat referensi gcloud CLI.

REST

Gunakan APIs Explorer untuk menjalankan pemindaian profil data Anda.

Melihat hasil tugas pemindaian profil data

Konsol

Semua pemindaian profil data yang Anda buat akan muncul di halaman Profil.

Untuk melihat hasil detail pemindaian, klik nama pemindaian.

  • Bagian Overview menampilkan proses pemindaian, waktu setiap proses yang dijalankan, jumlah catatan tabel yang dipindai, dan status tugas.

  • Bagian Konfigurasi pemindaian profil berisi detail tentang pemindaian.

gcloud

Untuk melihat hasil tugas pemindaian profil data, jalankan perintah berikut:

gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULL

Ganti variabel berikut:

  • JOB: ID tugas dari tugas pemindaian profil data.
  • LOCATION: Region Google Cloud tempat pemindaian profil data dibuat.
  • DATASCAN: Nama profil data yang memindai tugas tersebut.
  • --view=FULL: Untuk melihat hasil tugas pemindaian, tentukan FULL.

Untuk argumen opsional, lihat referensi gcloud CLI.

REST

Gunakan APIs Explorer untuk melihat hasil pemindaian profil data.

Lihat tugas pemindaian profil data terbaru

Konsol

Tab Hasil tugas terbaru, ketika ada setidaknya satu tugas yang berhasil diselesaikan, memberikan informasi tentang tugas terbaru. Fitur ini mencantumkan kolom tabel yang dipindai dan statistik tentang kolom yang ditemukan dalam pemindaian.

gcloud

Untuk melihat pemindaian profil data terbaru yang berhasil, jalankan perintah berikut:

gcloud dataplex datascans describe DATASCAN \
--location=LOCATION \
--view=FULL

Ganti variabel berikut:

  • DATASCAN: Nama pemindaian profil data untuk melihat tugas terbaru.
  • LOCATION: Region Google Cloud tempat pemindaian profil data dibuat.
  • --view=FULL: Untuk melihat hasil tugas pemindaian, tentukan FULL.

Untuk argumen opsional, lihat referensi gcloud CLI.

REST

Gunakan APIs Explorer untuk melihat tugas pemindaian terbaru.

Lihat semua tugas pemindaian profil data

Dataplex menyimpan histori pemindaian profil data dari 300 tugas terakhir atau selama setahun terakhir, mana saja yang lebih dulu.

Konsol

Tab Histori tugas memberikan informasi tentang tugas sebelumnya. File ini mencantumkan semua tugas, jumlah catatan yang dipindai di setiap tugas, status tugas, waktu eksekusi tugas, dan lainnya.

Untuk melihat informasi mendetail tentang suatu tugas, klik salah satu tugas di bagian ID Tugas.

gcloud

Untuk melihat semua tugas pemindaian profil data, jalankan perintah berikut:

gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCAN

Ganti variabel berikut:

  • LOCATION: Region Google Cloud tempat pemindaian profil data dibuat.
  • DATASCAN: Nama pemindaian profil data untuk melihat semua tugas.

Untuk argumen opsional, lihat referensi gcloud CLI.

REST

Gunakan APIs Explorer untuk melihat semua tugas pemindaian.

Membagikan hasil yang dipublikasikan

Saat membuat pemindaian profil data, jika Anda memilih untuk memublikasikan hasil pemindaian di halaman BigQuery dan Katalog Data di Konsol Google Cloud, hasil pemindaian terbaru akan tersedia di tab Profil data di halaman tersebut.

Anda dapat memungkinkan pengguna di organisasi Anda mengakses hasil pemindaian yang dipublikasikan. Untuk memberikan akses ke hasil pemindaian, ikuti langkah-langkah berikut:

  1. Di konsol Google Cloud, buka halaman Profil.

    Buka Profil Dataplex

  2. Klik pemindaian profil data yang ingin Anda bagikan hasilnya.

  3. Buka tab Izin.

  4. Klik Berikan akses.

  5. Di kolom New principals, tambahkan akun utama yang ingin Anda beri aksesnya.

  6. Di kolom Select a role, pilih Dataplex DataScan DataViewer.

  7. Klik Simpan.

Untuk menghapus akses ke hasil pemindaian yang dipublikasikan untuk akun utama, ikuti langkah-langkah berikut:

  1. Di konsol Google Cloud, buka halaman Profil.

    Buka Profil Dataplex

  2. Klik pemindaian profil data yang ingin Anda bagikan hasilnya.

  3. Buka tab Izin.

  4. Pilih akun utama yang peran Dataplex DataScan DataViewer ingin Anda hapus.

  5. Klik Hapus akses.

  6. Klik Confirm.

Memperbarui pemindaian profil data

Konsol

  1. Di konsol Google Cloud, buka halaman Profil.

    Buka Profil Dataplex

  2. Di baris dengan pemindaian yang ingin Anda edit, klik > Edit.

  3. Edit the values.

  4. Klik Simpan.

gcloud

Untuk memperbarui pemindaian profil data, jalankan perintah berikut:

gcloud dataplex datascans update data-profile DATASCAN \
--location=LOCATION \
--description=DESCRIPTION

Ganti variabel berikut:

  • DATASCAN: Nama pemindaian profil data yang akan diperbarui.
  • LOCATION: Region Google Cloud tempat pemindaian profil data dibuat.
  • DESCRIPTION: Deskripsi baru untuk pemindaian profil data.

Untuk mengetahui kolom spesifikasi yang perlu diperbarui, lihat referensi gcloud CLI.

REST

Gunakan APIs Explorer untuk mengedit pemindaian profil data.

Menghapus pemindaian profil data

Konsol

  1. Di konsol Google Cloud, buka halaman Profil. Buka Dataplex Profile

  2. Klik pemindaian yang ingin dihapus.

  3. Klik Delete.

gcloud

Untuk menghapus pemindaian profil data, jalankan perintah berikut:

gcloud dataplex datascans delete \
DATASCAN --location=LOCATION \
--async

Ganti variabel berikut:

  • DATASCAN: Nama pemindaian profil data yang akan dihapus.
  • LOCATION: Region Google Cloud tempat pemindaian profil data dibuat.

Untuk argumen opsional, lihat referensi gcloud CLI.

REST

Gunakan APIs Explorer untuk menghapus pemindaian profil data Anda.

Apa langkah selanjutnya?