Pembuatan profil data dataplex memungkinkan Anda mengidentifikasi karakteristik statistik umum dari kolom di tabel BigQuery. Informasi ini membantu Anda memahami dan menganalisis data dengan lebih efektif.
Informasi seperti nilai data standar, distribusi data, dan jumlah null dapat mempercepat analisis. Ketika dikombinasikan dengan klasifikasi data, pembuatan profil data dapat mendeteksi class data atau informasi sensitif yang, pada akhirnya, dapat mengaktifkan kebijakan kontrol akses.
Dataplex juga menggunakan informasi ini untuk merekomendasikan aturan untuk pemeriksaan kualitas data.
Model konseptual
Dataplex memungkinkan Anda lebih memahami profil data Anda dengan membuat pemindaian pembuatan profil data.
Diagram berikut menunjukkan cara Dataplex memindai data untuk melaporkan karakteristik statistik.
Pemindaian pembuatan profil data dikaitkan dengan satu tabel BigQuery dan memindai tabel untuk membuat hasil pembuatan profil data. Pemindaian pembuatan profil data mendukung beberapa opsi konfigurasi.
Opsi konfigurasi
Bagian ini menjelaskan opsi konfigurasi yang tersedia untuk menjalankan pemindaian pembuatan profil data.
Opsi penjadwalan
Anda dapat menjadwalkan pemindaian pembuatan profil data dengan frekuensi yang ditentukan atau sesuai permintaan melalui API atau Konsol Google Cloud.
Cakupan
Sebagai bagian dari spesifikasi pemindaian pembuatan profil data, Anda dapat menentukan cakupan tugas sebagai salah satu opsi berikut:
Tabel lengkap: Seluruh tabel dipindai dalam pemindaian profil data. Pengambilan sampel, filter baris, dan filter kolom diterapkan di seluruh tabel sebelum menghitung statistik pembuatan profil.
Inkremental: Data inkremental yang Anda tentukan akan dipindai di pemindaian profil data. Tentukan kolom
Date
atauTimestamp
dalam tabel yang akan digunakan sebagai inkremental. Biasanya, ini adalah kolom tempat tabel dipartisi. Pengambilan sampel, filter baris, dan filter kolom diterapkan pada data inkremental sebelum menghitung statistik pembuatan profil.
Data filter
Anda dapat memfilter data yang akan dipindai untuk pembuatan profil menggunakan filter baris dan filter kolom. Menggunakan filter membantu Anda mengurangi waktu dan biaya eksekusi, serta mengecualikan data sensitif dan tidak berguna.
Filter baris: Filter baris memungkinkan Anda berfokus pada data dalam jangka waktu tertentu atau dari segmen tertentu, seperti wilayah. Misalnya, Anda dapat memfilter data dengan stempel waktu sebelum tanggal tertentu.
Column filters: Filter kolom memungkinkan Anda menyertakan dan mengecualikan kolom tertentu dari tabel Anda untuk menjalankan pemindaian pembuatan profil data.
Data sampel
Dengan Dataplex, Anda dapat menentukan persentase catatan dari data yang akan diambil sampelnya untuk menjalankan pemindaian pembuatan profil data. Membuat pembuatan profil data akan memindai sampel data yang lebih kecil dapat mengurangi waktu eksekusi dan biaya pembuatan kueri seluruh set data.
Beberapa pemindaian pembuatan profil data
Dengan Dataplex, Anda dapat membuat beberapa pemindaian pembuatan profil data sekaligus menggunakan Konsol Google Cloud. Anda dapat memilih hingga 100 tabel dari satu set data dan membuat pemindaian pembuatan profil data untuk setiap set data. Pelajari lebih lanjut.
Mengekspor hasil pemindaian ke tabel BigQuery
Anda dapat mengekspor hasil pemindaian pembuatan profil data ke tabel BigQuery untuk dianalisis lebih lanjut. Untuk menyesuaikan pelaporan, Anda dapat menghubungkan data tabel BigQuery ke dasbor Looker. Anda dapat membuat laporan gabungan menggunakan tabel hasil yang sama di beberapa pemindaian.
Hasil profiling data
Hasil pembuatan profil data mencakup nilai-nilai berikut:
Jenis kolom | Hasil profiling data |
---|---|
Kolom angka |
|
Kolom string |
|
Kolom tidak bertingkat lainnya (tanggal, waktu, stempel waktu, biner, dll.) |
|
Semua kolom jenis data bertingkat atau kompleks lainnya (seperti Record, Array, JSON) atau kolom dengan mode berulang. |
|
Hasilnya mencakup jumlah catatan yang dipindai pada setiap eksekusi.
Pelaporan dan pemantauan
Anda dapat memantau dan menganalisis hasil pembuatan profil data menggunakan laporan dan metode berikut:
Laporan yang dipublikasikan dengan tabel sumber di halaman BigQuery dan Data Catalog
Jika telah mengonfigurasi pemindaian pembuatan profil data untuk memublikasikan hasilnya di halaman BigQuery dan Katalog Data di Konsol Google Cloud, Anda dapat melihat hasil pemindaian profil data terbaru di halaman ini di tab Data Profile, dari project mana pun.
Laporan historis per tugas di Dataplex
Di halaman Profil Dataplex, Anda dapat melihat laporan mendetail untuk tugas terbaru dan historis. Hal ini mencakup informasi profil tingkat kolom dan konfigurasi yang digunakan.
Tab Analisis
Di halaman Profile Dataplex, Anda dapat menggunakan tab Analisis untuk melihat tren statistik tertentu dari sebuah kolom pada beberapa tugas profil. Misalnya, jika memiliki pemindaian inkremental, Anda dapat melihat tren rata-rata sebuah nilai dari waktu ke waktu.
Membuat dasbor atau analisis Anda sendiri
Jika telah mengonfigurasi pemindaian pembuatan profil data untuk mengekspor atau menyimpan hasil ke tabel BigQuery, Anda dapat membuat dasbor sendiri menggunakan alat, seperti Looker Studio.
Batasan
- Hasil pembuatan profil data tidak dipublikasikan ke Data Catalog sebagai tag.
- Pembuatan profil data didukung untuk tabel BigQuery dengan semua jenis kolom kecuali
BIGNUMERIC
. Pemindaian yang dibuat untuk tabel dengan kolomBIGNUMERIC
menghasilkan error validasi dan tidak berhasil dibuat. - Tabel BigQuery yang akan dipindai harus memiliki maksimal 300 kolom.
Harga
Dataplex menggunakan SKU pemrosesan premium untuk menagih pembuatan profil data. Untuk mengetahui informasi selengkapnya, lihat Harga.
Publikasi hasil pembuatan profil data ke Data Catalog belum tersedia. Saat tersedia, penyimpanan akan ditagih dengan tarif yang sama dengan harga penyimpanan metadata Catalog. Untuk informasi selengkapnya, lihat Harga.
Pemrosesan dataplex premium untuk pembuatan profil data ditagih per detik dengan minimum satu menit.
Anda tidak akan ditagih untuk pemindaian pembuatan profil yang gagal.
Biaya ini bergantung pada jumlah baris, jumlah kolom, jumlah data yang dipindai, setelan partisi dan pengelompokan pada tabel, serta frekuensi pemindaian.
Ada beberapa opsi untuk mengurangi biaya pemindaian pembuatan profil data:
- Sampling
- Pemindaian inkremental
- Pemfilteran kolom
- Pemfilteran baris
Untuk memisahkan biaya pembuatan profil data dari biaya lain di SKU pemrosesan premium Dataplex, gunakan label
goog-dataplex-workload-type
dengan nilaiDATA_PROFILE
.Untuk memfilter tagihan gabungan, gunakan label berikut:
goog-dataplex-datascan-data-source-dataplex-entity
goog-dataplex-datascan-data-source-dataplex-lake
goog-dataplex-datascan-data-source-dataplex-zone
goog-dataplex-datascan-data-source-project
goog-dataplex-datascan-data-source-region
goog-dataplex-datascan-id
goog-dataplex-datascan-job-id
Apa langkah selanjutnya?
- Pelajari cara menggunakan pembuatan profil data.
- Pelajari kualitas data otomatis.
- Pelajari cara menggunakan kualitas data otomatis.