Tentang pembuatan profil data

Pembuatan profil data Dataplex memungkinkan Anda mengidentifikasi karakteristik statistik umum kolom di tabel BigQuery. Informasi ini membantu Anda memahami dan menganalisis data dengan lebih efektif.

Informasi seperti nilai data umum, distribusi data, dan jumlah null dapat mempercepat analisis. Jika digabungkan dengan klasifikasi data, pembuatan profil data dapat mendeteksi class data atau informasi sensitif yang pada akhirnya dapat mengaktifkan kebijakan kontrol akses.

Dataplex juga menggunakan informasi ini untuk merekomendasikan aturan untuk pemeriksaan kualitas data.

Model konseptual

Dataplex memungkinkan Anda lebih memahami profil data dengan membuat pemindaian pembuatan profil data.

Diagram berikut menunjukkan cara Dataplex memindai data untuk melaporkan karakteristik statistik.

Pemindaian pembuatan profil data menganalisis data tabel untuk melaporkan karakteristik statistik.

Pemindaian pembuatan profil data dikaitkan dengan satu tabel BigQuery dan memindai tabel untuk menghasilkan hasil pembuatan profil data. Pemindaian pembuatan profil data mendukung beberapa opsi konfigurasi.

Opsi konfigurasi

Bagian ini menjelaskan opsi konfigurasi yang tersedia untuk menjalankan pemindaian pembuatan profil data.

Opsi penjadwalan

Anda dapat menjadwalkan pemindaian pembuatan profil data dengan frekuensi yang ditentukan atau on demand melalui API atau konsol Google Cloud .

Cakupan

Sebagai bagian dari spesifikasi pemindaian pembuatan profil data, Anda dapat menentukan cakupan tugas sebagai salah satu opsi berikut:

  • Tabel lengkap: Seluruh tabel akan dipindai dalam pemindaian pembuatan profil data. Sampling, filter baris, dan filter kolom diterapkan di seluruh tabel sebelum menghitung statistik pembuatan profil.

  • Inkremental: Data inkremental yang Anda tentukan akan dipindai dalam pemindaian profil data. Tentukan kolom Date atau Timestamp dalam tabel yang akan digunakan sebagai penambahan. Biasanya, ini adalah kolom tempat tabel dipartisi. Sampling, filter baris, dan filter kolom diterapkan pada data inkremental sebelum menghitung statistik pembuatan profil.

Memfilter data

Anda dapat memfilter data yang akan dipindai untuk pembuatan profil menggunakan filter baris dan filter kolom. Penggunaan filter membantu Anda mengurangi waktu dan biaya eksekusi, serta mengecualikan data sensitif dan tidak berguna.

  • Filter baris: Filter baris memungkinkan Anda berfokus pada data dalam jangka waktu tertentu atau dari segmen tertentu, seperti wilayah. Misalnya, Anda dapat memfilter data dengan stempel waktu sebelum tanggal tertentu.

  • Filter kolom: Filter kolom memungkinkan Anda menyertakan dan mengecualikan kolom tertentu dari tabel untuk menjalankan pemindaian pembuatan profil data.

Data sampel

Dataplex memungkinkan Anda menentukan persentase data dari data Anda untuk dijadikan sampel guna menjalankan pemindaian pembuatan profil data. Membuat pemindaian pembuatan profil data pada sampel data yang lebih kecil dapat mengurangi waktu eksekusi dan biaya kueri seluruh set data.

Beberapa pemindaian pembuatan profil data

Dataplex memungkinkan Anda membuat beberapa pemindaian pembuatan profil data sekaligus menggunakan konsol Google Cloud . Anda dapat memilih hingga 100 tabel dari satu set data dan membuat pemindaian pembuatan profil data untuk setiap set data. Pelajari lebih lanjut.

Mengekspor hasil pemindaian ke tabel BigQuery

Anda dapat mengekspor hasil pemindaian pembuatan profil data ke tabel BigQuery untuk analisis lebih lanjut. Untuk menyesuaikan pelaporan, Anda dapat menghubungkan data tabel BigQuery ke dasbor Looker. Anda dapat membuat laporan gabungan menggunakan tabel hasil yang sama di beberapa pemindaian.

Hasil pembuatan profil data

Hasil pembuatan profil data mencakup nilai berikut:

Jenis kolom Hasil pembuatan profil data
Kolom numerik
  • Persentase nilai null.
  • Persentase perkiraan nilai unik (berbeda).
  • 10 nilai paling umum di kolom. Nilai ini dapat kurang dari 10 jika jumlah nilai unik dalam kolom kurang dari 10 (nilai null tidak disertakan). Untuk setiap nilai yang paling umum ini, persentase kemunculannya dalam data yang dipindai dalam pemindaian saat ini akan ditampilkan.
  • Rata-rata, deviasi standar, minimum, perkiraan kuartil bawah, perkiraan median, perkiraan kuartil atas, dan nilai maksimum.
Kolom string
  • Persentase nilai null.
  • Persentase perkiraan nilai unik (berbeda).
  • 10 nilai paling umum teratas di kolom, yang dapat kurang dari 10 jika jumlah nilai unik di kolom kurang dari 10.
  • Panjang string rata-rata, minimum, dan maksimum.
Kolom non-bertingkat lainnya (tanggal, waktu, stempel waktu, biner, dll.)
  • Persentase nilai null.
  • Persentase perkiraan nilai unik (berbeda).
  • 10 nilai paling umum teratas di kolom, yang dapat kurang dari 10 jika jumlah nilai unik di kolom kurang dari 10.
Semua kolom jenis data bertingkat atau kompleks lainnya (seperti Data, Array, JSON) atau kolom apa pun dengan mode berulang.
  • Persentase nilai null.

Hasilnya mencakup jumlah data yang dipindai dalam setiap eksekusi.

Pelaporan dan pemantauan

Anda dapat memantau dan menganalisis hasil pembuatan profil data menggunakan laporan dan metode berikut:

  • Laporan yang dipublikasikan dengan tabel sumber di halaman BigQuery dan Data Catalog

    Jika telah mengonfigurasi pemindaian pembuatan profil data untuk memublikasikan hasilnya di halaman BigQuery dan Data Catalog di konsolGoogle Cloud , Anda dapat melihat hasil pemindaian pembuatan profil data terbaru di halaman ini di tab Profil Data, dari project mana pun.

    Laporan yang dipublikasikan.

  • Histori, per laporan tugas di Dataplex

    Di halaman Profil Dataplex, Anda dapat melihat laporan mendetail untuk tugas terbaru dan historis. Hal ini mencakup informasi profil level kolom dan konfigurasi yang digunakan.

    Laporan historis per tugas.

  • Tab Analisis

    Di halaman Profil Dataplex, Anda dapat menggunakan tab Analisis untuk melihat tren statistik kolom tertentu di beberapa tugas profil. Misalnya, jika memiliki pemindaian inkremental, Anda dapat melihat bagaimana rata-rata nilai mengalami tren dari waktu ke waktu.

    Tab Analisis.

  • Membuat dasbor atau analisis Anda sendiri

    Jika telah mengonfigurasi pemindaian pembuatan profil data untuk mengekspor atau menyimpan hasil ke tabel BigQuery, Anda dapat membuat dasbor sendiri menggunakan alat, seperti Looker Studio.

Batasan

  • Hasil pembuatan profil data tidak dipublikasikan ke Data Catalog sebagai tag.
  • Pembuatan profil data didukung untuk tabel BigQuery dengan semua jenis kolom kecuali BIGNUMERIC. Pemindaian yang dibuat untuk tabel dengan kolom BIGNUMERIC akan menghasilkan error validasi dan tidak berhasil dibuat.
  • Tabel BigQuery yang akan dipindai harus memiliki 300 kolom atau kurang.

Harga

  • Dataplex menggunakan SKU pemrosesan premium untuk mengenakan biaya pembuatan profil data. Untuk mengetahui informasi selengkapnya, lihat Harga.

  • Memublikasikan hasil pembuatan profil data ke Data Catalog belum tersedia. Saat tersedia, biayanya akan sama dengan harga penyimpanan metadata Katalog. Untuk informasi selengkapnya, lihat Harga.

  • Pemrosesan premium Dataplex untuk pembuatan profil data ditagih per detik dengan minimum satu menit.

  • Anda tidak akan ditagih untuk pemindaian pembuatan profil yang gagal.

  • Biaya bergantung pada jumlah baris, jumlah kolom, jumlah data yang dipindai, setelan partisi dan pengelompokan pada tabel, serta frekuensi pemindaian.

  • Ada beberapa opsi untuk mengurangi biaya pemindaian pembuatan profil data:

    • Pengambilan sampel
    • Pemindaian inkremental
    • Pemfilteran kolom
    • Pemfilteran baris
  • Untuk memisahkan tagihan pembuatan profil data dari tagihan lain di SKU pemrosesan premium Dataplex, di laporan Penagihan Cloud, gunakan label goog-dataplex-workload-type dengan nilai DATA_PROFILE.

  • Untuk memfilter tagihan gabungan, gunakan label berikut:

    • goog-dataplex-datascan-data-source-dataplex-entity
    • goog-dataplex-datascan-data-source-dataplex-lake
    • goog-dataplex-datascan-data-source-dataplex-zone
    • goog-dataplex-datascan-data-source-project
    • goog-dataplex-datascan-data-source-region
    • goog-dataplex-datascan-id
    • goog-dataplex-datascan-job-id

Apa langkah selanjutnya?