Menggunakan Data Catalog
Data Catalog adalah fitur Dataplex yang terintegrasi dengan BigQuery dan membuat katalog metadata secara otomatis untuk resource BigQuery seperti tabel, set data, tampilan, dan model. Dokumen ini menjelaskan cara menelusuri resource tersebut, melihat silsilah data, dan menambahkan tag menggunakan Data Catalog.
Menelusuri resource BigQuery
Untuk menggunakan Data Catalog guna menelusuri set data, tabel, dan project berbintang BigQuery, ikuti langkah-langkah berikut:
Di konsol Google Cloud, buka halaman Penelusuran Dataplex.
Di kolom Penelusuran, masukkan kueri, lalu klik Telusuri.
Untuk mempertajam parameter penelusuran, gunakan panel Filter. Misalnya, di bagian Sistem, centang kotak BigQuery. Hasilnya difilter ke sistem BigQuery.
Anda dapat melakukan penelusuran dasar di Data Catalog melalui konsol Google Cloud. Untuk informasi selengkapnya tentang penelusuran di konsol Google Cloud, lihat Membuka set data publik.
Silsilah data
Silsilah data adalah fitur Dataplex yang memungkinkan Anda melacak bagaimana data berpindah melalui sistem: tempat asal data, tempat data diteruskan, dan transformasi yang diterapkan pada data. Anda dapat mengakses fitur silsilah data langsung dari BigQuery.
Mengaktifkan silsilah data di project BigQuery Anda akan menyebabkan Dataplex mencatat informasi silsilah secara otomatis untuk tabel yang dibuat oleh operasi berikut:
- Tugas penyalinan.
Tugas kueri yang menggunakan pernyataan bahasa definisi data (DDL) atau bahasa pengolahan data (DML) berikut di GoogleSQL:
CREATE TABLE
(termasuk pernyataanCREATE TABLE AS SELECT
)INSERT
UPDATE
DELETE
MERGE
Sebelum memulai
Di bagian ini, Anda akan mengaktifkan Data Lineage API dan memberikan peran Identity and Access Management (IAM) yang memberi pengguna izin yang diperlukan untuk melakukan setiap tugas dalam dokumen ini.
Mengaktifkan silsilah data
- Di konsol Google Cloud, pada halaman pemilih project, pilih project yang berisi resource yang ingin Anda lacak silsilahnya.
- Aktifkan Data Lineage API dan Data Catalog API.
Peran IAM yang diperlukan
Informasi silsilah dilacak secara otomatis saat Anda mengaktifkan Data Lineage API.
Untuk mendapatkan izin yang Anda perlukan guna melihat grafik visualisasi silsilah, minta administrator untuk memberi Anda peran IAM berikut:
-
Viewer Data Catalog (
roles/datacatalog.viewer
) pada project resource Data Catalog. -
Viewer silsilah data (
roles/datalineage.viewer
) pada project tempat Anda menggunakan sistem yang didukung oleh silsilah data. -
Metadata BigQuery (
roles/bigquery.metadataViewer
)
Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
Untuk mengetahui informasi selengkapnya, lihat Peran silsilah data.
Melihat grafik silsilah di BigQuery
Untuk melihat grafik visualisasi silsilah data dari BigQuery, ikuti langkah-langkah berikut:
Di konsol Google Cloud, buka halaman BigQuery.
Di panel Explorer, luaskan project dan set data Anda, lalu pilih tabel.
Klik tab Silsilah.
Grafik visualisasi silsilah data Anda akan ditampilkan.
Opsional: Pilih node untuk melihat detail tambahan tentang entity atau proses yang terlibat dalam pembuatan informasi silsilah.
Untuk informasi selengkapnya tentang silsilah data, lihat Tentang silsilah data.
Tag dan template tag
Tag memungkinkan organisasi membuat, menelusuri, dan mengelola metadata untuk semua entri datanya dalam layanan terpadu.
Bagian ini menjelaskan dua konsep utama Data Catalog:
Tag memungkinkan Anda memberikan konteks untuk entri data dengan melampirkan kolom metadata kustom.
Template tag adalah struktur yang dapat digunakan kembali dan dapat Anda gunakan untuk membuat tag baru dengan cepat.
Tag
Data Catalog menyediakan dua jenis tag: tag privat dan tag publik.
Tag pribadi
Tag pribadi memberikan kontrol akses yang ketat. Anda dapat menelusuri atau melihat tag dan entri data yang terkait dengan tag tersebut, hanya jika Anda diberi izin lihat yang diperlukan di template tag pribadi dan entri data.
Untuk menelusuri tag pribadi di halaman Data Catalog, Anda harus
menggunakan sintaksis penelusuran tag:
atau filter penelusuran.
Tag pribadi cocok untuk skenario saat Anda perlu menyimpan beberapa informasi sensitif dalam tag dan ingin menerapkan pembatasan akses tambahan selain memeriksa apakah pengguna memiliki izin untuk melihat entri yang diberi tag.
Tag publik
Tag publik memberikan kontrol akses yang tidak terlalu ketat untuk menelusuri dan melihat tag
dibandingkan dengan tag pribadi. Setiap pengguna yang memiliki izin lihat yang diperlukan untuk
entri data dapat melihat semua tag publik yang terkait dengannya. Izin lihat
untuk tag publik hanya diperlukan saat Anda melakukan penelusuran di Data Catalog
menggunakan sintaksis tag:
atau saat Anda melihat template tag yang tidak terlampir.
Tag publik mendukung penelusuran dan penelusuran sederhana dengan predikat di halaman penelusuran Data Catalog. Saat Anda membuat template tag, opsi untuk membuat template tag publik adalah opsi default dan yang direkomendasikan di konsol Google Cloud.
Misalnya, anggaplah Anda memiliki template tag publik bernama employee data
yang digunakan untuk membuat tag bagi tiga entri data bernama Name
, Location
,
dan Salary
. Di antara ketiga entri data tersebut, hanya anggota grup tertentu yang disebut HR
yang dapat melihat entri data Salary
. Dua entri data lainnya memiliki izin
lihat untuk semua karyawan perusahaan.
Jika ada karyawan yang bukan anggota grup HR
menggunakan halaman penelusuran
Data Catalog dan menelusuri dengan kata employee
, hasil penelusuran hanya akan menampilkan
entri data Name
dan Location
dengan tag publik terkait.
Tag publik berguna untuk serangkaian skenario yang luas. Tag publik mendukung penelusuran dan penelusuran sederhana dengan predikat, sedangkan tag pribadi hanya mendukung penelusuran dengan predikat.
Template Tag
Untuk mulai memberi tag pada metadata, Anda harus membuat satu atau beberapa template tag terlebih dahulu. Template tag dapat berupa template tag publik atau pribadi. Saat Anda membuat template tag, opsi untuk membuat template tag publik adalah opsi default dan yang direkomendasikan di konsol Google Cloud. Template tag adalah grup key-value pair metadata yang disebut kolom. Memiliki set template serupa dengan memiliki skema database untuk metadata.
Anda dapat menyusun tag berdasarkan topik. Contoh:
- Tag
data governance
dengan kolom untuk pengelola data, tanggal retensi, tanggal penghapusan, PII (ya atau tidak), klasifikasi data (publik, rahasia, sensitif, peraturan) - Tag
data quality
dengan kolom untuk masalah kualitas, frekuensi update, informasi SLO - Tag
data usage
dengan kolom untuk pengguna teratas, kueri terpopuler, pengguna harian rata-rata
Selanjutnya, Anda dapat mencampur dan mencocokkan tag, hanya menggunakan tag yang relevan saja untuk setiap aset data dan kebutuhan bisnis Anda.
Melihat galeri template tag
Untuk membantu Anda memulai, Data Catalog menyertakan galeri contoh template tag untuk menggambarkan kasus penggunaan pemberian tag umum. Gunakan contoh ini untuk mempelajari manfaat pemberian tag, sebagai inspirasi, atau sebagai titik awal untuk membuat infrastruktur pemberian tag Anda sendiri.
Untuk menggunakan galeri template tag, lakukan langkah-langkah berikut:
Di konsol Google Cloud, buka halaman Template tag Dataplex.
Klik Buat template tag.
Galeri template ditampilkan sebagai bagian dari halaman Buat template.
Setelah memilih template dari galeri, Anda dapat menggunakannya seperti template tag lainnya. Anda dapat menambahkan atau menghapus atribut dan mengubah apa pun di template untuk menyesuaikan dengan kebutuhan bisnis Anda. Anda kemudian dapat menelusuri kolom dan nilai template menggunakan Data Catalog.
Untuk informasi lebih lanjut tentang tag dan template tag, lihat artikel Tag dan template tag.
Resource regional
Setiap template tag dan tag disimpan di region Google Cloud tertentu. Anda dapat menggunakan template tag untuk membuat tag di region mana pun, sehingga tidak perlu membuat salinan template jika Anda memiliki entri metadata yang tersebar di beberapa region.