Menggunakan Data Catalog

Data Catalog adalah fitur Dataplex yang terintegrasi dengan BigQuery dan membuat katalog metadata secara otomatis untuk resource BigQuery seperti tabel, set data, tampilan, dan model. Dokumen ini menjelaskan cara menelusuri resource tersebut, melihat silsilah data, dan menambahkan tag menggunakan Data Catalog.

Menelusuri resource BigQuery

Untuk menggunakan Data Catalog guna menelusuri set data, tabel, dan project berbintang BigQuery, ikuti langkah-langkah berikut:

  1. Di konsol Google Cloud, buka halaman Penelusuran Dataplex.

    Buka Penelusuran

  2. Di kolom Penelusuran, masukkan kueri, lalu klik Telusuri.

    Penelusuran Data Catalog memungkinkan Anda menemukan data di seluruh project dan organisasi.

    Untuk mempertajam parameter penelusuran, gunakan panel Filter. Misalnya, di bagian Sistem, centang kotak BigQuery. Hasilnya difilter ke sistem BigQuery.

Anda dapat melakukan penelusuran dasar di Data Catalog melalui konsol Google Cloud. Untuk informasi selengkapnya tentang penelusuran di konsol Google Cloud, lihat Membuka set data publik.

Silsilah data

Silsilah data adalah fitur Dataplex yang memungkinkan Anda melacak bagaimana data berpindah melalui sistem: tempat asal data, tempat data diteruskan, dan transformasi yang diterapkan pada data. Anda dapat mengakses fitur silsilah data langsung dari BigQuery.

Mengaktifkan silsilah data di project BigQuery Anda akan menyebabkan Dataplex mencatat informasi silsilah secara otomatis untuk tabel yang dibuat oleh operasi berikut:

Sebelum memulai

Di bagian ini, Anda akan mengaktifkan Data Lineage API dan memberikan peran Identity and Access Management (IAM) yang memberi pengguna izin yang diperlukan untuk melakukan setiap tugas dalam dokumen ini.

Mengaktifkan silsilah data

  1. Di konsol Google Cloud, pada halaman pemilih project, pilih project yang berisi resource yang ingin Anda lacak silsilahnya.

    Buka pemilih project

  2. Aktifkan Data Lineage API dan Data Catalog API.

    Mengaktifkan API

Peran IAM yang diperlukan

Informasi silsilah dilacak secara otomatis saat Anda mengaktifkan Data Lineage API.

Untuk mendapatkan izin yang Anda perlukan guna melihat grafik visualisasi silsilah, minta administrator untuk memberi Anda peran IAM berikut:

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.

Untuk mengetahui informasi selengkapnya, lihat Peran silsilah data.

Melihat grafik silsilah di BigQuery

Untuk melihat grafik visualisasi silsilah data dari BigQuery, ikuti langkah-langkah berikut:

  1. Di konsol Google Cloud, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, luaskan project dan set data Anda, lalu pilih tabel.

  3. Klik tab Silsilah.

    Tab silsilah data.

    Grafik visualisasi silsilah data Anda akan ditampilkan.

    Grafik silsilah data.

  4. Opsional: Pilih node untuk melihat detail tambahan tentang entity atau proses yang terlibat dalam pembuatan informasi silsilah.

Untuk informasi selengkapnya tentang silsilah data, lihat Tentang silsilah data.

Tag dan template tag

Tag memungkinkan organisasi membuat, menelusuri, dan mengelola metadata untuk semua entri datanya dalam layanan terpadu.

Bagian ini menjelaskan dua konsep utama Data Catalog:

  • Tag memungkinkan Anda memberikan konteks untuk entri data dengan melampirkan kolom metadata kustom.

  • Template tag adalah struktur yang dapat digunakan kembali dan dapat Anda gunakan untuk membuat tag baru dengan cepat.

Tag

Data Catalog menyediakan dua jenis tag: tag privat dan tag publik.

Tag pribadi

Tag pribadi memberikan kontrol akses yang ketat. Anda dapat menelusuri atau melihat tag dan entri data yang terkait dengan tag tersebut, hanya jika Anda diberi izin lihat yang diperlukan di template tag pribadi dan entri data.

Untuk menelusuri tag pribadi di halaman Data Catalog, Anda harus menggunakan sintaksis penelusuran tag: atau filter penelusuran.

Tag pribadi cocok untuk skenario saat Anda perlu menyimpan beberapa informasi sensitif dalam tag dan ingin menerapkan pembatasan akses tambahan selain memeriksa apakah pengguna memiliki izin untuk melihat entri yang diberi tag.

Tag publik

Tag publik memberikan kontrol akses yang tidak terlalu ketat untuk menelusuri dan melihat tag dibandingkan dengan tag pribadi. Setiap pengguna yang memiliki izin lihat yang diperlukan untuk entri data dapat melihat semua tag publik yang terkait dengannya. Izin lihat untuk tag publik hanya diperlukan saat Anda melakukan penelusuran di Data Catalog menggunakan sintaksis tag: atau saat Anda melihat template tag yang tidak terlampir.

Tag publik mendukung penelusuran dan penelusuran sederhana dengan predikat di halaman penelusuran Data Catalog. Saat Anda membuat template tag, opsi untuk membuat template tag publik adalah opsi default dan yang direkomendasikan di konsol Google Cloud.

Misalnya, anggaplah Anda memiliki template tag publik bernama employee data yang digunakan untuk membuat tag bagi tiga entri data bernama Name, Location, dan Salary. Di antara ketiga entri data tersebut, hanya anggota grup tertentu yang disebut HR yang dapat melihat entri data Salary. Dua entri data lainnya memiliki izin lihat untuk semua karyawan perusahaan.

Jika ada karyawan yang bukan anggota grup HR menggunakan halaman penelusuran Data Catalog dan menelusuri dengan kata employee, hasil penelusuran hanya akan menampilkan entri data Name dan Location dengan tag publik terkait.

Tag publik berguna untuk serangkaian skenario yang luas. Tag publik mendukung penelusuran dan penelusuran sederhana dengan predikat, sedangkan tag pribadi hanya mendukung penelusuran dengan predikat.

Template Tag

Untuk mulai memberi tag pada metadata, Anda harus membuat satu atau beberapa template tag terlebih dahulu. Template tag dapat berupa template tag publik atau pribadi. Saat Anda membuat template tag, opsi untuk membuat template tag publik adalah opsi default dan yang direkomendasikan di konsol Google Cloud. Template tag adalah grup key-value pair metadata yang disebut kolom. Memiliki set template serupa dengan memiliki skema database untuk metadata.

Anda dapat menyusun tag berdasarkan topik. Contoh:

  • Tag data governance dengan kolom untuk pengelola data, tanggal retensi, tanggal penghapusan, PII (ya atau tidak), klasifikasi data (publik, rahasia, sensitif, peraturan)
  • Tag data quality dengan kolom untuk masalah kualitas, frekuensi update, informasi SLO
  • Tag data usage dengan kolom untuk pengguna teratas, kueri terpopuler, pengguna harian rata-rata

Selanjutnya, Anda dapat mencampur dan mencocokkan tag, hanya menggunakan tag yang relevan saja untuk setiap aset data dan kebutuhan bisnis Anda.

Untuk membantu Anda memulai, Data Catalog menyertakan galeri contoh template tag untuk menggambarkan kasus penggunaan pemberian tag umum. Gunakan contoh ini untuk mempelajari manfaat pemberian tag, sebagai inspirasi, atau sebagai titik awal untuk membuat infrastruktur pemberian tag Anda sendiri.

Untuk menggunakan galeri template tag, lakukan langkah-langkah berikut:

  1. Di konsol Google Cloud, buka halaman Template tag Dataplex.

    Buka Template tag

  2. Klik Buat template tag.

    Galeri template ditampilkan sebagai bagian dari halaman Buat template.

Setelah memilih template dari galeri, Anda dapat menggunakannya seperti template tag lainnya. Anda dapat menambahkan atau menghapus atribut dan mengubah apa pun di template untuk menyesuaikan dengan kebutuhan bisnis Anda. Anda kemudian dapat menelusuri kolom dan nilai template menggunakan Data Catalog.

Untuk informasi lebih lanjut tentang tag dan template tag, lihat artikel Tag dan template tag.

Resource regional

Setiap template tag dan tag disimpan di region Google Cloud tertentu. Anda dapat menggunakan template tag untuk membuat tag di region mana pun, sehingga tidak perlu membuat salinan template jika Anda memiliki entri metadata yang tersebar di beberapa region.