Fitur Data Catalog Dataplex adalah inventaris terpusat aset data organisasi. Data Catalog secara otomatis membuat katalog metadata dari sumber Google Cloud seperti BigQuery, Vertex AI, Pub/Sub, Spanner, Bigtable, dan lainnya. Data Catalog juga mengindeks metadata tabel dan kumpulan file dari Cloud Storage melalui penemuan.
Anda dapat menemukan data dengan kemampuan penelusuran metadata seluruh organisasi yang diatur Dataplex. Anda dapat lebih memperkaya metadata dengan konteks bisnis yang penting, serta mengaktifkan pelacakan silsilah, pembuatan profil data, pemeriksaan kualitas data, dan kemampuan kontrol akses.
Dengan menggunakan Data Catalog, organisasi dapat melakukan penemuan data, pengelolaan metadata, dan tata kelola yang lebih baik.
Mengapa Anda memerlukan Katalog Data?
Sebagian besar organisasi menangani aset data dalam jumlah besar dan terus bertambah. Pemangku kepentingan data (konsumen, produsen, dan administrator) dalam organisasi menghadapi beberapa tantangan, termasuk hal berikut:
Menelusuri data yang bermanfaat:
- Konsumen data tidak mengetahui lokasi dan asal data. Mereka harus menavigasi "rawa" data.
- Konsumen data tidak tahu data apa yang harus digunakan untuk mendapatkan insight karena sebagian besar data tidak didokumentasikan dengan baik dan, meskipun didokumentasikan, tidak dikelola dengan baik.
- Data tidak dapat ditemukan dan sering kali hilang jika hanya ada di pikiran orang.
Memahami data:
- Apakah data tersebut baru, bersih, divalidasi, dan disetujui untuk digunakan dalam produksi?
- Set data mana dari beberapa set duplikat yang relevan dan terbaru?
- Bagaimana hubungan satu set data dengan set data lainnya?
- Siapa yang menggunakan data dan siapa pemiliknya?
- Siapa dan apa saja proses yang mengubah data?
Membuat data berguna:
Produsen data tidak memiliki cara yang efisien untuk menampilkan data mereka kepada konsumen. Jika tidak ada layanan mandiri, konsumen dapat membebani produsen. Beberapa engineer data tidak dapat memberikan data secara manual kepada ribuan analis data.
Waktu yang berharga akan terbuang jika konsumen data harus mencari tahu cara meminta akses data, menunggu tanpa waktu respons yang ditentukan, mengeskalasikan, dan menunggu lagi.
Tanpa alat yang tepat, tantangan tersebut menjadi hambatan utama dalam penggunaan data yang efisien. Data Catalog menyediakan repositori terpusat yang memungkinkan organisasi mencapai hal berikut:
- Dapatkan tampilan terpadu untuk mengurangi kesulitan dalam menelusuri data yang tepat.
- Dukung pengambilan keputusan berbasis data dan percepat waktu analisis dengan memperkaya data dengan metadata teknis dan bisnis.
- Tingkatkan pengelolaan data untuk meningkatkan efisiensi dan produktivitas operasional.
- Ambil kepemilikan atas data untuk meningkatkan kepercayaan dan keyakinan terhadap data tersebut.
Fungsi Data Catalog
Data Catalog menyediakan tiga fungsi utama:
- Menelusuri entri data yang aksesnya Anda miliki
- Memberi tag pada entri data dengan metadata
- Memberikan keamanan tingkat kolom untuk tabel BigQuery
Selain itu, Data Catalog dapat membuat hasil pemindaian Perlindungan Data Sensitif untuk mengidentifikasi data sensitif langsung dalam Data Catalog dalam bentuk template tag.
Cara kerja Data Catalog
Data Catalog dapat membuat katalog metadata aset dari berbagai sistem Google Cloud.
Anda juga dapat menggunakan Data Catalog API untuk berintegrasi dengan sumber data kustom.
Setelah data dikatalogkan, Anda dapat menambahkan metadata Anda sendiri ke aset ini menggunakan tag.
Metadata Data Catalog
Data Catalog menangani dua jenis metadata: metadata teknis dan metadata bisnis. Untuk mengetahui metadata lebih lanjut, lihat Metadata Data Catalog.
Penelusuran dan penemuan
Data Catalog menawarkan pengalaman penelusuran berbasis predikat yang andal untuk metadata teknis dan bisnis yang terkait dengan entri data. Anda harus memiliki izin untuk membaca metadata entri data agar dapat menerapkan penelusuran dan penemuan pada metadata. Data Catalog tidak mengindeks data dalam entri data. Data Catalog hanya mengindeks metadata yang mendeskripsikan aset.
Data Catalog mengontrol beberapa metadata seperti tag yang dibuat pengguna. Untuk semua metadata yang bersumber dari sistem penyimpanan pokok, Data Catalog adalah layanan hanya baca yang mencerminkan metadata dan izin yang disediakan oleh sistem penyimpanan pokok. Anda dapat mengedit di sistem penyimpanan yang mendasarinya untuk menambahkan, memperbarui, atau menghapus metadata entri data.
Untuk mengetahui penelusuran Data Catalog lebih lanjut, lihat Menelusuri aset data dengan Data Catalog.
Katalogisasi aset secara otomatis
Untuk project tertentu, Data Catalog secara otomatis membuat katalog aset Google Cloud berikut:
- Set data tertaut Analytics Hub
- Set data, tabel, model, rutinitas, dan koneksi BigQuery
- Instance, cluster, dan tabel Bigtable (termasuk detail grup kolom)
- Data lake, zona, tabel, dan set file Dataplex
- Layanan, database, dan tabel Dataproc Metastore
- Topik Pub/Sub
- Instance, database, tabel, dan tampilan Spanner
Model Vertex AI, set data, dan resource Vertex AI Feature Store
Selain membuat katalog aset dalam ID project yang akses metadata-nya Anda miliki, Data Catalog dapat membuat katalog data yang disimpan dalam project BigQuery yang berisi set data publik.
Mengkatalogkan aset non-Google Cloud
Untuk membuat katalog metadata dari sistem non-Google Cloud di organisasi, Anda dapat menggunakan hal berikut:
- Konektor kontribusi komunitas ke beberapa sumber data lokal populer
- Melakukan build secara manual di Data Catalog API untuk entri kustom
Mengakses Data Catalog
Anda dapat mengakses fungsi Data Catalog menggunakan:
Dataplex di konsol Google Cloud
Antarmuka command line (CLI)
gcloud
Langkah selanjutnya
Pelajari cara memberi tag pada tabel BigQuery menggunakan Data Catalog.
Pelajari cara menelusuri aset data dengan Data Catalog.
Pelajari cara mengintegrasikan sumber data Google Cloud dan lokal dengan Data Catalog.