Fitur Data Catalog adalah inventaris pusat dari aset data organisasi. Data Catalog secara otomatis membuat katalog metadata dari sumber Google Cloud, seperti BigQuery, Vertex AI, Pub/Sub, Spanner, Bigtable, dan lainnya. Data Catalog juga mengindeks tabel dan metadata kumpulan file dari Cloud Storage melalui penemuan.
Anda dapat dengan mudah menemukan data dengan kemampuan penelusuran metadata yang diatur oleh Dataplex di seluruh organisasi. Anda dapat lebih memperkaya metadata dengan konteks bisnis yang penting, serta mengaktifkan pelacakan silsilah, pembuatan profil data, pemeriksaan kualitas data, dan kemampuan kontrol akses.
Dengan Data Catalog, organisasi dapat mencapai penemuan data, pengelolaan metadata, dan tata kelola yang lebih baik.
Mengapa Anda memerlukan Data Catalog?
Sebagian besar organisasi saat ini berurusan dengan aset data yang jumlahnya semakin besar dan terus bertambah.
Pemangku kepentingan data (konsumen, produsen, dan administrator) dalam organisasi menghadapi beberapa tantangan:
Menelusuri data yang bermanfaat:
- Konsumen data tidak mengetahui lokasi dan asal data. Mereka harus menavigasi data "rawa".
- Konsumen data tidak tahu data apa yang akan digunakan untuk mendapatkan insight karena sebagian besar data tidak didokumentasikan dengan baik dan, bahkan jika didokumentasikan, tidak dikelola dengan baik.
- Data tidak dapat ditemukan dan sering hilang jika hanya tersimpan dalam pikiran orang-orang.
Memahami data:
- Apakah data tersebut baru, bersih, divalidasi, disetujui untuk digunakan dalam produksi?
- {i>Dataset<i} mana dari beberapa set duplikat yang relevan dan terbaru?
- Bagaimana satu {i>dataset<i} berhubungan dengan {i>dataset<i} lainnya?
- Siapa yang menggunakan data dan siapa pemiliknya?
- Siapa dan proses apa yang mengubah data?
Menjadikan data berguna:
Produsen data tidak memiliki cara yang efisien untuk meneruskan data mereka kepada konsumen. Jika tidak ada layanan mandiri, konsumen dapat membingungkan produsen. Beberapa data engineer tidak dapat memberikan data secara manual ke ribuan analis data.
Waktu yang berharga akan hilang jika konsumen data harus mencari tahu cara meminta akses data, menunggu tanpa waktu respons yang ditentukan, melakukan eskalasi, dan menunggu lagi.
Tanpa alat yang tepat, tantangan tersebut menjadi hambatan utama bagi penggunaan data secara efisien. Data Catalog menyediakan repositori terpusat yang memungkinkan organisasi mencapai hal berikut:
- Dapatkan tampilan terpadu untuk mengurangi kesulitan saat menelusuri data yang tepat.
- Dukung pengambilan keputusan berdasarkan data dan percepat waktu insight dengan memperkaya data menggunakan metadata teknis dan bisnis.
- Tingkatkan pengelolaan data untuk meningkatkan efisiensi dan produktivitas operasional.
- Ambil kepemilikan atas data untuk meningkatkan kepercayaan dan keyakinan terhadap data tersebut.
Fungsi Data Catalog
Data Catalog menyediakan tiga fungsi utama:
- Mencari entri data yang Anda miliki aksesnya
- Memberi tag pada entri data dengan metadata
- Menyediakan keamanan tingkat kolom untuk tabel BigQuery
Selain itu, Data Catalog dapat dibuat berdasarkan hasil pemindaian Perlindungan Data Sensitif untuk mengidentifikasi data sensitif secara langsung di dalam Data Catalog dalam bentuk template tag.
Cara kerja Data Catalog
Data Catalog dapat membuat katalog metadata aset dari berbagai sistem Google Cloud.
Anda juga dapat menggunakan Data Catalog API untuk berintegrasi dengan sumber data kustom.
Setelah data berada dalam katalog, Anda dapat menambahkan metadata sendiri ke aset ini menggunakan tag.
Metadata Data Catalog
Data Catalog menangani dua jenis metadata: metadata teknis dan metadata bisnis. Untuk mengetahui informasi selengkapnya tentang metadata, lihat Metadata Data Catalog.
Penelusuran dan penemuan
Data Catalog menawarkan pengalaman penelusuran berbasis predikat yang andal untuk metadata teknis dan bisnis yang terkait dengan entri data. Anda harus memiliki izin untuk membaca metadata untuk entri data sehingga Anda dapat menerapkan penelusuran dan penemuan pada metadata. Data Catalog tidak mengindeks data dalam entri data. Data Catalog hanya mengindeks metadata yang mendeskripsikan aset.
Data Catalog mengontrol beberapa metadata seperti tag yang dibuat pengguna. Untuk semua metadata yang bersumber dari sistem penyimpanan pokok, Data Catalog adalah layanan hanya baca yang mencerminkan metadata dan izin yang disediakan oleh sistem penyimpanan pokok. Anda dapat mengedit sistem penyimpanan dasar untuk menambahkan, memperbarui, atau menghapus metadata entri data.
Untuk mengetahui penelusuran Data Catalog lebih lanjut, lihat artikel Menelusuri aset data dengan Data Catalog.
Pembuatan katalog aset secara otomatis
Untuk project tertentu, Data Catalog akan otomatis membuat katalog aset Google Cloud berikut:
- Set data tertaut Analytics Hub
- Set data, tabel, model, rutinitas, dan koneksi BigQuery
- Instance, cluster, dan tabel Bigtable (termasuk detail grup kolom)
- Danau, zona, tabel, dan kumpulan file dataplex
- Layanan, database, dan tabel Dataproc Metastore
- Topik Pub/Sub
- Instance, database, tabel, dan tampilan Spanner
Model Vertex AI, set data, dan resource Vertex AI Feature Store
Selain membuat katalog aset dalam project ID yang akses metadatanya Anda miliki, Data Catalog dapat membuat katalog data yang disimpan dalam project BigQuery yang berisi set data publik.
Membuat katalog aset non-Google Cloud
Untuk membuat katalog metadata dari sistem non-Google Cloud di organisasi, Anda dapat menggunakan hal berikut:
- Konektor kontribusi komunitas ke beberapa sumber data lokal yang populer
- Buat di Data Catalog API untuk entri kustom secara manual
Mengakses Data Catalog
Anda dapat mengakses fungsi Data Catalog menggunakan:
Dataplex di konsol Google Cloud
Antarmuka command line (CLI)
gcloud
Langkah selanjutnya
Untuk memulai pemberian tag Data Catalog, lihat artikel Membuat template tag, tag, ringkasan, dan pengelola data.
Untuk memulai penelusuran dan penemuan Data Catalog, lihat Menelusuri dan melihat aset data dengan Data Catalog.
Untuk mengintegrasikan sumber data, ikuti langkah-langkah dalam artikel Mengintegrasikan Google Cloud dan sumber data lokal.