Ringkasan Data Catalog

Fitur Data Catalog adalah inventaris pusat dari aset data organisasi. Data Catalog secara otomatis membuat katalog metadata dari sumber Google Cloud, seperti BigQuery, Vertex AI, Pub/Sub, Spanner, Bigtable, dan lainnya. Data Catalog juga mengindeks tabel dan metadata kumpulan file dari Cloud Storage melalui penemuan.

Anda dapat dengan mudah menemukan data dengan kemampuan penelusuran metadata yang diatur oleh Dataplex di seluruh organisasi. Anda dapat lebih memperkaya metadata dengan konteks bisnis yang penting, serta mengaktifkan pelacakan silsilah, pembuatan profil data, pemeriksaan kualitas data, dan kemampuan kontrol akses.

Dengan Data Catalog, organisasi dapat mencapai penemuan data, pengelolaan metadata, dan tata kelola yang lebih baik.

Mengapa Anda memerlukan Data Catalog?

Sebagian besar organisasi saat ini berurusan dengan aset data yang jumlahnya semakin besar dan terus bertambah.

Pemangku kepentingan data (konsumen, produsen, dan administrator) dalam organisasi menghadapi beberapa tantangan:

  • Menelusuri data yang bermanfaat:

    • Konsumen data tidak mengetahui lokasi dan asal data. Mereka harus menavigasi data "rawa".
    • Konsumen data tidak tahu data apa yang akan digunakan untuk mendapatkan insight karena sebagian besar data tidak didokumentasikan dengan baik dan, bahkan jika didokumentasikan, tidak dikelola dengan baik.
    • Data tidak dapat ditemukan dan sering hilang jika hanya tersimpan dalam pikiran orang-orang.
  • Memahami data:

    • Apakah data tersebut baru, bersih, divalidasi, disetujui untuk digunakan dalam produksi?
    • {i>Dataset<i} mana dari beberapa set duplikat yang relevan dan terbaru?
    • Bagaimana satu {i>dataset<i} berhubungan dengan {i>dataset<i} lainnya?
    • Siapa yang menggunakan data dan siapa pemiliknya?
    • Siapa dan proses apa yang mengubah data?
  • Menjadikan data berguna:

    • Produsen data tidak memiliki cara yang efisien untuk meneruskan data mereka kepada konsumen. Jika tidak ada layanan mandiri, konsumen dapat membingungkan produsen. Beberapa data engineer tidak dapat memberikan data secara manual ke ribuan analis data.

    • Waktu yang berharga akan hilang jika konsumen data harus mencari tahu cara meminta akses data, menunggu tanpa waktu respons yang ditentukan, melakukan eskalasi, dan menunggu lagi.

Tanpa alat yang tepat, tantangan tersebut menjadi hambatan utama bagi penggunaan data secara efisien. Data Catalog menyediakan repositori terpusat yang memungkinkan organisasi mencapai hal berikut:

  • Dapatkan tampilan terpadu untuk mengurangi kesulitan saat menelusuri data yang tepat.
  • Dukung pengambilan keputusan berdasarkan data dan percepat waktu insight dengan memperkaya data menggunakan metadata teknis dan bisnis.
  • Tingkatkan pengelolaan data untuk meningkatkan efisiensi dan produktivitas operasional.
  • Ambil kepemilikan atas data untuk meningkatkan kepercayaan dan keyakinan terhadap data tersebut.

Fungsi Data Catalog

Data Catalog menyediakan tiga fungsi utama:

  • Mencari entri data yang Anda miliki aksesnya
  • Memberi tag pada entri data dengan metadata
  • Menyediakan keamanan tingkat kolom untuk tabel BigQuery

Selain itu, Data Catalog dapat dibuat berdasarkan hasil pemindaian Perlindungan Data Sensitif untuk mengidentifikasi data sensitif secara langsung di dalam Data Catalog dalam bentuk template tag.

Cara kerja Data Catalog

Data Catalog dapat membuat katalog metadata aset dari berbagai sistem Google Cloud.

Anda juga dapat menggunakan Data Catalog API untuk berintegrasi dengan sumber data kustom.

Setelah data berada dalam katalog, Anda dapat menambahkan metadata sendiri ke aset ini menggunakan tag.

Data Catalog menemukan metadata dari sumber data Google Cloud, seperti BigQuery, Pub/Sub, Dataproc Metastore, dan Cloud Storage, serta sumber data non-cloud seperti Hive dan Oracle.
Gambar 1. Data Catalog membaca metadata dari layanan Google Cloud dan sumber data kustom.

Metadata Data Catalog

Data Catalog menangani dua jenis metadata: metadata teknis dan metadata bisnis. Untuk mengetahui informasi selengkapnya tentang metadata, lihat Metadata Data Catalog.

Penelusuran dan penemuan

Data Catalog menawarkan pengalaman penelusuran berbasis predikat yang andal untuk metadata teknis dan bisnis yang terkait dengan entri data. Anda harus memiliki izin untuk membaca metadata untuk entri data sehingga Anda dapat menerapkan penelusuran dan penemuan pada metadata. Data Catalog tidak mengindeks data dalam entri data. Data Catalog hanya mengindeks metadata yang mendeskripsikan aset.

Data Catalog mengontrol beberapa metadata seperti tag yang dibuat pengguna. Untuk semua metadata yang bersumber dari sistem penyimpanan pokok, Data Catalog adalah layanan hanya baca yang mencerminkan metadata dan izin yang disediakan oleh sistem penyimpanan pokok. Anda dapat mengedit sistem penyimpanan dasar untuk menambahkan, memperbarui, atau menghapus metadata entri data.

Untuk mengetahui penelusuran Data Catalog lebih lanjut, lihat artikel Menelusuri aset data dengan Data Catalog.

Pembuatan katalog aset secara otomatis

Untuk project tertentu, Data Catalog akan otomatis membuat katalog aset Google Cloud berikut:

  • Set data tertaut Analytics Hub
  • Set data, tabel, model, rutinitas, dan koneksi BigQuery
  • Instance, cluster, dan tabel Bigtable (termasuk detail grup kolom)
  • Danau, zona, tabel, dan kumpulan file dataplex
  • Layanan, database, dan tabel Dataproc Metastore
  • Topik Pub/Sub
  • Instance, database, tabel, dan tampilan Spanner
  • Model Vertex AI, set data, dan resource Vertex AI Feature Store

Selain membuat katalog aset dalam project ID yang akses metadatanya Anda miliki, Data Catalog dapat membuat katalog data yang disimpan dalam project BigQuery yang berisi set data publik.

Membuat katalog aset non-Google Cloud

Untuk membuat katalog metadata dari sistem non-Google Cloud di organisasi, Anda dapat menggunakan hal berikut:

Mengakses Data Catalog

Anda dapat mengakses fungsi Data Catalog menggunakan:

Langkah selanjutnya