Ringkasan Katalog Dataplex

Dokumen ini menjelaskan Dataplex Catalog, yang menyediakan platform untuk menyimpan, mengelola, dan mengakses metadata Anda.

Katalog Dataplex menyediakan inventaris terpadu dari resource Google Cloud, seperti BigQuery, dan resource lainnya, seperti resource on-premise. Katalog Dataplex secara otomatis mengambil metadata untuk resource Google Cloud, dan Anda memasukkan metadata untuk resource pihak ketiga ke dalam Katalog Dataplex.

Dataplex Catalog memungkinkan Anda memperkaya inventaris dengan metadata teknis dan bisnis tambahan untuk menangkap konteks dan pengetahuan tentang resource Anda. Dengan Dataplex Catalog, Anda dapat menelusuri dan menemukan data di seluruh organisasi serta mengaktifkan tata kelola data atas aset data Anda.

Anda dapat menetapkan pengalaman katalog default ke Katalog Dataplex. Jika menggunakan Data Catalog, Anda dapat mentransisikan konten dan penggunaan Data Catalog ke Katalog Dataplex. Untuk mengetahui informasi selengkapnya, lihat bertransisi dari Data Catalog ke Katalog Dataplex.

Kasus penggunaan

Anda dapat menggunakan Katalog Dataplex untuk melakukan hal berikut:

  • Menemukan dan memahami data Anda. Katalog Dataplex memberikan visibilitas atas resource data Anda di seluruh organisasi. Dengan begitu, Anda dapat menemukan resource yang relevan untuk kebutuhan konsumsi data. Model ini memberikan konteks untuk resource data, yang membantu Anda memahami kesesuaian resource data untuk kebutuhan konsumen data Anda.

  • Mengaktifkan tata kelola data dan pengelolaan data. Katalog Dataplex menyediakan metadata yang dapat menginformasikan dan mendukung kemampuan pengelolaan data dan tata kelola data Anda.

  • Pertahankan repositori yang dapat diperluas dan komprehensif untuk metadata Anda. Dataplex Catalog menyimpan dan memberikan akses ke metadata yang diambil secara otomatis dari resource Google Cloud Anda. Anda dapat mengintegrasikan metadata Anda sendiri dari sistem non-Google Cloud. Anda dapat memperkaya semua metadata dengan anotasi metadata bisnis dan teknis tambahan.

Cara kerja Katalog Dataplex

Katalog Dataplex didasarkan pada konsep berikut:

  • Entri: Entri mewakili aset data. Sebagian besar metadata dijelaskan oleh aspek dalam entri. Hal ini mirip dengan entri di Data Catalog. Untuk mengetahui informasi selengkapnya, lihat Entri.

  • Aspek: Aspek adalah kumpulan kolom metadata terkait dalam entri. Aspek dapat ditafsirkan sebagai elemen penyusun entri atau metadata tambahan untuk entri tersebut. Hal ini mirip dengan tag di Data Catalog, tetapi aspek disimpan dalam entri, bukan sebagai resource mandiri. Untuk mengetahui informasi selengkapnya, lihat Aspek.

  • Jenis aspek: Jenis aspek adalah template yang dapat digunakan kembali untuk aspek. Setiap aspek adalah instance dari jenis aspek. Hal ini mirip dengan template tag di Data Catalog. Untuk mengetahui informasi selengkapnya, lihat Jenis aspek.

  • Grup entri: Grup entri adalah penampung untuk entri yang berfungsi sebagai unit pengelolaan untuk entri ini. Misalnya, gunakan grup entri untuk mengonfigurasi kontrol akses Identity and Access Management, atribusi project, atau lokasi untuk entri dalam grup entri. Hal ini mirip dengan grup entri di Data Catalog. Untuk mengetahui informasi selengkapnya, lihat Grup entri.

  • Jenis entri: Jenis entri adalah template untuk membuat entri. Ini menetapkan elemen metadata penting, yang diuraikan sebagai daftar aspek yang diperlukan untuk entri jenis ini. Untuk informasi selengkapnya, lihat Jenis entri.

    Entri dan grup entri
    Gambar 1. Entri dan grup entri
    Jenis aspek dan jenis entri
    Gambar 2. Jenis aspek dan jenis entri

Berikut adalah beberapa kasus penggunaan untuk Katalog Dataplex:

  • Sebagai analis data atau analis bisnis, Anda dapat menelusuri entri di seluruh organisasi dan menjelajahi metadata yang terkait dengan entri tersebut. Untuk mengetahui informasi selengkapnya, lihat Menelusuri aset data.
  • Sebagai pemilik data atau pengontrol data, Anda dapat mengambil metadata teknis dan bisnis tambahan dengan menganotasi entri dengan aspek. Untuk mengetahui informasi selengkapnya, lihat Mengelola aspek dan memperkaya metadata.
  • Sebagai pemilik data atau pengontrol data, Anda dapat memberikan konsistensi pada metadata dengan menentukan standar untuk anotasi (menggunakan jenis aspek) dan entri kustom (menggunakan jenis entri). Untuk mengetahui informasi selengkapnya, lihat Mengelola aspek dan memperkaya metadata.
  • Sebagai engineer data, Anda dapat memiliki inventaris terpadu untuk resource, termasuk resource Google Cloud dan resource dari sistem pihak ketiga. Resource Google Cloud secara otomatis dikumpulkan oleh Dataplex Catalog, dan resource non-Google Cloud dikumpulkan oleh Anda. Untuk mengetahui informasi selengkapnya, lihat Mengelola entri dan menyerap sumber kustom.

Untuk pengguna Data Catalog yang sudah ada

Jika Anda sudah menggunakan Katalog Data, perhatikan hal berikut:

  • Entri kustom, konteks ringkasan, dan grup entri yang Anda buat di Data Catalog tersedia di Katalog Dataplex.
  • Sebagai administrator, Anda dapat memilih untuk membuat konten template tag dan tag Data Catalog tersedia secara bersamaan di Katalog Dataplex. Untuk mengetahui informasi selengkapnya, lihat Transisi dari Data Catalog ke Katalog Dataplex.
  • Saat Anda menelusuri aset data di Katalog Dataplex, metadata yang dibuat di Katalog Dataplex secara langsung dan metadata yang ditransfer dari Data Catalog ke Katalog Dataplex akan disertakan.
  • Saat Anda menelusuri aset data di Data Catalog, hanya metadata yang dibuat di Data Catalog yang disertakan.
  • Deskripsi grup entri di Data Catalog yang melebihi 1.024 karakter akan dipotong menjadi 1.024 karakter di Katalog Dataplex.

Jika Anda ingin mentransisikan konten dan penggunaan Data Catalog ke Dataplex Catalog, lihat bertransisi dari Data Catalog ke Dataplex Catalog.

Katalog Dataplex versus Data Catalog

Dataplex Catalog menyediakan kemampuan untuk mengelola metadata Anda di Dataplex. Dataplex Analytics dilengkapi dengan penyimpanan metadata terpisah dan kumpulan metode API baru yang terintegrasi ke dalam Dataplex API.

Fitur utama Katalog Dataplex mencakup hal berikut:

  • Metamodel yang lebih andal

    • Entri yang diketik. Anda dapat menerapkan standar metadata minimal dengan menentukan konten metadata yang diperlukan untuk entri kustom
    • Metamodel yang dapat dikonfigurasi pengguna untuk entri kustom, yang membantu membuat penyerapan kustom lebih andal dan meningkatkan konsistensi dan komprehensifitas metadata kustom.
    • Dukungan untuk metadata yang lebih beragam dan kompleks, termasuk dukungan untuk struktur bertingkat seperti daftar, peta, dan array.
  • Skalabilitas yang lebih baik, termasuk kemampuan untuk berinteraksi dengan semua metadata yang dikaitkan dengan entri melalui satu operasi CRUD atomik dan kemampuan untuk mengambil beberapa anotasi metadata yang terkait dalam respons penelusuran atau daftar.

Tabel berikut membandingkan fitur Katalog Dataplex dan Katalog Data:

Perbandingan antara Katalog Dataplex dan Data Catalog
Fitur Katalog Dataplex Data Catalog
Sumber Google Cloud yang didukung Semua sumber seperti yang dijelaskan di bagian Sumber Google Cloud yang didukung dalam dokumen ini. Semua sumber yang dijelaskan di Entri dan grup entri.
Proses transfer sumber kustom

Proses transfer ke entri kustom dengan struktur yang diatur, yang ditentukan oleh jenis entri.

Entri kustom dan grup entri Data Catalog tersedia di Katalog Dataplex pada jenis entri generic.

Proses transfer ke entri kustom generik.
Pengayaan metadata Konteks metadata untuk entri diambil menggunakan aspek dan jenis aspek. Konteks metadata untuk entri diambil menggunakan tag dan template tag.
Telusuri Penelusuran dilakukan pada hal berikut:
  • Semua sumber Google Cloud yang dijelaskan dalam Sumber Google Cloud yang didukung
  • Entri kustom yang dibuat di Katalog Dataplex
  • Aspek yang dibuat di Katalog Dataplex
  • Entri kustom yang dibuat di Data Catalog dan dimasukkan ke Katalog Dataplex

Hasil penelusuran hanya mencakup resource yang termasuk dalam perimeter VPC-SC yang sama dengan project tempat penelusuran dilakukan. Saat menggunakan konsol Google Cloud, ini adalah project yang dipilih di konsol.

Perhatikan bahwa, untuk menelusuri entri, Anda memerlukan setidaknya salah satu peran IAM Katalog Dataplex di project yang digunakan untuk penelusuran. Izin pada hasil penelusuran diperiksa secara terpisah dari project yang dipilih.

Penelusuran dilakukan pada hal berikut:
  • Semua sumber Google Cloud yang dijelaskan dalam Entri dan grup entri
  • Entri kustom yang dibuat di Data Catalog
  • Tag yang dibuat di Data Catalog

Tabel berikut menjelaskan cara resource Katalog Dataplex sesuai dengan resource Data Catalog:

Pemetaan antara Katalog Dataplex dan resource Data Catalog
Resource Katalog Dataplex Referensi Data Catalog Deskripsi
Jenis aspek (global) Template tag publik Template tag adalah resource regional. Namun, Anda dapat menggunakannya untuk membuat tag di seluruh region. Template tag sesuai dengan jenis aspek global di Katalog Dataplex.
Aspek opsional Tag publik Tag publik di Data Catalog sesuai dengan aspek opsional di Katalog Dataplex.
Grup entri Grup entri Untuk sumber Google Cloud, grup entri sistem seperti @bigquery dibuat per project di Katalog Dataplex.
Aspek yang diperlukan entri kustom Entri kustom

Data Catalog dan Dataplex Catalog memiliki konsep serupa untuk entri kustom.

Properti entri standar dimodelkan sebagai aspek yang diperlukan di Katalog Dataplex.

Aspek yang diperlukan entri sistem Entri sistem (Google Cloud) Metadata yang menjelaskan entitas bawaan, seperti Schema untuk tabel BigQuery, diambil dalam aspek yang diperlukan dari jenis aspek yang ditentukan sistem.

Untuk informasi selengkapnya tentang fitur yang tersedia di Data Catalog dan tidak didukung di Dataplex Catalog, lihat bagian Fitur yang tidak didukung di Dataplex Catalog dalam dokumen ini.

Sumber yang didukung

Metadata dari sumber Google Cloud berikut akan otomatis ditransfer ke Dataplex Catalog:

  • Pertukaran dan listingan Analytics Hub
  • Set data, tabel, model, rutinitas, koneksi, dan set data tertaut BigQuery
  • Instance, cluster, dan tabel Bigtable (termasuk detail grup kolom)
  • Instance, database, skema, tabel, tampilan Cloud SQL—lihat Mengaktifkan Integrasi Cloud SQL
  • Layanan, database, dan tabel Dataproc Metastore
  • Topik Pub/Sub
  • Instance, database, tabel, dan tampilan Spanner
  • Model, set data, grup fitur, tampilan fitur, dan instance penyimpanan online Vertex AI

Untuk mengimpor metadata dari sumber pihak ketiga ke Dataplex Catalog, Anda dapat menggunakan pipeline konektivitas terkelola.

Batasan project dan lokasi

Resource Katalog Dataplex ditempatkan dalam berbagai project dan lokasi. Batasan berikut berlaku:

  • Lokasi:

    • Lokasi entri harus cocok dengan lokasi jenis entri, atau jenis entri harus global.
    • Aspek yang ditambahkan ke entri harus didasarkan pada jenis aspek yang disimpan di lokasi yang sama dengan entri atau jenis aspek harus global.
    • Jenis entri harus terdiri dari jenis aspek yang disimpan di lokasi yang sama dengan jenis entri.
  • Project:

    • Jika jenis entri mereferensikan jenis aspek kustom, jenis aspek harus berada di lokasi dan project yang sama dengan jenis entri.

Fitur yang tidak didukung di Katalog Dataplex

Fitur berikut yang tersedia di Data Catalog tidak didukung di Katalog Dataplex:

  • Konsep aspek pribadi dan jenis aspek tidak didukung di Katalog Dataplex. Akses ke aspek diatur oleh izin yang terkait dengan entri yang berisi aspek. Untuk mengetahui informasi selengkapnya, lihat Peran IAM Dataplex.
  • Penelusuran tag kebijakan tidak didukung dalam penelusuran Dataplex Catalog; akibatnya, predikat policytag dan policytagid tidak berfungsi dalam penelusuran Dataplex Catalog.
  • Untuk entri kustom Data Catalog yang dimasukkan ke dalam Katalog Dataplex, izin IAM yang ada untuk metadata Anda saat ini tidak otomatis diterapkan ke metadata yang disalin. Anda harus mengonfigurasi izin IAM secara eksplisit untuk metadata yang disalin sebelum menggunakannya.
  • Mengirim hasil tugas Sensitive Data Protection ke Dataplex Catalog tidak didukung.
  • Anda tidak dapat mencantumkan jenis entri dan jenis aspek di seluruh project menggunakan API. Anda dapat membatasi permintaan daftar hanya ke project.
  • Anda tidak dapat melampirkan istilah glosarium bisnis ke kolom entri Dataplex.
  • Anda tidak dapat mengubah daftar jenis aspek yang diperlukan dalam jenis entri setelah membuat jenis entri.
  • Untuk entri yang dibuat langsung di Katalog Dataplex, lineage data akan menampilkan peristiwa lineage di konsol Google Cloud, tetapi tidak menampilkan informasi mendetail tentang sumber, target, atau proses. Selain itu, garis keturunan data tidak menampilkan aspek untuk entri apa pun di konsol Google Cloud.

Harga

Dataplex menggunakan SKU penyimpanan metadata untuk menagih penyimpanan metadata. Untuk mengetahui informasi selengkapnya, lihat Harga Dataplex.

Penggunaan berikut tidak dikenai biaya:

  • Membuat dan mengelola resource Katalog Dataplex
  • Panggilan Search API untuk Katalog Dataplex
  • Kueri penelusuran yang dilakukan di halaman Katalog Dataplex di konsol Google Cloud

Langkah selanjutnya