Tentang Gabungan metadata

Federasi metadata adalah layanan yang memungkinkan Anda mengakses beberapa sumber metadata dari satu endpoint.

Untuk menyiapkan penggabungan, buat layanan federasi, lalu konfigurasikan sumber metadata. Setelah itu, layanan ini menampilkan satu endpoint gRPC yang dapat Anda gunakan untuk mengakses semua metadata.

Misalnya, dengan menggunakan federasi, Anda dapat membuat cluster Dataproc yang mengekspos beberapa layanan Dataproc Metastore melalui satu endpoint. Setelah itu, Anda dapat menjalankan tugas big data melalui mesin software (OSS) open source, seperti Spark atau Hive, untuk mengakses metadata di beberapa metastore.

Cara kerja penggabungan

Workload big data OSS yang berjalan di Spark atau Hive mengirim permintaan ke Hive Metastore API untuk mengambil metadata saat runtime.

  • Antarmuka Metastore Hive mendukung metode baca dan tulis. Layanan federasi menampilkan versi gRPC dari antarmuka Hive Metastore.
  • Saat runtime, saat layanan gabungan menerima permintaan, layanan tersebut akan memeriksa pengurutan sumber untuk mengambil metadata yang sesuai.

Sumber metadata

Saat membuat layanan gabungan, Anda harus menambahkan sumber metadata. Anda dapat menggunakan sumber berikut sebagai metastore backend:

  • Instance Metastore Dataproc.
  • Project yang berisi satu atau beberapa set data BigQuery.
  • Dataplex Lake (Pratinjau).

Batasan sumber

Bagian berikut mencantumkan batasan yang harus Anda patuhi saat menggunakan berbagai sumber metadata.

Semua sumber

Batasan berikut berlaku untuk semua sumber metadata:

  • Layanan federasi tidak berisi datanya sendiri. Sebagai gantinya, layanan federasi hanya menayangkan metadata dari salah satu sumber metadatanya.
  • Layanan federasi tidak dapat menjadi sumber metadata di layanan federasi lainnya.

Dataproc Metastore

Jika Anda menggunakan Dataproc Metastore sebagai sumber, pembatasan berikut berlaku:

  • Layanan federasi hanya tersedia melalui endpoint gRPC. Untuk menggunakan Metastore Dataproc dengan federasi, buat metastore Anda dengan endpoint gRPC.
  • Layanan Federation hanya dapat dihubungkan ke satu layanan Metastore Dataproc. Layanan federasi tidak mendukung layanan Metastore Dataproc multi-region.

BigQuery

Jika menggunakan project yang berisi set data BigQuery sebagai sumber, Anda harus memenuhi kondisi berikut:

  • Berikan peran IAM yang benar untuk mengakses project yang berisi set data BigQuery.
  • Tambahkan minimal satu layanan Dataproc Metastore sebagai sumber, bersama dengan set data BigQuery Anda.

Danau Dataplex

  • Berikan peran IAM yang berisi izin dataplex.lakes.get.
  • Tambahkan setidaknya satu layanan Dataproc Metastore sebagai sumber, bersama dengan Dataplex Lake Anda.

Penyusunan sumber

Layanan gabungan Anda memproses permintaan metadata dalam urutan prioritas. Konsep ini dikenal sebagai pengurutan sumber. Saat runtime, saat layanan gabungan menerima permintaan, layanan tersebut akan memeriksa pengurutan sumber dan menyelesaikan salah satu tindakan berikut:

  • Jika permintaan berisi nama database. Permintaan diarahkan ke metastore backend yang berisi nama database. Jika lebih dari satu metastore berisi nama database yang sama, permintaan akan dialihkan ke metastore dengan peringkat terendah.
  • Jika permintaan membuat atau melepas database. Permintaan diarahkan ke metastore dengan peringkat terendah.
  • Jika permintaan tidak berisi nama database dan tidak membuat atau menghapus database. Permintaan diarahkan ke instance Metastore Dataproc dengan peringkat terendah. Beberapa contoh permintaan Hive Metastore yang tidak menentukan database adalah set_ugi dan create_database.
  • Jika tidak ada metastore yang berisi database. Mesin OSS merespons dengan respon yang setara dengan {i>not-found error<i}.

Langkah selanjutnya