Menyinkronkan Metastore Dataproc ke Data Catalog

Dokumen ini menunjukkan cara menyinkronkan metadata Dataproc Metastore dengan Data Catalog.

Setelah menyinkronkan kedua layanan ini bersama-sama, Anda dapat menggunakan Data Catalog untuk mengelola metadata Metastore Dataproc. Misalnya, dengan menggunakan Data Catalog, Anda dapat memberi tag dan menelusuri resource Dataproc Metastore tertentu, seperti database dan tabel.

Apa itu Data Catalog

Data Catalog adalah layanan pengelolaan metadata yang skalabel dan terkelola sepenuhnya. Solusi ini menyediakan tampilan terpadu dan mekanisme pemberian tag untuk metadata teknis dan bisnis.

Untuk informasi selengkapnya, lihat panduan fitur Data Catalog berikut:

Sebelum memulai

Peran yang diperlukan

Untuk mendapatkan izin yang Anda perlukan untuk menyinkronkan metadata Metastore Dataproc dengan Data Catalog, minta administrator Anda untuk memberi Anda peran IAM Melihat entri Metastore Dataproc yang disinkronkan di Data Catalog (roles/metastore.metadataViewer) pada project Anda, berdasarkan prinsip hak istimewa terendah. Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses.

Peran yang telah ditentukan ini berisi izin yang diperlukan untuk menyinkronkan metadata Dataproc Metastore dengan Data Catalog. Untuk melihat izin yang benar-benar diperlukan, perluas bagian Izin yang diperlukan:

Izin yang diperlukan

Izin berikut diperlukan untuk menyinkronkan metadata Dataproc Metastore dengan Data Catalog:

  • Untuk mendapatkan database Metastore Dataproc: metastore.databases.get
  • Untuk menampilkan daftar database Metastore Dataproc: metastore.databases.list
  • Untuk mendapatkan tabel Metastore Dataproc: metastore.tables.get
  • Untuk mencantumkan tabel Metastore Dataproc: metastore.tables.list

Anda mung juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaanlainnya.

Untuk informasi selengkapnya tentang peran dan izin Dataproc Metastore tertentu, lihat Mengelola akses dengan IAM.

Cara kerja izin di antara layanan

Data Catalog mematuhi izin level Dataproc Metastore. Untuk metadata yang disinkronkan dari Dataproc Metastore ke Data Catalog, izin IAM yang ditentukan dalam Metastore Dataproc juga berlaku untuk metadata di Data Catalog.

Data Catalog memeriksa izin untuk setiap database dan tabel metastore pada saat akses sehingga hanya pengguna yang memiliki akses ke layanan Metastore Dataproc yang dapat melihat resource layanan yang disinkronkan sebagai entri dalam Data Catalog.

Cara kerja sinkronisasi Data Catalog dengan Dataproc Metastore

Anda dapat mengaktifkan Metastore Dataproc ke sinkronisasi Data Catalog saat membuat atau memperbarui layanan Metastore Dataproc menggunakan Konsol Google Cloud. Anda dapat menonaktifkan sinkronisasi dengan cara yang sama.

Setelah mengaktifkan sinkronisasi Data Catalog, metadata database dan tabel akan otomatis disinkronkan dari Metastore Dataproc ke Data Catalog.

Data Catalog menyinkronkan metadata berikut:

  • Instance.
  • Database, termasuk nama dan deskripsi.
  • Tabel, termasuk nama, deskripsi, dan skema (kolom dengan deskripsi).

Tabel berikut menunjukkan pemetaan resource antara Dataproc Metastore dan Data Catalog:

Resource Metastore Dataproc Referensi Data Catalog
Instance Grup entri
Entri
Database Entri
Tabel Entri
Kolom Skema

Pertimbangan

  • Butuh waktu hingga 6 jam sebelum metadata Metastore Dataproc Anda disinkronkan sepenuhnya dengan Data Catalog. Setelah sinkronisasi awal selesai, perubahan inkremental akan disinkronkan sesuai permintaan (seperti update tabel atau database). Jika sinkronisasi on demand gagal, sinkronisasi akan dimasukkan dalam batch yang dijalankan ulang setiap 6 jam.

  • Jika Anda menduga ada masalah dengan sinkronisasi, periksa log publikasi metadata di Dataproc Metastore Cloud Logging dengan filter textPayload=~".*Publish.*". Untuk informasi selengkapnya tentang mengakses log, lihat Mengakses log tugas di Logging.

  • Jika Anda menonaktifkan sinkronisasi Data Catalog, metadata Anda akan berhenti disinkronkan dari Dataproc Metastore ke Data Catalog. Namun, metadata yang telah disinkronkan akan tetap ada di Data Catalog.

  • Jika Anda menghapus instance Dataproc Metastore, instance, database, dan entri tabel yang terkait juga akan dihapus dari Data Catalog.

  • Metadata Metastore Dataproc yang disimpan di Data Catalog mematuhi periode retensi data Google Cloud standar.

  • Mengaktifkan sinkronisasi Data Catalog untuk Dataproc Metastore tidak dikenai biaya tambahan.

Membuat layanan dengan sinkronisasi Data Catalog yang diaktifkan

Sinkronisasi Data Catalog dinonaktifkan secara default.

Untuk mengaktifkan sinkronisasi Data Catalog untuk layanan baru, gunakan petunjuk berikut.

Konsol

  1. Di konsol Google Cloud, buka halaman Metastore Dataproc:

    Buka Metastore Dataproc

  2. Di bagian atas halaman Metastore Dataproc, klik Create.

    Halaman Create service akan terbuka.

  3. Pilih versi Dataproc Metastore yang ingin Anda gunakan.

  4. Di bagian Integrasi metadata, klik Sinkronisasi Data Catalog.

  5. Untuk opsi konfigurasi layanan lainnya, gunakan setelan default yang disediakan. Atau Konfigurasikan layanan Anda sesuai kebutuhan.

  6. Klik Submit.

Mengaktifkan atau menonaktifkan sinkronisasi Data Catalog untuk layanan yang ada

Guna mengaktifkan atau menonaktifkan sinkronisasi Data Catalog untuk layanan yang ada, gunakan petunjuk berikut.

Konsol

  1. Di konsol Google Cloud, buka halaman Metastore Dataproc:

    Buka Metastore Dataproc

  2. Di halaman Dataproc Metastore, klik layanan yang ingin Anda perbarui.

    Halaman Detail layanan untuk layanan tersebut akan terbuka.

  3. Di tab Konfigurasi, klik Edit.

    Halaman Edit layanan akan terbuka.

  4. Di bagian Metadata integration, aktifkan atau nonaktifkan Sinkronisasi Data Catalog.

  5. Klik Submit.

Menelusuri dengan Data Catalog

Anda dapat menelusuri metadata Metastore Dataproc yang disinkronkan menggunakan Data Catalog.

Meskipun tidak ada opsi penelusuran khusus untuk Dataproc Metastore, ada beberapa cara untuk menelusuri berbagai resource Dataproc Metastore, termasuk yang berikut:

  • Instance Metastore Dataproc
    • Menurut nama tampilan
    • Fungsi Data Catalog standar — misalnya, dengan menggunakan tag.
  • Database
    • Menurut nama tampilan
    • Menurut deskripsi
    • Dengan instance Dataproc Metastore
    • Fungsi Data Catalog standar — misalnya, dengan menggunakan tag.
  • Tabel
    • Menurut nama tampilan
    • Menurut deskripsi
    • Menurut nama kolom
    • Menurut deskripsi kolom
    • Menurut database
    • Dengan instance Dataproc Metastore
    • Fungsi Data Catalog standar — misalnya, dengan menggunakan tag.

Langkah selanjutnya