Membuat layanan federasi metadata

Halaman ini menjelaskan cara membuat layanan federasi metadata untuk Dataproc Metastore. Layanan federasi memungkinkan Anda mengakses metadata yang disimpan dalam beberapa sumber dari satu endpoint gRPC.

Untuk mengetahui informasi lebih lanjut tentang cara kerja penggabungan dan batasannya, baca Tentang penggabungan metadata.

Sebelum memulai

Peran yang Diperlukan

Untuk mendapatkan izin yang diperlukan untuk membuat layanan federasi dan memasang cluster Dataproc, sesuai dengan prinsip hak istimewa terendah, mintalah administrator untuk memberi Anda peran IAM berikut:

  • Untuk mengakses layanan federasi: Aksesor federasi (roles/metastore.federationAccessor) pada akun pengguna atau akun layanan
  • Untuk memberikan kontrol penuh atas semua resource Dataproc Metastore: Editor Dataproc Metastore (roles/metastore.editor) di akun pengguna atau akun layanan
  • Untuk menyelesaikan operasi metadata pada Dataproc Metastore yang dikonfigurasi dengan layanan federasi: Pemilik Metastore (metastore.metadataEditor) pada akun pengguna atau akun layanan
  • Untuk membuat cluster Dataproc: Dataproc worker (roles/dataproc.worker) di akun layanan VM Dataproc
  • (Opsional) Untuk mengakses set data BigQuery: Gunakan peran bawaan BigQuery yang sesuai dan berlaku untuk kasus penggunaan Anda pada akun pengguna atau akun layanan
  • (Opsional) Untuk mengakses Dataplex Lake (Pratinjau): Gunakan peran Dataplex bawaan yang sesuai dan berlaku untuk kasus penggunaan Anda di akun pengguna atau akun layanan

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses.

Peran yang telah ditetapkan ini berisi izin yang diperlukan untuk membuat layanan federasi dan memasang cluster Dataproc, sesuai prinsip hak istimewa terendah. Untuk melihat izin yang benar-benar diperlukan, perluas bagian Izin yang diperlukan:

Izin yang diperlukan

Izin berikut diperlukan untuk membuat layanan federasi dan melampirkan cluster Dataproc, dengan mengikuti prinsip hak istimewa terendah:

  • Untuk membuat Dataproc Metastore: metastore.services.create pada akun pengguna atau akun layanan
  • Untuk mencantumkan, mendapatkan, membuat, memperbarui, dan menghapus layanan federasi: metastore.federations.create, metastore.federations.update, metastore.federations.delete, metastore.federations.get metastore.federations.list pada akun pengguna atau akun layanan
  • Untuk menyelesaikan operasi metadata pada Dataproc Metastore: metastore.services.get, metastore.services.use, metastore.databases.create, metastore.databases.update, metastore.databases.deletemetastore.databases.get,metastore.databases.list, metastore.databases.getIamPolicy, metastore.tables.create, metastore.tables.update, metastore.tables.delete, metastore.tables.get, metastore.tables.list, metastore.tables.getIamPolicy di akun pengguna atau akun layanan
  • (Opsional) Untuk mengakses set data BigQuery: For more information, see BigQuery permissions pada akun pengguna atau akun layanan
  • (Opsional) Untuk mengakses Dataplex Lake (Pratinjau): For more information, see Dataplex permissions di akun pengguna atau akun layanan

Anda mung juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaanlainnya.

Untuk informasi selengkapnya tentang peran dan izin Dataproc Metastore tertentu, lihat Mengelola akses Dataproc Metastore dengan IAM.

Membuat layanan federasi

Petunjuk berikut menunjukkan cara membuat layanan federasi dan melampirkannya ke sumber. Setelah menyelesaikan langkah-langkah ini, Anda dapat memasang layanan federasi ke cluster Dataproc.

Untuk mempelajari sumber gabungan dan batasannya lebih lanjut, lihat sumber metadata.

Konsol

  1. Di konsol Google Cloud, buka halaman Dataproc Metastore:

    Buka Dataproc Metastore

  2. Di menu navigasi Dataproc, klik Federation.

    Halaman layanan metastore Federated akan terbuka.

  3. Di panel menu metastore Federated, klik Create.

    Halaman Buat layanan federasi akan terbuka.

  4. Di kolom Federation name, masukkan nama unik untuk layanan Anda.

    Untuk mengetahui informasi selengkapnya, lihat Konvensi penamaan resource.

  5. Pilih Lokasi data.

    Pastikan Anda membuat layanan federasi di region yang sama dengan sumber Dataproc Metastore.

  6. Pilih Hive Version.

  7. Untuk menambahkan sumber bagi layanan federasi, klik Tambahkan Sumber.

    Anda dapat menambahkan satu atau beberapa sumber. Sumber pertama yang ditambahkan dalam daftar ini akan otomatis ditetapkan sebagai metastore utama Anda. Anda dapat memperbarui urutan sumber setelah pembuatan.

    1. Untuk Source type, pilih sumber gabungan Anda.

      Anda dapat memilih instance Dataproc Metastore, project yang berisi satu atau beberapa set data BigQuery, atau dataplex lake (Pratinjau).

    2. Di kolom Sumber, masukkan informasi berikut:

      • Untuk layanan Dataproc Metastore.

        1. Di kolom Selected project, klik Browse, lalu pilih project yang berisi Dataproc Metastore yang ingin digunakan sebagai sumber.

          Pastikan sumber Dataproc Metastore Anda menggunakan versi Hive yang kompatibel dengan layanan federasi. Metastore utama Anda harus menggunakan versi Hive yang lebih besar dari atau sama dengan layanan federasi Anda.

        2. Di drop-down Metastore service, pilih Dataproc Metastore yang ingin Anda gunakan sebagai sumber.

      • Untuk BigQuery. Di kolom Selected project, klik Browse, lalu pilih project ID dari project yang berisi Set Data BigQuery.

      • Untuk Dataplex (Pratinjau). Di kolom Selected project, klik Browse, lalu pilih project ID untuk project yang berisi Dataplex Lake.

    3. Klik Done.

  8. Untuk membuat dan memulai layanan, klik Kirim.

    Sekarang Anda dapat menambahkan layanan federasi ke cluster Dataproc.

Memperbarui layanan federasi

Petunjuk berikut menunjukkan cara mengupdate layanan federasi. Anda dapat menyelesaikan tugas-tugas berikut:

  • Menambahkan sumber ke layanan federasi.
  • Menghapus sumber dari layanan federasi.
  • Mengubah urutan sumber dari sumber yang terdapat dalam layanan federasi.
  • Menghapus layanan federasi secara permanen. Setelah Anda menghapus layanan, semua resource-nya akan dirilis.

Konsol

  1. Di konsol Google Cloud, buka halaman Dataproc Metastore:

    Buka Dataproc Metastore

  2. Di menu navigasi Dataproc, klik Federation.

    Halaman layanan metastore Federated akan terbuka.

  3. Di halaman layanan metastore Federated, klik nama layanan yang ingin diperbarui.

    Halaman Detail layanan akan terbuka.

  4. Di panel menu, klik Edit.

    Halaman Edit layanan akan terbuka.

  5. Pilih nilai yang ingin diperbarui.

  6. Untuk memperbarui layanan, klik Kirim.

Memasang cluster Dataproc ke layanan federasi

Petunjuk berikut menunjukkan cara membuat cluster Dataproc dan memasang endpoint layanan federasi sebagai metastore-nya.

Sebelum memulai petunjuk ini, selesaikan semua langkah yang tercantum di bagian Sebelum memulai dan buat layanan gabungan.

gcloud CLI

Untuk membuat cluster Dataproc dan memasang endpoint federasi, jalankan perintah gcloud Dataproc clusters create berikut.

 gcloud dataproc clusters create CLUSTER_NAME \
    --region=LOCATION \
    --project=PROJECT_ID \
    --scopes=https://www.googleapis.com/auth/cloud-platform \
    --image-version=IMAGE_VERSION \
    --service-account=SERVICE_ACCOUNT \
    --optional-components=DOCKER \
    --initialization-actions=gs://metastore-init-actions/metastore-grpc-proxy/metastore-grpc-proxy.sh \
    --metadata="proxy-uri=FEDERATION_URI,hive-version=FEDERATION_VERSION" \
    --properties="hive:hive.metastore.uris=thrift://localhost:9083,hive:hive.metastore.warehouse.dir=WAREHOUSE_DIR"

Ganti kode berikut:

  • CLUSTER_NAME: nama cluster Dataproc baru Anda.
  • PROJECT_ID: ID project Google Cloud dari project tempat Anda membuat cluster Dataproc.
  • LOCATION: region cluster Dataproc Anda.
  • IMAGE_VERSION: versi image Dataproc yang ingin Anda gunakan.

    Pastikan image Dataproc yang Anda gunakan dalam perintah ini kompatibel dengan versi Hive yang digunakan dengan layanan federasi Anda. Untuk mengetahui informasi selengkapnya, lihat daftar versi image Dataproc.

  • SERVICE_ACCOUNT opsional: akun layanan yang Anda gunakan untuk membuat cluster Dataproc. Jika tidak ditentukan, cluster akan menggunakan akun layanan Compute Engine default Anda.

  • FEDERATION_URI: URI endpoint layanan gabungan Anda.

  • FEDERATION_VERSION: versi Hive yang digunakan layanan gabungan Anda.

  • WAREHOUSE_DIR: direktori warehouse Dataproc Metastore utama Anda.

Langkah selanjutnya