Membuat layanan federasi metadata

Halaman ini menjelaskan cara membuat layanan federasi metadata untuk Dataproc Metastore. Layanan federasi memungkinkan Anda mengakses metadata yang disimpan di beberapa sumber dari satu endpoint gRPC.

Untuk mengetahui informasi selengkapnya tentang cara kerja federasi dan batasannya, lihat Tentang federasi metadata.

Sebelum memulai

Peran yang Diperlukan

Untuk mendapatkan izin yang Anda perlukan guna membuat layanan federasi dan melampirkan cluster Dataproc, dengan mengikuti prinsip hak istimewa minimum, minta administrator untuk memberi Anda peran IAM berikut:

  • Untuk mengakses layanan federasi: Federation accessor (roles/metastore.federationAccessor) di akun pengguna atau akun layanan
  • Untuk memberikan kontrol penuh atas semua resource Dataproc Metastore: Dataproc Metastore editor (roles/metastore.editor) di akun pengguna atau akun layanan
  • Untuk menyelesaikan operasi metadata di Dataproc Metastore yang dikonfigurasi dengan layanan federasi: Pemilik metastore (metastore.metadataEditor) di akun pengguna atau akun layanan
  • Untuk membuat cluster Dataproc: Dataproc worker (roles/dataproc.worker) di akun layanan VM Dataproc
  • (Opsional) Untuk mengakses set data BigQuery: Gunakan peran standar BigQuery yang sesuai untuk kasus penggunaan Anda di akun pengguna atau akun layanan
  • (Opsional) Untuk mengakses Data Lake Dataplex (Pratinjau): Gunakan peran standar Dataplex yang sesuai untuk kasus penggunaan Anda di akun pengguna atau akun layanan

Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.

Peran bawaan ini berisi izin yang diperlukan untuk membuat layanan federasi dan melampirkan cluster Dataproc, dengan mengikuti prinsip hak istimewa terendah. Untuk melihat izin yang benar-benar diperlukan, luaskan bagian Izin yang diperlukan:

Izin yang diperlukan

Izin berikut diperlukan untuk membuat layanan federasi dan melampirkan cluster Dataproc, dengan mengikuti prinsip hak istimewa terendah:

  • Untuk membuat Dataproc Metastore: metastore.services.create di akun pengguna atau akun layanan
  • Untuk mencantumkan, mendapatkan, membuat, memperbarui, dan menghapus layanan federasi: metastore.federations.create, metastore.federations.update, metastore.federations.delete, metastore.federations.get metastore.federations.list di akun pengguna atau akun layanan
  • Untuk menyelesaikan operasi metadata di Dataproc Metastore: metastore.services.get, metastore.services.use, metastore.databases.create, metastore.databases.update, metastore.databases.deletemetastore.databases.get,metastore.databases.list, metastore.databases.getIamPolicy, metastore.tables.create, metastore.tables.update, metastore.tables.delete, metastore.tables.get, metastore.tables.list, metastore.tables.getIamPolicy di akun pengguna atau akun layanan
  • (Opsional) Untuk mengakses set data BigQuery: For more information, see BigQuery permissions di akun pengguna atau akun layanan
  • (Opsional) Untuk mengakses Dataplex Lakes (Pratinjau): For more information, see Dataplex permissions di akun pengguna atau akun layanan

Anda mungkin juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaan lainnya.

Untuk mengetahui informasi selengkapnya tentang peran dan izin Dataproc Metastore tertentu, lihat Mengelola akses Dataproc Metastore dengan IAM.

Membuat layanan federasi

Petunjuk berikut menunjukkan cara membuat layanan federasi dan melampirkannya ke sumber. Setelah menyelesaikan langkah-langkah ini, Anda dapat melampirkan layanan federasi ke cluster Dataproc.

Untuk mempelajari lebih lanjut sumber federasi dan batasannya, lihat sumber metadata.

Konsol

  1. Di konsol Google Cloud, buka halaman Dataproc Metastore:

    Membuka Dataproc Metastore

  2. Di menu navigasi Dataproc, klik Federation.

    Halaman layanan metastore Federated akan terbuka.

  3. Di panel menu metastore Federated, klik Create.

    Halaman Buat layanan federasi akan terbuka.

  4. Di kolom Nama federasi, masukkan nama unik untuk layanan Anda.

    Untuk informasi selengkapnya, lihat Konvensi penamaan resource.

  5. Pilih Data location.

    Pastikan Anda membuat layanan federasi di region yang sama dengan sumber Dataproc Metastore.

  6. Pilih Versi Hive.

  7. Untuk menambahkan sumber bagi layanan federasi Anda, klik Tambahkan Sumber.

    Anda dapat menambahkan satu atau beberapa sumber. Sumber pertama yang Anda tambahkan dalam daftar ini akan otomatis ditetapkan sebagai metastore utama. Anda dapat memperbarui urutan sumber setelah pembuatan.

    1. Untuk Source type, pilih sumber federasi Anda.

      Anda dapat memilih instance Metastore Dataproc, project yang berisi satu atau beberapa set data BigQuery, atau data lake Dataplex (Pratinjau).

    2. Di kolom Sumber, masukkan informasi berikut:

      • Untuk layanan Dataproc Metastore.

        1. Di kolom Selected project, klik Browse, lalu pilih project yang berisi Dataproc Metastore yang ingin Anda gunakan sebagai sumber.

          Pastikan sumber Dataproc Metastore Anda menggunakan versi Hive yang kompatibel dengan layanan federasi Anda. Metastore utama Anda harus menggunakan versi Hive yang lebih besar dari atau sama dengan layanan federasi Anda.

        2. Di menu dropdown Layanan metastore, pilih Dataproc Metastore yang ingin Anda gunakan sebagai sumber.

      • Untuk BigQuery. Di kolom Selected project, klik Browse, lalu pilih ID project dari project yang berisi Set Data BigQuery.

      • Untuk Dataplex (Pratinjau). Di kolom Selected project, klik Browse, lalu pilih project ID project yang berisi Dataplex Lake.

    3. Klik Done.

  8. Untuk membuat dan memulai layanan, klik Kirim.

    Sekarang Anda dapat melampirkan layanan federasi ke cluster Dataproc.

Mengupdate layanan federasi

Petunjuk berikut menunjukkan cara memperbarui layanan federasi. Anda dapat menyelesaikan tugas berikut:

  • Menambahkan sumber ke layanan federasi.
  • Menghapus sumber dari layanan federasi.
  • Mengubah urutan sumber dari sumber yang terdapat dalam layanan federasi.
  • Menghapus layanan federasi secara permanen. Setelah Anda menghapus layanan, semua resource-nya akan dirilis.

Konsol

  1. Di konsol Google Cloud, buka halaman Dataproc Metastore:

    Membuka Dataproc Metastore

  2. Di menu navigasi Dataproc, klik Federation.

    Halaman layanan metastore Federated akan terbuka.

  3. Di halaman layanan metastore Federated, klik nama nama layanan yang ingin Anda perbarui.

    Halaman Detail layanan akan terbuka.

  4. Di panel menu, klik Edit.

    Halaman Edit layanan akan terbuka.

  5. Pilih nilai yang ingin Anda perbarui.

  6. Untuk memperbarui layanan, klik Kirim.

Melampirkan cluster Dataproc ke layanan federasi

Petunjuk berikut menunjukkan cara membuat cluster Dataproc dan melampirkan endpoint layanan federasi sebagai metastore-nya.

Sebelum memulai petunjuk ini, selesaikan semua langkah yang tercantum di Sebelum Anda memulai dan buat layanan federasi.

gcloud CLI

Untuk membuat cluster Dataproc dan melampirkan endpoint federasi, jalankan perintah gcloud Dataproc clusters create berikut.

 gcloud dataproc clusters create CLUSTER_NAME \
    --region=LOCATION \
    --project=PROJECT_ID \
    --scopes=https://www.googleapis.com/auth/cloud-platform \
    --image-version=IMAGE_VERSION \
    --service-account=SERVICE_ACCOUNT \
    --optional-components=DOCKER \
    --initialization-actions=gs://metastore-init-actions/metastore-grpc-proxy/metastore-grpc-proxy.sh \
    --metadata="proxy-uri=FEDERATION_URI,hive-version=FEDERATION_VERSION" \
    --properties="hive:hive.metastore.uris=thrift://localhost:9083,hive:hive.metastore.warehouse.dir=WAREHOUSE_DIR"

Ganti kode berikut:

  • CLUSTER_NAME: nama cluster Dataproc baru Anda.
  • PROJECT_ID: Google Cloud project ID project tempat Anda membuat cluster Dataproc.
  • LOCATION: region cluster Dataproc Anda.
  • IMAGE_VERSION: versi image Dataproc yang ingin Anda gunakan.

    Pastikan image Dataproc yang Anda gunakan dalam perintah ini kompatibel dengan versi Hive yang digunakan dengan layanan federasi Anda. Untuk informasi selengkapnya, lihat Daftar versi image Dataproc.

  • SERVICE_ACCOUNT opsional: akun layanan yang Anda gunakan untuk membuat cluster Dataproc. Jika tidak ditentukan, cluster akan menggunakan akun layanan Compute Engine default Anda.

  • FEDERATION_URI: URI endpoint layanan federasi Anda.

  • FEDERATION_VERSION: versi Hive yang digunakan oleh layanan federasi Anda.

  • WAREHOUSE_DIR: direktori warehouse Metastore Dataproc utama Anda.

Langkah selanjutnya