Men-deploy layanan Dataproc Metastore

Halaman ini menunjukkan cara membuat layanan Dataproc Metastore dan menghubungkannya dari cluster Dataproc. Setelah itu, terapkan SSH ke cluster tersebut, luncurkan instance Apache Hive, dan jalankan beberapa kueri dasar.

Dataproc Metastore memberi Anda Hive Metastore (HMS) yang sepenuhnya kompatibel, yang merupakan standar yang sudah ditetapkan dalam ekosistem big data open source untuk mengelola metadata teknis. Layanan ini membantu Anda mengelola metadata data lake dan memberikan interoperabilitas antara berbagai alat pemrosesan data yang Anda gunakan.


Jika ingin mengikuti panduan langkah demi langkah untuk tugas ini langsung di Konsol Google Cloud, klik Pandu saya:

Pandu saya


Sebelum memulai

  1. Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  4. Aktifkan API Dataproc Metastore, Dataproc.

    Mengaktifkan API

  5. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  6. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  7. Aktifkan API Dataproc Metastore, Dataproc.

    Mengaktifkan API

Peran yang Diperlukan

Untuk mendapatkan izin yang diperlukan untuk membuat Dataproc Metastore dan cluster Dataproc, minta administrator untuk memberi Anda peran IAM berikut:

  • Untuk memberikan akses penuh ke semua resource Dataproc Metastore, termasuk menetapkan izin IAM: (roles/metastore.admin) di akun pengguna atau akun layanan
  • Untuk memberikan kontrol penuh atas resource Dataproc Metastore: Dataproc Metastore Editor (roles/metastore.editor) di akun pengguna atau akun layanan
  • Untuk membuat cluster Dataproc: (roles/dataproc.worker) pada akun layanan

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses.

Peran yang telah ditetapkan ini berisi izin yang diperlukan untuk membuat Metastore Dataproc dan cluster Dataproc. Untuk melihat izin yang benar-benar diperlukan, perluas bagian Izin yang diperlukan:

Izin yang diperlukan

Izin berikut diperlukan untuk membuat Metastore Dataproc dan cluster Dataproc:

  • Untuk membuat layanan Dataproc Metastore: metastore.services.create pada akun pengguna atau akun layanan
  • Untuk membuat cluster Dataproc: Dataproc worker (roles/dataproc.worker) pada akun layanan

Anda mung juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaanlainnya.

Untuk informasi selengkapnya tentang peran dan izin Dataproc Metastore tertentu, lihat Ringkasan IAM Dataproc Metastore.

Membuat layanan Dataproc Metastore

Petunjuk berikut menunjukkan cara membuat layanan Dataproc Metastore dasar menggunakan setelan default yang disediakan.

Konsol

  1. Di konsol Google Cloud, buka halaman Dataproc Metastore.

    Buka Dataproc Metastore

  2. Di menu navigasi, klik +Buat.

    Dialog Create Metastore service akan terbuka.

  3. Pilih Dataproc Metastore 2.

  4. Di kolom Nama layanan, masukkan example-service.

  5. Di kolom Lokasi data, pilih us-central1.

  6. Untuk opsi konfigurasi layanan lainnya, gunakan setelan default yang disediakan.

  7. Untuk membuat dan memulai layanan, klik Kirim.

Layanan metastore baru Anda akan muncul di halaman Dataproc Metastore. Status menampilkan Creating hingga layanan siap digunakan. Jika sudah siap, statusnya akan berubah menjadi Active. Penyediaan layanan mungkin memerlukan waktu beberapa menit.

Screenshot berikut menunjukkan contoh halaman Create service menggunakan beberapa default yang disediakan.

Halaman Create service.

gcloud CLI

Untuk membuat layanan metastore menggunakan default yang disediakan, jalankan perintah gcloud metastore services create berikut:

 gcloud metastore services create example-service \
     --location=us-central1 \
     --instance-size=MEDIUM

Perintah ini membuat layanan bernama example-service di region default (us-central1) dan dengan ukuran instance default (MEDIUM).

REST

Ikuti petunjuk API untuk membuat layanan menggunakan APIs Explorer.

Membuat cluster Dataproc dan terhubung ke Dataproc Metastore

Selanjutnya, Anda membuat cluster Dataproc dan terhubung ke metastore Anda dari cluster. Setelah itu, cluster Anda menggunakan layanan metastore karena merupakan HMS. Cluster yang Anda buat di sini menggunakan setelan default yang disediakan.

Konsol

  1. Di konsol Google Cloud, buka halaman Dataproc Clusters.

    Buka Cluster Dataproc

  2. Pada menu navigasi, pilih +Buat cluster.

    Dialog Buat cluster akan terbuka dan menyediakan beberapa pilihan infrastruktur yang dapat Anda pilih.

  3. Di baris Cluster di Compute Engine, pilih Create.

    Halaman Buat cluster Dataproc di Compute Engine akan terbuka.

  4. Di kolom Cluster Name, masukkan example-cluster.

  5. Di menu Region dan Zone, pilih us-central1.

  6. Untuk opsi Siapkan cluster lainnya, gunakan setelan default yang disediakan.

  7. Di menu navigasi, klik tab Sesuaikan cluster (opsional).

  8. Di bagian Dataproc Metastore, pilih layanan metastore yang Anda buat sebelumnya.

    Jika Anda mengikuti tutorial ini apa adanya, maka akan dinamai example-service.

  9. Untuk opsi konfigurasi layanan lainnya, gunakan setelan default yang disediakan.

  10. Untuk membuat cluster, klik Buat.

    Cluster baru akan muncul di daftar Cluster. Status cluster akan menampilkan Penyediaan hingga cluster siap digunakan. Jika sudah siap, statusnya akan berubah menjadi Active. Penyediaan {i>cluster <i} mungkin memerlukan waktu beberapa menit.

gcloud CLI

Untuk membuat cluster menggunakan setelan default yang disediakan, jalankan perintah gcloud dataproc clusters create berikut:

 gcloud dataproc clusters create example-cluster \
    --dataproc-metastore=projects/PROJECT_ID/locations/us-central1/services/example-service \
    --region=us-central1

Ganti PROJECT_ID dengan project ID dari project tempat Anda membuat layanan Dataproc Metastore.

REST

Ikuti petunjuk API untuk membuat cluster menggunakan APIs Explorer.

Menghubungkan ke Apache Hive dengan cluster Dataproc

Langkah selanjutnya ini menunjukkan cara menjalankan beberapa contoh perintah di Apache Hive untuk membuat database dan tabel.

Selanjutnya, buka sesi SSH di cluster Dataproc, lalu luncurkan sesi Hive.

  1. Di konsol Google Cloud, buka halaman VM Instances.
  2. Dalam daftar instance mesin virtual, klik SSH di samping example-cluster.

Jendela browser akan terbuka di direktori utama Anda pada node dengan output yang mirip dengan berikut ini:

Connected, host fingerprint: ssh-rsa ...
Linux cluster-1-m 3.16.0-0.bpo.4-amd64 ...
...
example-cluster@cluster-1-m:~$

Untuk memulai Hive serta membuat database dan tabel, jalankan perintah berikut di sesi SSH:

  1. Mulai Hive.

    hive
    
  2. Buat database dengan nama myDatabase.

    create database myDatabase;
    
  3. Menampilkan database yang telah Anda buat.

    show databases;
    
  4. Menggunakan database yang telah Anda buat.

    use myDatabase;
    
  5. Buat tabel bernama myTable.

    create table myTable(id int,name string);
    
  6. Cantumkan tabel dalam myDatabase.

    show tables;
    
  7. Jelaskan skema tabel yang Anda buat.

    desc MyTable;
    

Menjalankan perintah ini akan menampilkan output yang mirip dengan berikut ini:

$hive

hive> show databases;
OK
default
hive> create database myDatabase;
OK
hive> use myDatabase;
OK
hive> create table myTable(id int,name string);
OK
hive> show tables;
OK
myTable
hive> desc myTable;
OK
id                      int
name                    string

Pembersihan

Agar akun Google Cloud Anda tidak dikenakan biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.

  1. Di konsol Google Cloud, buka halaman Manage resource.

    Buka Manage resource

  2. Jika project yang ingin Anda hapus tertaut ke organisasi, buka daftar Organization di kolom Name.
  3. Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
  4. Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.

Atau, Anda dapat menghapus resource yang digunakan dalam tutorial ini:

  1. Hapus layanan Dataproc Metastore.

    Konsol

    1. Di konsol Google Cloud, buka halaman Dataproc Metastore:

      Buka Dataproc Metastore

    2. Dalam daftar layanan, pilih example-service.

    3. Pada menu navigasi, klik Delete.

      Dialog Delete service akan terbuka.

    4. Pada dialog, klik Delete

      Layanan Anda tidak lagi muncul dalam Daftar layanan.

    gcloud CLI

    Untuk menghapus layanan Anda, jalankan perintah gcloud metastore services delete berikut.

     gcloud metastore services delete example-service \
         --location=us-central1

    REST

    Ikuti petunjuk API untuk menghapus layanan menggunakan APIs Explorer.

    Semua penghapusan akan segera berhasil.

  2. Hapus bucket Cloud Storage untuk layanan Dataproc Metastore.

  3. Hapus cluster Dataproc yang menggunakan layanan Dataproc Metastore.

Langkah selanjutnya