Men-deploy layanan Dataproc Metastore
Halaman ini menunjukkan cara membuat layanan Dataproc Metastore dan menghubungkannya dari cluster Dataproc. Setelah itu, terapkan SSH ke cluster tersebut, luncurkan instance Apache Hive, dan jalankan beberapa kueri dasar.
Dataproc Metastore memberi Anda Hive Metastore (HMS) yang sepenuhnya kompatibel, yang merupakan standar yang sudah ditetapkan dalam ekosistem big data open source untuk mengelola metadata teknis. Layanan ini membantu Anda mengelola metadata data lake dan memberikan interoperabilitas antara berbagai alat pemrosesan data yang Anda gunakan.
Jika ingin mengikuti panduan langkah demi langkah untuk tugas ini langsung di Konsol Google Cloud, klik Pandu saya:
Sebelum memulai
- Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
-
Aktifkan API Dataproc Metastore, Dataproc.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
-
Aktifkan API Dataproc Metastore, Dataproc.
Peran yang Diperlukan
Untuk mendapatkan izin yang diperlukan untuk membuat Dataproc Metastore dan cluster Dataproc, minta administrator untuk memberi Anda peran IAM berikut:
-
Untuk memberikan akses penuh ke semua resource Dataproc Metastore, termasuk menetapkan izin IAM:
(
roles/metastore.admin
) di akun pengguna atau akun layanan -
Untuk memberikan kontrol penuh atas resource Dataproc Metastore:
Dataproc Metastore Editor (
roles/metastore.editor
) di akun pengguna atau akun layanan -
Untuk membuat cluster Dataproc:
(
roles/dataproc.worker
) pada akun layanan
Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses.
Peran yang telah ditetapkan ini berisi izin yang diperlukan untuk membuat Metastore Dataproc dan cluster Dataproc. Untuk melihat izin yang benar-benar diperlukan, perluas bagian Izin yang diperlukan:
Izin yang diperlukan
Izin berikut diperlukan untuk membuat Metastore Dataproc dan cluster Dataproc:
-
Untuk membuat layanan Dataproc Metastore:
metastore.services.create
pada akun pengguna atau akun layanan -
Untuk membuat cluster Dataproc:
Dataproc worker (
pada akun layananroles/dataproc.worker
)
Anda mung juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaanlainnya.
Untuk informasi selengkapnya tentang peran dan izin Dataproc Metastore tertentu, lihat Ringkasan IAM Dataproc Metastore.Membuat layanan Dataproc Metastore
Petunjuk berikut menunjukkan cara membuat layanan Dataproc Metastore dasar menggunakan setelan default yang disediakan.
Konsol
Di konsol Google Cloud, buka halaman Dataproc Metastore.
Di menu navigasi, klik +Buat.
Dialog Create Metastore service akan terbuka.
Pilih Dataproc Metastore 2.
Di kolom Nama layanan, masukkan
example-service
.Di kolom Lokasi data, pilih
us-central1
.Untuk opsi konfigurasi layanan lainnya, gunakan setelan default yang disediakan.
Untuk membuat dan memulai layanan, klik Kirim.
Layanan metastore baru Anda akan muncul di halaman Dataproc Metastore. Status menampilkan Creating hingga layanan siap digunakan. Jika sudah siap, statusnya akan berubah menjadi Active. Penyediaan layanan mungkin memerlukan waktu beberapa menit.
Screenshot berikut menunjukkan contoh halaman Create service menggunakan beberapa default yang disediakan.
gcloud CLI
Untuk membuat layanan metastore menggunakan default yang disediakan,
jalankan perintah gcloud metastore services create
berikut:
gcloud metastore services create example-service \ --location=us-central1 \ --instance-size=MEDIUM
Perintah ini membuat layanan bernama example-service
di region default (us-central1
) dan dengan ukuran instance default (MEDIUM
).
REST
Ikuti petunjuk API untuk membuat layanan menggunakan APIs Explorer.
Membuat cluster Dataproc dan terhubung ke Dataproc Metastore
Selanjutnya, Anda membuat cluster Dataproc dan terhubung ke metastore Anda dari cluster. Setelah itu, cluster Anda menggunakan layanan metastore karena merupakan HMS. Cluster yang Anda buat di sini menggunakan setelan default yang disediakan.
Konsol
Di konsol Google Cloud, buka halaman Dataproc Clusters.
Pada menu navigasi, pilih +Buat cluster.
Dialog Buat cluster akan terbuka dan menyediakan beberapa pilihan infrastruktur yang dapat Anda pilih.
Di baris Cluster di Compute Engine, pilih Create.
Halaman Buat cluster Dataproc di Compute Engine akan terbuka.
Di kolom Cluster Name, masukkan
example-cluster
.Di menu Region dan Zone, pilih
us-central1
.Untuk opsi Siapkan cluster lainnya, gunakan setelan default yang disediakan.
Di menu navigasi, klik tab Sesuaikan cluster (opsional).
Di bagian Dataproc Metastore, pilih layanan metastore yang Anda buat sebelumnya.
Jika Anda mengikuti tutorial ini apa adanya, maka akan dinamai
example-service
.Untuk opsi konfigurasi layanan lainnya, gunakan setelan default yang disediakan.
Untuk membuat cluster, klik Buat.
Cluster baru akan muncul di daftar Cluster. Status cluster akan menampilkan Penyediaan hingga cluster siap digunakan. Jika sudah siap, statusnya akan berubah menjadi Active. Penyediaan {i>cluster <i} mungkin memerlukan waktu beberapa menit.
gcloud CLI
Untuk membuat cluster menggunakan setelan default yang disediakan, jalankan perintah gcloud dataproc clusters create
berikut:
gcloud dataproc clusters create example-cluster \ --dataproc-metastore=projects/PROJECT_ID/locations/us-central1/services/example-service \ --region=us-central1
Ganti PROJECT_ID
dengan project ID dari project tempat Anda membuat layanan Dataproc Metastore.
REST
Ikuti petunjuk API untuk membuat cluster menggunakan APIs Explorer.
Menghubungkan ke Apache Hive dengan cluster Dataproc
Langkah selanjutnya ini menunjukkan cara menjalankan beberapa contoh perintah di Apache Hive untuk membuat database dan tabel.
Selanjutnya, buka sesi SSH di cluster Dataproc, lalu luncurkan sesi Hive.
- Di konsol Google Cloud, buka halaman VM Instances.
- Dalam daftar instance mesin virtual, klik SSH di samping
example-cluster
.
Jendela browser akan terbuka di direktori utama Anda pada node dengan output yang mirip dengan berikut ini:
Connected, host fingerprint: ssh-rsa ...
Linux cluster-1-m 3.16.0-0.bpo.4-amd64 ...
...
example-cluster@cluster-1-m:~$
Untuk memulai Hive serta membuat database dan tabel, jalankan perintah berikut di sesi SSH:
Mulai Hive.
hive
Buat database dengan nama
myDatabase
.create database myDatabase;
Menampilkan database yang telah Anda buat.
show databases;
Menggunakan database yang telah Anda buat.
use myDatabase;
Buat tabel bernama
myTable
.create table myTable(id int,name string);
Cantumkan tabel dalam
myDatabase
.show tables;
Jelaskan skema tabel yang Anda buat.
desc MyTable;
Menjalankan perintah ini akan menampilkan output yang mirip dengan berikut ini:
$hive
hive> show databases;
OK
default
hive> create database myDatabase;
OK
hive> use myDatabase;
OK
hive> create table myTable(id int,name string);
OK
hive> show tables;
OK
myTable
hive> desc myTable;
OK
id int
name string
Pembersihan
Agar akun Google Cloud Anda tidak dikenakan biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.
- Di konsol Google Cloud, buka halaman Manage resource.
- Jika project yang ingin Anda hapus tertaut ke organisasi, buka daftar Organization di kolom Name.
- Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
- Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.
Atau, Anda dapat menghapus resource yang digunakan dalam tutorial ini:
Hapus layanan Dataproc Metastore.
Konsol
Di konsol Google Cloud, buka halaman Dataproc Metastore:
Dalam daftar layanan, pilih
example-service
.Pada menu navigasi, klik Delete.
Dialog Delete service akan terbuka.
Pada dialog, klik Delete
Layanan Anda tidak lagi muncul dalam Daftar layanan.
gcloud CLI
Untuk menghapus layanan Anda, jalankan perintah
gcloud metastore services delete
berikut.gcloud metastore services delete example-service \ --location=us-central1
REST
Ikuti petunjuk API untuk menghapus layanan menggunakan APIs Explorer.
Semua penghapusan akan segera berhasil.
Hapus bucket Cloud Storage untuk layanan Dataproc Metastore.
Hapus cluster Dataproc yang menggunakan layanan Dataproc Metastore.