Ringkasan
Saat Anda membuat cluster Dataproc, aplikasi Apache Hive dan komponennya, termasuk metastore Hive, diinstal di cluster, dan sandi default ditetapkan dalam file hive-site.xml
yang terletak di node master cluster.
Menentukan sandi metastore Hive Anda sendiri direkomendasikan untuk mencapai tujuan berikut:
Sebagai langkah keamanan praktik terbaik untuk memastikan Anda mengontrol akses ke metastore Hive lokal dengan memberikan sandi Anda sendiri
Untuk menentukan sandi yang diketahui yang mengontrol akses ke metastore Hive eksternal yang digunakan dengan database eksternal yang dibagikan di antara cluster yang berbeda
Menetapkan sandi metastore Hive
Jalankan perintah Google Cloud CLI Dataproc clusters create berikut untuk membuat cluster Dataproc dan menentukan sandi metastore Hive.
gcloud dataproc clusters create cluster-name --properties="hive:javax.jdo.option.ConnectionPassword=HIVE_METASTORE_PASSWORD"
Catatan:
- Lihat Membuat kunci untuk membuat kunci di Cloud Key Management Service.
- Sandi metastore Hive hanya disimpan di node master cluster, bukan di node pekerja.
Untuk informasi tambahan tentang cara mengamankan cluster Dataproc, lihat Praktik terbaik keamanan Dataproc.
Skenario yang Tidak Didukung
Dataproc tidak mendukung skenario metastore Hive berikut, terlepas dari apakah Anda menggunakan sandi metastore Hive default atau yang disediakan pengguna:
Anda menggunakan klien metastore tersemat di driver Spark yang berjalan dalam mode cluster, sehingga node pekerja memerlukan sandi Hive. Skenario ini dapat menyebabkan masalah konektivitas dengan database metastore karena koneksi tidak dibuat melalui proses
HiveMetaStore
yang berjalan di node master Dataproc.Anda menonaktifkan metastore Hive dan
hive-server2
untuk menggunakan database MySQL Anda sendiri. Dalam skenario ini, propertispark.hadoop.javax.jdo.option.ConnectionURL=jdbc:mysql://CLUSTER_NAME-m/metastore
tidak berpengaruh.