Membuat dan mengamankan cluster metastore Hive

Ringkasan

Saat Anda membuat cluster Dataproc, aplikasi Apache Hive dan komponennya, termasuk metastore Hive, diinstal di cluster, dan sandi default ditetapkan dalam file hive-site.xml yang terletak di node master cluster.

Menentukan sandi metastore Hive Anda sendiri direkomendasikan untuk mencapai tujuan berikut:

  • Sebagai langkah keamanan praktik terbaik untuk memastikan Anda mengontrol akses ke metastore Hive lokal dengan memberikan sandi Anda sendiri

  • Untuk menentukan sandi yang diketahui yang mengontrol akses ke metastore Hive eksternal yang digunakan dengan database eksternal yang dibagikan di antara cluster yang berbeda

Menetapkan sandi metastore Hive

Jalankan perintah Google Cloud CLI Dataproc clusters create berikut untuk membuat cluster Dataproc dan menentukan sandi metastore Hive.

gcloud dataproc clusters create cluster-name
 --properties="hive:javax.jdo.option.ConnectionPassword=HIVE_METASTORE_PASSWORD"

Catatan:

  • Lihat Membuat kunci untuk membuat kunci di Cloud Key Management Service.
  • Sandi metastore Hive hanya disimpan di node master cluster, bukan di node pekerja.

Untuk informasi tambahan tentang cara mengamankan cluster Dataproc, lihat Praktik terbaik keamanan Dataproc.

Skenario yang Tidak Didukung

Dataproc tidak mendukung skenario metastore Hive berikut, terlepas dari apakah Anda menggunakan sandi metastore Hive default atau yang disediakan pengguna:

  • Anda menggunakan klien metastore tersemat di driver Spark yang berjalan dalam mode cluster, sehingga node pekerja memerlukan sandi Hive. Skenario ini dapat menyebabkan masalah konektivitas dengan database metastore karena koneksi tidak dibuat melalui proses HiveMetaStore yang berjalan di node master Dataproc.

  • Anda menonaktifkan metastore Hive dan hive-server2 untuk menggunakan database MySQL Anda sendiri. Dalam skenario ini, properti spark.hadoop.javax.jdo.option.ConnectionURL=jdbc:mysql://CLUSTER_NAME-m/metastore tidak berpengaruh.