Hive-Metastore-Cluster erstellen und sichern

Übersicht

Beim Erstellen eines Dataproc-Clusters werden die Apache Hive-Anwendung und die zugehörigen -Komponenten, einschließlich Hive-Metastore, auf dem Cluster installiert sind. ist in der Datei hive-site.xml im Cluster-Masterknoten.

Es wird empfohlen, ein eigenes Hive-Metastore-Passwort anzugeben, um die folgenden Ziele zu erreichen:

  • Dies ist eine bewährte Sicherheitsmaßnahme, mit der Sie den Zugriff auf die Lokaler Hive-Metaspeicher durch Angabe Ihres eigenen Passworts

  • Hiermit wird ein bekanntes Passwort angegeben, das den Zugriff auf externe Hive-Metastores steuert, die mit externen Datenbanken verwendet werden, die für verschiedene Cluster freigegeben sind.

Passwort für Hive-Metaspeicher festlegen

Führen Sie den folgenden Befehl Google Cloud CLI Dataproc clusters create aus, um einen Dataproc-Cluster zu erstellen und ein Hive-Metastore-Passwort anzugeben.

gcloud dataproc clusters create cluster-name
 --properties="hive:javax.jdo.option.ConnectionPassword=HIVE_METASTORE_PASSWORD"

Hinweise:

  • Informationen zum Erstellen eines Schlüssels im Cloud Key Management Service finden Sie unter Schlüssel erstellen.
  • Das Hive-Metastore-Passwort wird nur auf den Cluster-Masterknoten und nicht auf den Worker-Knoten gespeichert.

Weitere Informationen zum Schützen von Dataproc-Clustern finden Sie unter Best Practices für die Sicherheit von Dataproc.

Nicht unterstützte Szenarien

Die folgenden Hive-Metastore-Szenarien werden von Dataproc nicht unterstützt: Unabhängig davon, ob Sie das Standardpasswort oder ein vom Nutzer bereitgestelltes Passwort für den Hive-Metaspeicher verwenden:

  • Sie verwenden einen eingebetteten Metastore-Client im Spark-Treiber, der im Clustermodus ausgeführt wird. sodass die Worker-Knoten Hive-Passwörter erfordern. Dieses Szenario kann Verbindungsprobleme mit der Metastore-Datenbank verursachen, da die Verbindung nicht über den HiveMetaStore-Prozess hergestellt wird, der auf dem Dataproc-Masterknoten ausgeführt wird.

  • Sie deaktivieren den Hive-Metaspeicher und hive-server2, um Ihre eigene MySQL-Datenbank zu verwenden. In diesem Szenario hat die Property spark.hadoop.javax.jdo.option.ConnectionURL=jdbc:mysql://CLUSTER_NAME-m/metastore keine Auswirkungen.