Nachdem Sie eine Verbindung zu einem dieser Dienste hergestellt haben, verwendet er Ihre
Dataproc Metastore-Dienst als Hive-Metastore während der Abfrage
Ausführung.
Um die Berechtigung zu erhalten, die Sie zum Erstellen eines Dataproc Metastores benötigen,
bitten Sie Ihren Administrator, Ihnen
folgende IAM-Rollen für Ihr Projekt basierend auf dem Prinzip der geringsten Berechtigung:
Weitere Informationen zu bestimmten Dataproc Metastore-Rollen und -Berechtigungen finden Sie unter Zugriff mit IAM verwalten.
Dataproc Metastore mit Standardeinstellungen erstellen
Dataproc Metastore mit den Standardeinstellungen erstellen
konfiguriert Ihren Dienst mit einer Enterprise-Stufe, einer mittleren Instanzgröße,
die neueste Version des Hive Metastore, einen Thrift-Endpunkt und einen Datenspeicherort
von us-central.
Dataproc Metastore 2
In der folgenden Anleitung wird gezeigt, wie Sie einen Dataproc Metastore erstellen.
2 mit einem Thrift-Endpunkt und anderen bereitgestellten Standardeinstellungen
Console
Rufen Sie in der Google Cloud Console den Dataproc Metastore auf.
Seite.
Verwenden Sie für die übrigen Dienstkonfigurationsoptionen die angegebenen Standardeinstellungen.
Klicken Sie auf Senden, um den Dienst zu erstellen und zu starten.
Ihr neuer Metastore-Dienst wird im Dataproc Metastore angezeigt.
Seite. Der Status lautet Wird erstellt, bis der Dienst einsatzbereit ist.
Sobald sie fertig ist, ändert sich der Status in Aktiv.
Die Bereitstellung des Dienstes kann einige Minuten dauern.
gcloud-CLI
Zum Erstellen eines Dataproc Metastore-Metastore-Dienstes 2 mit der Methode
angegebenen Standardeinstellungen, führen Sie den folgenden gcloud metastore services create aus:
Befehl:
SERVICE: Der Name Ihres neuen
Dataproc Metastore-Dienst
LOCATION: Die gewünschte Google Cloud-Region
in dem Sie den Dataproc Metastore erstellen können. Sie können auch einen standardmäßigen Standort festlegen.
INSTANCE_SIZE: die Instanzgröße
Ihres multiregionalen Dataproc Metastores. Beispiel: small,
medium oder large. Wenn Sie einen Wert für INSTANCE_SIZE angeben, geben Sie
Geben Sie einen Wert für SCALING_FACTOR an.
SCALING_FACTOR: der Skalierungsfaktor
Ihres Dataproc Metastore-Dienstes. Beispiel: 0.1
Wenn Sie einen Wert für SCALING_FACTOR angeben, geben Sie keinen Wert für
INSTANCE_SIZE.
In der folgenden Anleitung wird gezeigt, wie Sie einen Dataproc Metastore erstellen.
1 mit einem Thrift-Endpunkt und anderen bereitgestellten Standardeinstellungen.
Console
Rufen Sie in der Google Cloud Console den Dataproc Metastore auf.
Seite.
Verwenden Sie für die übrigen Dienstkonfigurationsoptionen die angegebenen Standardeinstellungen.
Klicken Sie auf Senden, um den Dienst zu erstellen und zu starten.
Ihr neuer Metastore-Dienst wird im Dataproc Metastore angezeigt.
Seite. Der Status lautet Wird erstellt, bis der Dienst einsatzbereit ist.
Sobald sie fertig ist, ändert sich der Status in Aktiv.
Die Bereitstellung des Dienstes kann einige Minuten dauern.
gcloud-CLI
So erstellen Sie einen einfachen Metastore-Dienst mit den angegebenen Standardeinstellungen:
Führen Sie folgenden gcloud metastore services create aus:
Befehl:
gcloud metastore services create SERVICE \
--location=LOCATION
Ersetzen Sie Folgendes:
SERVICE: Der Name Ihres neuen
Dataproc Metastore-Dienst
LOCATION: Die gewünschte Google Cloud-Region
in dem Sie den Dataproc Metastore erstellen können. Sie können auch einen standardmäßigen Standort festlegen.
Dataproc Metastore mit erweiterten Einstellungen erstellen
Dataproc Metastore mit den erweiterten Einstellungen erstellen
zeigt, dass Sie Konfigurationen wie
Netzwerkkonfigurationen, Skalierung und
Endpunkteinstellungen, Sicherheitseinstellungen und optionale Funktionen.
Dataproc Metastore 2 oder 1
In der folgenden Anleitung wird gezeigt, wie Sie einen Dataproc Metastore erstellen.
2 oder einen Dataproc Metastore 1-Dienst mit erweiterten
Einstellungen.
Console
Jetzt starten
Öffnen Sie in der Google Cloud Console die Seite Dataproc Metastore:
Wenn dieser Wert nicht geändert wird, verwendet Ihr Dienst die neueste unterstützte
Version von Hive (derzeit Version 3.1.2).
Weitere Informationen zur Auswahl der richtigen Version
Siehe Versionsrichtlinie.
Wählen Sie die Release-Version aus.
Wenn dieser Wert nicht geändert wird, verwendet der Metaspeicher den Wert Stable.
Weitere Informationen finden Sie unter Release-Version.
Geben Sie den TCP-Port ein.
Der TCP-Port, mit dem Ihr Thrift-Endpunkt eine Verbindung herstellt. Wenn dieser Wert gleich
nicht geändert wurde, wird Port-Nummer 9083 verwendet. Wenn Sie Ihr
an gRPC zu senden, ändert sich dieser Wert automatisch in 443.
geändert werden kann.
(Optional) Für Dataproc Metastore 1. Wählen Sie die Dienststufe aus.
Die Dienststufe wirkt sich auf die Kapazität Ihres Dienstes aus.
Weitere Informationen finden Sie unter Dienststufe.
Endpunktprotokoll
Optional: Wählen Sie ein Endpunktprotokoll aus.
Die standardmäßig ausgewählte Option ist Apache Thrift. Weitere Informationen
Informationen zu den verschiedenen Endpunkten finden Sie unter Endpunktprotokoll auswählen.
Netzwerkkonfiguration
Wählen Sie eine Netzwerkkonfiguration aus.
Standardmäßig ist Ihr Dienst nur in einem VPC-Netzwerk verfügbar und verwendet
dem default-Netzwerk. Das Netzwerk default lässt nur deinen Dienst zu
um eine Verbindung zu anderen Diensten
im selben Projekt herzustellen.
Ändern Sie Ihre Standardeinstellungen, um die
folgenden Aktionen:
Dataproc Metastore-Dienst mit Dataproc Metastore verbinden
in anderen Projekten zu nutzen.
Verwenden Sie Ihren Dataproc Metastore-Dienst mit anderen
Google Cloud-Dienste, z. B. Dataproc-Cluster.
Optional: Klicken Sie auf Freigegebenes VPC-Netzwerk verwenden und geben Sie
Projekt-ID und VPC-Netzwerkname.
Optional: Klicken Sie auf Dienste in mehreren VPC-Subnetzwerken zugänglich machen.
und wählen Sie „Subnetzwerke“ aus. Sie können bis zu fünf Subnetzwerke angeben.
Klicken Sie auf Fertig.
Metadatenintegration
Optional: Aktivieren Sie die Data Catalog-Synchronisierung.
Wählen Sie als DatenbanktypMySQL oder Spanner aus. MySQL ist die
Standarddatenbanktyp.
Weitere Informationen zur Auswahl eines
bestimmten Datenbanktyps
Siehe Datenbanktypen.
Labels
Optional: So können Sie optionale Labels zur Beschreibung Ihrer Metadaten hinzufügen oder entfernen:
Klicken Sie auf + Labels hinzufügen.
Dienst starten
Klicken Sie auf Senden, um den Dienst zu erstellen und zu starten.
Ihr neuer Metastore-Dienst wird im Dataproc Metastore angezeigt.
Seite. Der Status lautet Wird erstellt, bis der Dienst einsatzbereit ist.
Sobald sie fertig ist, ändert sich der Status in Aktiv.
Die Bereitstellung des Dienstes kann einige Minuten dauern.
SERVICE: Der Name Ihres neuen
Dataproc Metastore-Dienst
Ihres Dataproc Metastore-Dienstes. Beispiel: 0.1.
Wenn Sie einen Wert für SCALING_FACTOR angeben, geben Sie keinen Wert für INSTANCE_SIZE an.
LOCATION: Die gewünschte Google Cloud-Region
in dem Sie den Dataproc Metastore erstellen können. Sie können auch einen standardmäßigen Standort festlegen.
PORT (optional): Der TCP-Port, der von Ihrem
Thrift-Endpunkt verwendet. Wenn nichts festgelegt ist, wird Port 9083 verwendet.
Wenn Sie einen gRPC-Endpunkt verwenden, wird Ihre Portnummer automatisch
ändert sich an 443.
TIER: Optional für Dataproc Metastore 1:
Die Dienststufe Ihrer neuen
. Wenn nichts festgelegt ist, wird der Wert Developer verwendet.
DATABASE_TYPE:
Optional: Wählen Sie den Datenbanktyp für Ihren Dienst aus.
Weitere Informationen zur Auswahl eines bestimmten Datenbanktyps finden Sie unter Datenbanktypen.
HIVE_METASTORE_VERSION: Optional: Die Hive
Metastore-Version von, die Sie mit Ihrem Dienst verwenden möchten. Beispiel: 3.1.2 Wenn die Richtlinie nicht konfiguriert ist, wird die neueste Version von Hive verwendet.
RELEASE_CHANNEL (optional): die Release-Version
der Dienstleistung. Wenn nichts festgelegt ist, wird der Wert Stable verwendet.
METADATA_OVERRIDE (optional): Hive-Metaspeicher
Konfigurationen überschreiben, die Sie auf Ihren Dienst anwenden möchten. Verwenden Sie eine durch Kommas getrennte Liste
im Format k1=v1,k2=v2,k3=v3.
LABELS: Optional: Hinzuzufügende Schlüssel/Wert-Paare
zusätzliche Metadaten für Ihren Dienst. Verwenden Sie eine durch Kommas getrennte Liste
im Format k1=v1,k2=v2,k3=v3. Dataproc Metastore
AUXILIARY_VERSION: Optional: Zusatzfunktion aktivieren
versions. Weitere Informationen finden Sie unter Zusatzversionen.
Skalierungseinstellungen:
INSTANCE_SIZE: Optional für Dataproc Metastore 2:
die Instanzgröße
Ihres multiregionalen Dataproc Metastores. Beispiel:
small, medium oder large.
Wenn Sie einen Wert für INSTANCE_SIZE angeben, geben Sie keinen Wert für
SCALING_FACTOR.
SCALING_FACTOR: Optional für
Dataproc Metastore 2: der Skalierungsfaktor
Ihres Dataproc Metastore-Dienstes. Beispiel: 0.1 Wenn Sie
Geben Sie einen Wert für SCALING_FACTOR an, aber keinen Wert für
INSTANCE_SIZE
Einstellungen für Werbenetzwerke:
NETWORK: Der Name des VPC-Netzwerk, das
wenn Sie eine Verbindung
mit Ihrem Dienst herstellen. Wenn nichts festgelegt ist, wird der Wert default verwendet.
Wenn Sie ein VPC-Netzwerk verwenden, das zu einem
von Ihrem Service unterscheiden, müssen Sie den gesamten
relativen Ressourcennamens angegeben werden. Beispiel: projects/HOST_PROJECT/global/networks/NETWORK_ID
SUBNET1, SUBNET2:
Optional: Eine Liste von Subnetzwerken, die auf Ihren Dienst zugreifen können. Sie können
Verwenden Sie die ID, die voll qualifizierte URL oder den relativen Namen des Subnetzwerks.
Sie können bis zu 5 Subnetzwerke angeben.
Kerberos-Einstellungen:
KERBEROS_PRINCIPAL: Optional: Ein Kerberos-Hauptkonto, das sowohl auf dem Keytab als auch im KDC vorhanden ist. Ein typisches Hauptkonto hat das Format „primary/instance@REALM“, aber es gibt kein genaues Format.
KRB5_CONFIG: Optional: Die Datei krb5.config gibt die KDC- und Kerberos-Echtzeitinformationen an, die Standorte von KDCs und Standardeinstellungen für den Bereich und die Kerberos-Anwendungen umfassen.
CLOUD_SECRET (optional): die relative Ressource
Name eines Secret Managers
Secret-Version.
KMS_KEY (optional): Bezieht sich auf die Schlüsselressource.
ID.
Hive-Metastore-Konfigurationsüberschreibung für Dataproc Metastore festlegen
Wenn sich Ihr Apache Hive-Warehouse-Verzeichnis in Cloud Storage befindet, sollten Sie eine
Metastore-Konfigurationsüberschreibung. Durch diese Überschreibung wird Ihr benutzerdefiniertes Data Warehouse als
Warehouse-Standardverzeichnis für Ihren Dataproc Metastore-Dienst.
Bevor Sie diese Überschreibung festlegen, muss Ihr Dataproc Metastore
Der Dienst hat Lese- und Schreibberechtigungen für Objekte, um auf das Warehouse-Verzeichnis zuzugreifen.
Weitere Informationen finden Sie im Hive-Warehouse-Verzeichnis.
In der folgenden Anleitung erfahren Sie, wie Sie eine Hive Metastore-Konfigurationsüberschreibung festlegen
für einen neuen Dataproc Metastore-Dienst.
Console
Öffnen Sie in der Google Cloud Console die Seite Dataproc Metastore:
Klicken Sie in der Navigationsleiste auf +Erstellen.
Geben Sie in Metastore-Konfigurationsüberschreibungen die folgenden Werte ein:
Schlüssel: hive.metastore.warehouse.dir.
Wert: Der Cloud Storage-Speicherort Ihres Warehouse-Verzeichnisses.
Beispiel: gs://my-bucket/path/to/location
Konfigurieren Sie die verbleibenden Dienstoptionen nach Bedarf oder verwenden Sie die
Standardeinstellungen festlegen.
Klicken Sie auf Senden.
Kehren Sie zur Seite Dataproc Metastore zurück und
Prüfen Sie, ob Ihr Dienst erfolgreich erstellt wurde.
gcloud-CLI
So erstellen Sie einen Dataproc Metastore-Dienst mit einer Hive-Überschreibung:
Führen Sie folgenden gcloud metastore services create aus:
Befehl:
gcloud metastore services create SERVICE \
--location=LOCATION \
--hive-metastore-configs="hive.metastore.warehouse.dir=CUSTOMER_DIR"
Ersetzen Sie Folgendes:
SERVICE: Der Name Ihres neuen
Dataproc Metastore-Dienst
LOCATION: Die gewünschte Google Cloud-Region
in dem Sie den Dataproc Metastore erstellen können. Sie können auch eine
Standardstandort.
CUSTOMER_DIR: Der Cloud Storage-Speicherort von
in Ihrem Warehouse-Verzeichnis. Beispiel: gs://my-bucket/path/to/location
Prüfen Sie, ob die Erstellung erfolgreich war.
Dataproc Metastore mit Autoscaling erstellen
Dataproc Metastore 2 unterstützt Autoscaling. Wenn Sie Autoscaling aktivieren,
können Sie einen minimalen
und einen maximalen Skalierungsfaktor festlegen. Danach
festgelegt ist, erhöht oder verringert Ihr Dienst den Skalierungsfaktor
die zum Ausführen Ihrer Arbeitslasten erforderlich sind.
Hinweise zum Autoscaling
Autoscaling- und Skalierungsfaktoren schließen sich gegenseitig aus. Beispiel:
Wenn Sie Autoscaling aktivieren, können Sie
einen Skalierungsfaktor oder eine Größe nicht manuell festlegen.
Autoscaling ist nur für Dataproc Metastore in einer einzelnen Region verfügbar
Instanzen.
Wenn Autoscaling aktiviert ist, werden vorhandene Einstellungen für Skalierungsfaktoren gelöscht.
Wenn Autoscaling deaktiviert ist, gilt Folgendes:
<ph type="x-smartling-placeholder">
</ph>
Vorhandene Autoscaling-Einstellungen werden gelöscht.
Der Skalierungsfaktor ist auf den letzten konfigurierten autoscaling_factor festgelegt
für den Dienst.
Die minimalen und maximalen Autoscaling-Faktoren sind optional. Wenn die Richtlinie nicht konfiguriert ist,
Die Standardwerte sind 0.1 bzw. 6.
Wählen Sie einen der folgenden Tabs aus, um zu erfahren, wie Sie einen Dataproc Metastore erstellen
Dienst 2 mit aktiviertem Autoscaling.
Console
Rufen Sie in der Google Cloud Console den Dataproc Metastore auf.
Seite.
Klicken Sie in der Navigationsleiste auf +Erstellen.
Das Dialogfeld Metastore-Dienst erstellen wird geöffnet.
Wählen Sie Dataproc Metastore 2 aus.
Wählen Sie im Abschnitt Preise und Kapazität die Option Enterprise – Einzelne Region aus.
Klicken Sie unter Instanzgröße auf Autoscaling aktivieren.
Wählen Sie unter Instanzgröße mit dem Schieberegler eine minimale und maximale Instanz aus.
Größe.
Klicken Sie auf Senden, um den Dienst zu erstellen und zu starten.
Ihr neuer Metastore-Dienst wird im Dataproc Metastore angezeigt.
Seite. Der Status lautet Wird erstellt, bis der Dienst einsatzbereit ist.
Sobald sie fertig ist, ändert sich der Status in Aktiv.
Die Bereitstellung des Dienstes kann einige Minuten dauern.
MIN_INSTANCES (Optional): Die Mindestanzahl von Instanzen
die Sie in Ihrer Autoscaling-Konfiguration
verwenden möchten. Wenn diese Werte nicht angegeben sind,
wird der Standardwert 0.1 verwendet.
MAX_INSTANCESOptional: Die maximale Anzahl von Instanzen
die Sie in Ihrer Autoscaling-Konfiguration
verwenden möchten. Wenn diese Werte nicht angegeben sind,
wird der Standardwert 6 verwendet.
VPC-Netzwerke sind für Dataproc Metastore-Dienste nicht relevant
mit dem gRPC-Endpunktprotokoll konfiguriert ist.
Für Dataproc Metastore-Dienste, die mit dem Thrift-Endpunkt konfiguriert wurden
überprüfen Sie, ob Ihr Dataproc Metastore-Dienst und das
Der Dataproc-Cluster, an den er angehängt ist, verwenden dieselbe freigegebene VPC
Netzwerk.
Für Dataproc Metastore-Dienste, die mit dem Thrift-Endpunkt konfiguriert wurden
und Private Service Connect haben, müssen Sie Subnetzwerke
aus dem freigegebene VPC-Netzwerk.
Für freigegebene VPC-Netzwerke erforderliche IAM-Rollen
So erstellen Sie einen Dataproc Metastore-Dienst mit einer zugänglichen VPC
die zu einem anderen Projekt gehören,
Sie müssen dem Dienstprojekt des Dienstprojekts roles/metastore.serviceAgent zuweisen
Dataproc Metastore-Dienst-Agent
(service-SERVICE_PROJECT_NUMBER@gcp-sa-metastore.iam.gserviceaccount.com)
in der IAM-Richtlinie des Netzwerkprojekts.
Probleme mit VPC-Netzwerken. Beim Erstellen eines Metastores wird das VPC-Netzwerk,
die von Ihnen verwendeten RFC-1918-Adressen möglicherweise nicht mehr
Dataproc Metastore-Dienste Weitere Informationen zu
Weitere Informationen zur Behebung dieses Problems finden Sie unter Zugewiesener IP-Bereich ist
aufgebraucht werden.