Dataproc Metastore-Dienst erstellen

Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Auf dieser Seite wird beschrieben, wie Sie einen Dataproc Metastore-Dienst erstellen.

Nachdem Sie einen Metastore erstellt haben, können Sie Metadaten in den Dienst importieren und eine der folgenden Verbindungen herstellen, um den Dienst als Hive-Metastore zu verwenden:

Hinweis

Hinweise

  • VPC-Peering Legen Sie vor dem Erstellen eines Metastores keine Einschränkung der Organisationsrichtlinie fest, um VPC-Peering einzuschränken. Andernfalls schlägt die Metastore-Erstellung fehl. Weitere Informationen zum Festlegen der richtigen VPC-Konfigurationen finden Sie unter Diensterstellung aufgrund von Einschränkung zum Einschränken von VPC-Peering fehlgeschlagen.

  • VPC-Netzwerke. Beim Erstellen eines Metastores können in dem von Ihnen verwendeten VPC-Netzwerk keine verfügbaren RFC 1918-Adressen mehr zur Verfügung stehen, die für Dataproc Metastore-Dienste erforderlich sind. Weitere Informationen zum Beheben dieses Problems finden Sie unter Zugewiesener IP-Bereich ist erschöpft.

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen nach dem Prinzip der geringsten Berechtigung die folgenden IAM-Rollen für Ihr Projekt zu gewähren, um die Berechtigung zum Erstellen eines Dataproc Metastores zu erhalten:

  • Uneingeschränkte Kontrolle über Dataproc Metastore-Ressourcen gewähren (roles/metastore.editor)
  • Uneingeschränkten Zugriff auf alle Dataproc Metastore-Ressourcen gewähren, einschließlich IAM-Richtlinienverwaltung (roles/metastore.admin)

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.

Diese vordefinierte Rolle enthält die Berechtigung metastore.services.create, die zum Erstellen eines Dataproc Metastores erforderlich ist. Sie können diese Berechtigung auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.

Weitere Informationen zu bestimmten Dataproc Metastore-Rollen und -Berechtigungen finden Sie unter Dataproc-Zugriff mit IAM verwalten.

Dataproc Metastore-Dienst erstellen

In der folgenden Anleitung wird gezeigt, wie Sie einen Dataproc Metastore-Dienst erstellen:

Console

  1. Öffnen Sie in der Google Cloud Console die Dataproc Metastore-Seite:

    Öffnen Sie Dataproc Metastore in der Google Cloud Console.

  2. Klicken Sie oben auf der Seite Dataproc Metastore auf die Schaltfläche Erstellen. Die Seite Dienst erstellen wird geöffnet.

    Seite „Dienst erstellen“
  3. Geben Sie im Feld Dienstname einen eindeutigen Namen für den Dienst ein.

    Informationen zu den Namenskonventionen finden Sie unter Namenskonventionen für Ressourcen.

  4. Wählen Sie den Speicherort der Daten aus.

  5. Wählen Sie die Metastore-Version von Hive aus.

    Wenn nicht angegeben, wird die Hive-Version 3.1.2 verwendet. Weitere Informationen finden Sie unter Versionsrichtlinien.

  6. Wählen Sie die Release-Version aus.

    Falls nichts angegeben wird, wird Stable verwendet. Weitere Informationen finden Sie unter Release-Version.

  7. Geben Sie den Port ein.

    Dies ist der TCP-Port, an dem die Dataproc Metastore Thrift-Schnittstelle verfügbar ist. Wenn nicht angegeben, wird die Portnummer 9083 verwendet.

  8. Wählen Sie die Dienststufe aus.

    Dies wirkt sich auf die Kapazität des Dienstes aus. Developer ist die Standardstufe. Das ist ein kostengünstiges Proof of Concept, da es eine begrenzte Skalierbarkeit und Fehlertoleranz bietet. Die Stufe Enterprise bietet flexible Skalierbarkeit, Fehlertoleranz und Hochverfügbarkeit in mehreren Zonen. Mit ihr können komplexe Dataproc-Metaspeicher-Arbeitslasten verarbeitet werden.

  9. Wählen Sie das Netzwerk aus.

    Um auf andere Metastore-Clients, darunter der Dataproc-Cluster, zugreifen zu können, muss der Dienst dem Netzwerk angehängt sein, dem diese auch angehängt sind. Wenn nicht angegeben, wird das Netzwerk default verwendet.

    1. Optional: Klicken Sie auf Freigegebenes VPC-Netzwerk verwenden und geben Sie die Projekt-ID und den VPC-Netzwerknamen des freigegebenen VPC-Netzwerks ein. Weitere Informationen finden Sie unter VPC Service Controls mit Dataproc Metastore.

    2. Optional: Klicken Sie auf Dienste in mehreren VPC-Subnetzwerken zugänglich machen und wählen Sie die Option Subnetzwerke aus. Sie können bis zu 5 Subnetzwerke angeben.

    3. Klicken Sie auf Fertig.

  10. Optional: Aktivieren Sie die Data Catalog-Synchronisierung. Weitere Informationen finden Sie unter Synchronisierung von Dataproc Metastore zu Data Catalog.

  11. Optional: Wählen Sie den Wochentag und die Tageszeit für das Wartungsfenster des Dienstes aus. Weitere Informationen finden Sie unter Wartungsfenster.

  12. Optional: Aktivieren Sie eine Kerberos-Keytab-Datei:

    1. Klicken Sie auf die Ein-/Aus-Schaltfläche, um Kerberos zu aktivieren.

    2. Wählen Sie Ihre geheime Ressourcen-ID aus oder geben Sie sie ein.

    3. Wählen Sie die neueste oder eine ältere Secret-Version aus.

    4. Geben Sie das Kerberos-Hauptkonto ein.

      Dies ist das für diesen Dataproc Metastore-Dienst zugewiesene Hauptkonto.

    5. Wechseln Sie zur Datei krb5 config.

  13. Optional: Wählen Sie einen Verschlüsselungstyp aus.

    Standardmäßig ist die Option Von Google verwalteter Verschlüsselungsschlüssel ausgewählt.

    Klicken Sie auf Vom Kunden verwalteten Verschlüsselungsschlüssel (CMEK) verwenden, um einen vom Kunden verwalteten Schlüssel auszuwählen. Weitere Informationen finden Sie unter vom Kunden verwaltete Verschlüsselungsschlüssel verwenden.

  14. Optional: Klicken Sie auf + Überschreibungen hinzufügen, um eine Zuordnung zum Hive-Metastore vorzunehmen.

  15. Optional: Wählen Sie ein Endpunktprotokoll aus.

    Standardmäßig ist Apache Thrift ausgewählt. Weitere Informationen zu den verschiedenen Endpunkten finden Sie unter Endpunktprotokoll auswählen.

  16. Optional: Wählen Sie einen Datenbanktyp aus.

    Wählen Sie unter Datenbanktyp die Option MySQL oder Spanner aus. MySQL ist der Standarddatenbanktyp.

    Weitere Informationen zur Auswahl eines bestimmten Datenbanktyps finden Sie unter Datenbanktypen.

  17. Optional: Klicken Sie auf + Labels hinzufügen, um der Metastore-Dienstressource weitere Metadaten hinzuzufügen.

  18. Klicken Sie auf die Schaltfläche Senden, um den Dienst zu erstellen und zu starten.

    Vergewissern Sie sich, dass Sie auf die Seite Dataproc Metastore zurückgekehrt sind und der neue Dienst in der Liste angezeigt wird.

gcloud

  1. Erstellen Sie mit dem folgenden gcloud metastore services create-Befehl einen Dienst:

    gcloud metastore services create SERVICE \
        --location=LOCATION \
        --labels=k1=v1,k2=v2,k3=v3 \
        --network=NETWORK \
        --port=PORT \
        --tier=TIER \
        --hive-metastore-version=HIVE_METASTORE_VERSION \
        --release-channel=RELEASE_CHANNEL \
        --consumer-subnetworks="projects/PROJECT_ID/regions/LOCATION/subnetworks/SUBNET1, projects/PROJECT_ID/regions/LOCATION/subnetworks/SUBNET2"
        --hive-metastore-configs=K1=V1,K2=V2 \
        --kerberos-principal=KERBEROS_PRINCIPAL \
        --krb5-config=KRB5_CONFIG \
        --keytab=CLOUD_SECRET
        --encryption-kms-key=KMS_KEY
    

    Ersetzen Sie Folgendes:

    • SERVICE: Der Name des neuen Dienstes.
    • LOCATION: Bezieht sich auf eine Google Cloud-Region. Sie können auch einen Standardspeicherort festlegen.
    • k1=v1,k2=v2,k3=v3: Die verwendeten Labels.
    • NETWORK: Der Name des VPC-Netzwerks, auf das auf den Dienst zugegriffen werden kann. Wenn Sie ein VPC-Netzwerk verwenden, das zu einem anderen Projekt als dem Dienst gehört, muss der vollständige relative Ressourcenname angegeben werden, z. B. projects/HOST_PROJECT/global/networks/NETWORK_ID.
    • PORT: Der TCP-Port, an dem die Metastore-Thrift-Schnittstelle verfügbar ist. Standard: 9083.
    • TIER: Die Stufenkapazität des neuen Dienstes.
    • HIVE_METASTORE_VERSION: Die Versionen des Hive-Metastores, die beim Erstellen eines neuen Metastore-Dienstes an diesem Speicherort verwendet werden können. Der Server garantiert, dass genau ein HiveMetastoreVersion in der Liste auf is_default gesetzt ist.
    • RELEASE_CHANNEL: Die Release-Version des Dienstes.
    • SUBNET1, SUBNET2 (optional): Liste der Subnetzwerke, über die auf den Dienst zugegriffen werden kann. Dies kann die ID des Subnetzwerks, eine voll qualifizierte URL oder ein relativer Name sein. Wenn „--network“ angegeben ist, kann „--consumer-subnetworks“ nicht angegeben werden.
    • K1=V1,K2=V2: Optional: Die verwendeten Hive-Metastore-Konfigurationen.
    • KERBEROS_PRINCIPAL: Optional: Ein Kerberos-Hauptkonto, das sowohl auf dem Keytab als auch im KDC vorhanden ist. Ein typisches Hauptkonto hat das Format „primary/instance@REALM“, aber es gibt kein genaues Format.
    • KRB5_CONFIG: Optional: Die Datei krb5.config gibt die KDC- und Kerberos-Echtzeitinformationen an, die Standorte von KDCs und Standardeinstellungen für den Bereich und die Kerberos-Anwendungen umfassen.
    • CLOUD_SECRET: Optional: Der relative Ressourcenname einer Secret-Version von Secret Manager.
    • KMS_KEY: Bezieht sich auf die Schlüsselressourcen-ID.
  2. Prüfen Sie, ob die Erstellung erfolgreich war.

REST

Folgen Sie der API-Anleitung zum Erstellen eines Dienstes mit dem APIs Explorer.

Weitere Informationen