Kurzanleitung: Dataproc Metastore-Dienst und -Cluster erstellen

Dataproc Metastore-Dienst und -Cluster erstellen

Auf dieser Seite erfahren Sie, wie Sie einen Dataproc Metastore-Dienst und einen Dataproc-Cluster erstellen, der den Dienst als Hive-Metastore verwendet.

Hinweis

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Cloud-Projekt muss aktiviert sein. So prüfen Sie, ob die Abrechnung für ein Projekt aktiviert ist.

  4. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  5. Die Abrechnung für das Cloud-Projekt muss aktiviert sein. So prüfen Sie, ob die Abrechnung für ein Projekt aktiviert ist.

  6. Dataproc Metastore API aktivieren.

    Aktivieren Sie die API

Zugriffssteuerung

  • Zum Erstellen eines Dienstes müssen Sie eine IAM-Rolle mit der IAM-Berechtigung metastore.services.create anfordern. Die Dataproc Metastore-spezifischen Rollen roles/metastore.admin und roles/metastore.editor enthalten die Berechtigung zum Erstellen.

  • Mithilfe der Legacy-Rollen roles/owner und roles/editor können Sie Nutzern oder Gruppen die Berechtigung zum Erstellen erteilen.

Zum Abrufen und Festlegen von IAM-Richtlinien können Sie Folgendes verwenden:

Weitere Informationen finden Sie unter Dataproc Metastore-IAM und -Zugriffssteuerung.

Dataproc Metastore-Dienst erstellen

In der folgenden Anleitung wird gezeigt, wie Sie einen Dataproc Metastore-Dienst mit der Google Cloud Console, der gcloud-Befehlszeile oder der Dataproc Metastore API erstellen.

Console

  1. Öffnen Sie in der Cloud Console die Seite Dienst erstellen:

    Seite „Dienst erstellen“ in der Cloud Console öffnen

    Seite „Dienst erstellen“
  2. Geben Sie im Feld Name des Dienstkontos example-service ein.

  3. Wählen Sie den Speicherort der Daten aus. Informationen zum Auswählen einer Region finden Sie unter Cloud-Standorte.

  4. Übernehmen Sie für die anderen Optionen der Dienstkonfiguration die angegebenen Standardeinstellungen.

  5. Klicken Sie auf die Schaltfläche Senden, um den Dienst zu erstellen und zu starten.

Ihr neuer Dienst wird in der Liste der Dienste angezeigt.

gcloud

Erstellen Sie mit dem folgenden Befehl gcloud metastore services create einen Dienst:

 gcloud metastore services create example-service \
     --location=LOCATION
 

Ersetzen Sie LOCATION durch die Compute Engine-Region, in der der Dienst erstellt werden soll. Achten Sie darauf, dass Dataproc Metastore am Standort verfügbar ist.

REST

Folgen Sie der API-Anleitung zum Erstellen eines Dienstes mit dem APIs Explorer.

Dataproc-Cluster erstellen, der den Dienst verwendet

Nachdem Sie einen Dienst erstellt haben, können Sie einen Dataproc-Cluster erstellen und anhängen, der den Dienst als Hive-Metastore verwendet.

Das Dataproc-Image und die Dataproc Metastore Hive-Version müssen kompatibel sein. Prüfen Sie auf den folgenden Seiten zur Image-Versionierung, ob die Hive-Version kompatibel ist:

  • Dataproc-Releaseversionen 2.0.x
  • Dataproc-Releaseversionen 1.5.x
  • Dataproc-Releaseversionen 1.4.x

Weitere Informationen finden Sie in der Liste der Dataproc-Image-Versionen.

Console

  1. Öffnen Sie in der Cloud Console die Dataproc-Seite Cluster erstellen.

    Seite Cluster erstellen“ in der Cloud Console öffnen

  2. Geben Sie im Feld Clustername example-cluster ein.

  3. Wählen Sie im Menü Region und Zone die Region und die Zone für den Cluster aus. Sie können eine bestimmte Region auswählen, um Ressourcen und Metadatenspeicherorte innerhalb der angegebenen Region zu isolieren. Wenn Sie eine bestimmte Region auswählen, können Sie für die Zone die Einstellung "Keine Einstellung" auswählen, damit Dataproc eine Zone innerhalb der ausgewählten Region für Ihren Cluster auswählen kann (siehe Automatische Zonenplatzierung von Dataproc).

  4. Verwenden Sie die verfügbaren Standardwerte für alle anderen Optionen.

  5. Klicken Sie auf den Tab Cluster anpassen.

  6. Wählen Sie im Abschnitt Netzwerkkonfiguration dasselbe Netzwerk aus, das bei der Erstellung des Metastore-Dienstes angegeben wurde.

  7. Wählen Sie im Abschnitt Dataproc Metastore die Option example-service aus.

  8. Klicken Sie auf Erstellen, um den Cluster zu erstellen.

Der neue Cluster wird nun in der Liste „Cluster“ angezeigt. Der Cluster verbleibt solange im Status „Wird bereitgestellt“, bis er zur Verwendung bereit ist. Der zugehörige Status wird dann in „Wird ausgeführt“ geändert.

gcloud

Erstellen Sie mit dem folgenden Befehl gcloud dataproc clusters create einen Cluster:

 gcloud dataproc clusters create example-cluster \
    --dataproc-metastore=projects/PROJECT_ID/locations/LOCATION/services/example-service \
    --region=LOCATION
 

Ersetzen Sie PROJECT_ID durch die Projekt-ID des Projekts, in dem Sie den Dataproc Metastore-Dienst erstellt haben.

Ersetzen Sie LOCATION durch die Region, die Sie für den Dataproc Metastore-Dienst angegeben haben.

REST

Folgen Sie der API-Anleitung zum Erstellen eines Clusters mit dem APIs Explorer.

Bereinigen

Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die auf dieser Seite verwendeten Ressourcen in Rechnung gestellt werden:

  1. Wechseln Sie in der Console zur Seite Ressourcen verwalten.

    Zur Seite „Ressourcen verwalten“

  2. Wenn das Projekt, das Sie löschen möchten, an eine Organisation geknüpft ist, maximieren Sie in der Spalte Name die Liste Organisation.
  3. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
  4. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.

Alternativ können Sie die Ressourcen löschen, die in dieser Anleitung verwendet werden:

  1. Löschen Sie den Dataproc Metastore-Dienst.

    Console

    1. Öffnen Sie in der Cloud Console die Dataproc Metastore-Seite:

      Dataproc Metastore in der Cloud Console öffnen

    2. Klicken Sie links neben dem Dienstnamen auf das Kästchen für example-service.

    3. Klicken Sie oben auf der Seite Dataproc Metastore auf Löschen, um den Dienst zu löschen.

    4. Klicken Sie im Dialogfeld auf Löschen, um den Löschvorgang zu bestätigen.

    Ihr Dienst wird nicht mehr in der Liste der Dienste angezeigt.

    gcloud

    Führen Sie den folgenden gcloud metastore services delete-Befehl aus, um einen Dienst zu löschen:

     gcloud metastore services delete example-service \
         --location=LOCATION
     

    Ersetzen Sie LOCATION durch die Compute Engine-Region, in der der Dienst erstellt wurde.

    REST

    Folgen Sie der API-Anleitung, um einen Dienst mithilfe des APIs Explorers zu löschen.

    Alle Löschvorgänge werden sofort ausgeführt.

  2. Löschen Sie den Cloud Storage-Bucket für den Dataproc Metastore-Dienst.

  3. Löschen Sie den Dataproc-Cluster, der den Dataproc Metastore-Dienst verwendet hat.

Weitere Informationen