In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:
- Dataproc
- Compute Engine
- Cloud Composer
Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen.
Hinweis
Projekt einrichten
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc, Compute Engine, and Cloud Composer APIs.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc, Compute Engine, and Cloud Composer APIs.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
Dataproc-Workflow-Vorlage erstellen
Kopieren Sie die unten aufgeführten Befehle und führen Sie sie in einem lokalen Terminalfenster oder in Cloud Shell aus, um eine Workflow-Vorlage zu erstellen und zu definieren.
- Erstelle die Workflow-Vorlage
sparkpi
.gcloud dataproc workflow-templates create sparkpi \ --region=us-central1
- Fügen Sie der Workflow-Vorlage
sparkpi
den Spark-Job hinzu. Das „compute“-Flagstep-id
identifiziert den SparkPi-Job.gcloud dataproc workflow-templates add-job spark \ --workflow-template=sparkpi \ --step-id=compute \ --class=org.apache.spark.examples.SparkPi \ --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \ --region=us-central1 \ -- 1000
- Führen Sie den Workflow mit einem verwalteten Cluster mit einem einzelnen Knoten aus. Dataproc erstellt den Cluster, führt darauf den Workflow aus und löscht den Cluster, wenn der Workflow abgeschlossen ist.
gcloud dataproc workflow-templates set-managed-cluster sparkpi \ --cluster-name=sparkpi \ --single-node \ --region=us-central1
- Erstellen der Workflow-Vorlage bestätigen.
Console
Klicken Sie in der Google Cloud Console auf der Dataproc-Seite Workflows auf den Namen
sparkpi
, um die Seite Workflow-Vorlagendetails zu öffnen. Klicken Sie auf den Namen Ihrer Workflow-Vorlage, um diesparkpi
-Vorlagenattribute zu bestätigen.gcloud-Befehl
Führen Sie dazu diesen Befehl aus:
gcloud dataproc workflow-templates describe sparkpi --region=us-central1
DAG erstellen und in Cloud Storage hochladen
- Eine Cloud Composer-Umgebung erstellen oder eine vorhandene verwenden
- Umgebungsvariablen festlegen
Airflow-UI
- Klicken Sie in der Symbolleiste auf Admin > Variables.
- Klicken Sie auf Erstellen.
- Geben Sie die folgenden Informationen ein:
- Key:
project_id
- Val: PROJECT_ID – Ihre Google Cloud-Projekt-ID
- Key:
- Klicken Sie auf Speichern.
gcloud-Befehl
Geben Sie die folgenden Befehle ein:
ENVIRONMENT
ist der Name der Cloud Composer-Umgebung.LOCATION
ist die Region, in der sich die Cloud Composer-Umgebung befindet.
gcloud composer environments run ENVIRONMENT \ --location LOCATION
- Kopieren Sie den folgenden DAG-Code lokal in eine Datei namens „composer-dataproc-dag.py“, die den DataprocInstantiateWorkflowTemplateOperator verwendet.
Airflow 2
Airflow 1
- Führen Sie ein Upload des DAG in Ihren Umgebungsordner in Cloud Storage aus. Wenn der Upload erfolgreich abgeschlossen wurde, klicken Sie auf der Seite der Cloud Composer-Umgebung auf den Link DAGs-Ordner.
Status der Aufgabe ansehen
Airflow-UI
- Öffnen Sie die Airflow-Weboberfläche.
- Klicken Sie auf der Seite "DAGs" auf den DAG-Namen, z. B.
dataproc_workflow_dag
. - Klicken Sie auf der DAGs-Detailseite auf Grafikansicht.
- Prüfen Sie den Status:
- Fehlgeschlagen: Die Aufgabe ist rot umrandet. Sie können auch den Mauszeiger über die Aufgabe halten und nach State: Failed suchen.
- Erfolgreich: Die Aufgabe ist grün umrandet. Sie können auch den Mauszeiger über die Aufgabe halten und nach State: Success suchen.
Console
Klicken Sie auf den Tab „Workflows“, um den Workflow-Status anzusehen.
gcloud-Befehl
gcloud dataproc operations list \ --region=us-central1 \ --filter="labels.goog-dataproc-workflow-template-id=sparkpi"
Bereinigen
Um zu vermeiden, dass Ihrem Google Cloud-Konto Gebühren in Rechnung gestellt werden, löschen Sie die in dieser Anleitung verwendeten Ressourcen.