Cloud Composer 1 befindet sich im Modus nach der Wartung. Google veröffentlicht keine weiteren Updates für Cloud Composer 1, einschließlich neuer Versionen von Airflow, Fehlerkorrekturen und Sicherheitsupdates. Wir empfehlen die Migration zu Cloud Composer 2.

Diese Seite wurde von der Cloud Translation API übersetzt.

DAG für Datenanalysen in Google Cloud ausführen

Cloud Composer 3 | Cloud Composer 2 | Cloud Composer 1

In dieser Anleitung wird gezeigt, wie Sie mit Cloud Composer einen Apache Airflow-DAG erstellen. Der DAG führt Daten aus einem öffentlichen BigQuery-Dataset und einer CSV-Datei zusammen, die in einem Cloud Storage-Bucket gespeichert ist. Anschließend wird ein Dataproc Serverless-Batchjob ausgeführt, um die zusammengeführten Daten zu verarbeiten.

Das öffentliche BigQuery-Dataset in dieser Anleitung ist ghcn_d, eine integrierte Datenbank mit Klimazusammenfassungen auf der ganzen Welt. Die CSV-Datei enthält Informationen zu den Daten und Namen von US-Feiertagen von 1997 bis 2021.

Mit dem DAG möchten wir die Frage beantworten: „Wie warm war es in Chicago an Thanksgiving in den letzten 25 Jahren?“

Lernziele

Cloud Composer-Umgebung in der Standardkonfiguration erstellen
Leeres BigQuery-Dataset erstellen
Neuen Cloud Storage-Bucket erstellen
Erstellen und führen Sie einen DAG mit den folgenden Aufgaben aus:
- Externes Dataset aus Cloud Storage in BigQuery laden
- Zwei Datasets in BigQuery zusammenführen
- PySpark-Job für Datenanalyse ausführen

Hinweis

APIs aktivieren

Aktivieren Sie folgende APIs:

Console

Enable the Dataproc, Cloud Composer, BigQuery, Cloud Storage APIs.

Enable the APIs

gcloud

Enable the Dataproc, Cloud Composer, BigQuery, Cloud Storage APIs:

gcloud services enable dataproc.googleapis.com  composer.googleapis.com  bigquery.googleapis.com  storage.googleapis.com

Berechtigungen erteilen

Weisen Sie Ihrem Nutzerkonto die folgenden Rollen und Berechtigungen zu:

Weisen Sie Rollen zum Verwalten von Cloud Composer-Umgebungen und Umgebungs-Buckets zu.
Weisen Sie die Rolle BigQuery-Dateninhaber (roles/bigquery.dataOwner) zu, um ein BigQuery-Dataset zu erstellen.
Weisen Sie die Rolle Storage-Administrator (roles/storage.admin) zu, um einen Cloud Storage-Bucket zu erstellen.

Cloud Composer-Umgebung erstellen und vorbereiten

Erstellen Sie eine Cloud Composer-Umgebung mit den Standardparametern:
- Wählen Sie eine Region in den USA aus.
- Wählen Sie die neueste Cloud Composer-Version aus.
Hinweis: Der BigQuery-Teil dieser Anleitung muss in der US-Multiregion ausgeführt werden. Wir empfehlen, eine Region in den USA für Ihre Cloud Composer-Umgebung auszuwählen, um Kosten und Latenz zu reduzieren. Das Tutorial kann aber auch ausgeführt werden, wenn sich Ihre Cloud Composer-Umgebung in einer anderen Region befindet.
Weisen Sie dem Dienstkonto, das in Ihrer Cloud Composer-Umgebung verwendet wird, die folgenden Rollen zu, damit die Airflow-Worker DAG-Aufgaben erfolgreich ausführen können:
- BigQuery-Nutzer (roles/bigquery.user)
- BigQuery-Dateninhaber (roles/bigquery.dataOwner)
- Dienstkontonutzer (roles/iam.serviceAccountUser)
- Dataproc-Bearbeiter (roles/dataproc.editor)
- Dataproc-Worker (roles/dataproc.worker)

Zugehörige Ressourcen erstellen

Erstellen Sie ein leeres BigQuery-Dataset mit den folgenden Parametern:
- Name: holiday_weather
- Region: US
Erstellen Sie einen neuen Cloud Storage-Bucket in der Multi-Region US.
Führen Sie den folgenden Befehl aus, um privaten Google-Zugriff im Standardsubnetz in der Region zu aktivieren, in der Sie Dataproc Serverless ausführen möchten, um die Netzwerkanforderungen zu erfüllen. Wir empfehlen, dieselbe Region wie für Ihre Cloud Composer-Umgebung zu verwenden.
```
gcloud compute networks subnets update default \
    --region DATAPROC_SERVERLESS_REGION \
    --enable-private-ip-google-access
```

Datenverarbeitung mit Dataproc Serverless

Beispiel für einen PySpark-Job ansehen

Der folgende Code ist ein Beispiel für einen PySpark-Job, mit dem Temperaturen von Zehntelgraden Celsius in Grad Celsius umgewandelt werden. Mit diesem Job werden Temperaturdaten aus dem Datensatz in ein anderes Format konvertiert.

import sys


from py4j.protocol import Py4JJavaError
from pyspark.sql import SparkSession
from pyspark.sql.functions import col


if __name__ == "__main__":
    BUCKET_NAME = sys.argv[1]
    READ_TABLE = sys.argv[2]
    WRITE_TABLE = sys.argv[3]

    # Create a SparkSession, viewable via the Spark UI
    spark = SparkSession.builder.appName("data_processing").getOrCreate()

    # Load data into dataframe if READ_TABLE exists
    try:
        df = spark.read.format("bigquery").load(READ_TABLE)
    except Py4JJavaError as e:
        raise Exception(f"Error reading {READ_TABLE}") from e

    # Convert temperature from tenths of a degree in celsius to degrees celsius
    df = df.withColumn("value", col("value") / 10)
    # Display sample of rows
    df.show(n=20)

    # Write results to GCS
    if "--dry-run" in sys.argv:
        print("Data will not be uploaded to BigQuery")
    else:
        # Set GCS temp location
        temp_path = BUCKET_NAME

        # Saving the data to BigQuery using the "indirect path" method and the spark-bigquery connector
        # Uses the "overwrite" SaveMode to ensure DAG doesn't fail when being re-run
        # See https://spark.apache.org/docs/latest/sql-data-sources-load-save-functions.html#save-modes
        # for other save mode options
        df.write.format("bigquery").option("temporaryGcsBucket", temp_path).mode(
            "overwrite"
        ).save(WRITE_TABLE)
        print("Data written to BigQuery")

Nachweisdateien in Cloud Storage hochladen

So laden Sie die PySpark-Datei und den in holidays.csv gespeicherten Datensatz hoch:

Speichern Sie data_analytics_process.py auf Ihrem lokalen Computer.
Speichern Sie holidays.csv auf Ihrem lokalen Computer.
Rufen Sie in der Google Cloud Console die Seite Cloud Storage-Browser auf:

Zum Cloud Storage Browser
Klicken Sie auf den Namen des zuvor erstellten Buckets.
Klicken Sie auf dem Tab Objekte für den Bucket auf die Schaltfläche Dateien hochladen, wählen Sie im angezeigten Dialogfeld data_analytics_process.py und holidays.csv aus und klicken Sie auf Öffnen.