Cloud Composer 1 befindet sich im Modus nach der Wartung. Google veröffentlicht keine weiteren Updates für Cloud Composer 1, einschließlich neuer Versionen von Airflow, Fehlerkorrekturen und Sicherheitsupdates. Wir empfehlen die Migration zu Cloud Composer 2.

Datenanalyse-DAG in Google Cloud mit Daten aus Azure ausführen

Cloud Composer 1 Cloud Composer 2

Diese Anleitung ist eine Änderung des Abschnitts Datenanalyse-DAG in Google Cloud ausführen. Sie zeigt, wie Sie Ihre Cloud Composer-Umgebung mit Microsoft Azure verbinden, um die dort gespeicherten Daten zu verwenden. Es wird gezeigt, wie Sie mit Cloud Composer einen Apache Airflow-DAG erstellen. Der DAG führt Daten aus einem öffentlichen BigQuery-Dataset mit einer CSV-Datei zusammen, die in einem Azure Blob Storage gespeichert sind, und führt dann einen Dataproc Serverless-Batchjob aus, um die verknüpften Daten zu verarbeiten.

Das öffentliche BigQuery-Dataset in dieser Anleitung ist ghcn_d, eine integrierte Datenbank mit globalen Klimazusammenfassungen. Die CSV-Datei enthält Informationen zu den Daten und Namen von Feiertagen in den USA von 1997 bis 2021.

Die Frage, die wir mit dem DAG beantworten möchten, lautet: „Wie warm war es in Chicago am Thanksgiving in den letzten 25 Jahren?“

Lernziele

Cloud Composer-Umgebung in der Standardkonfiguration erstellen
Blob in Azure erstellen
Leeres BigQuery-Dataset erstellen
Neuen Cloud Storage-Bucket erstellen
Erstellen Sie einen DAG, der die folgenden Aufgaben enthält, und führen Sie ihn aus:
- Externes Dataset aus Azure Blob Storage in Cloud Storage laden
- Externes Dataset aus Cloud Storage in BigQuery laden
- Zwei Datasets in BigQuery verknüpfen
- PySpark-Data-Analytics-Job ausführen

Hinweise

APIs aktivieren

Aktivieren Sie folgende APIs:

Console

Enable the Dataproc, Cloud Composer, BigQuery, Cloud Storage APIs.

Enable the APIs

gcloud

Enable the Dataproc, Cloud Composer, BigQuery, Cloud Storage APIs:

gcloud services enable dataproc.googleapis.com  composer.googleapis.com  bigquery.googleapis.com  storage.googleapis.com

Berechtigungen erteilen

Weisen Sie Ihrem Nutzerkonto die folgenden Rollen und Berechtigungen zu:

Gewähren Sie Rollen zum Verwalten von Cloud Composer-Umgebungen und Umgebungs-Buckets.
Weisen Sie die Rolle BigQuery-Dateninhaber (roles/bigquery.dataOwner) zu, um ein BigQuery-Dataset zu erstellen.
Gewähren Sie die Rolle Storage Admin (roles/storage.admin) zum Erstellen eines Cloud Storage-Buckets.

Cloud Composer-Umgebung erstellen und vorbereiten

Erstellen Sie eine Cloud Composer-Umgebung mit Standardparametern:
- Wählen Sie eine Region in den USA aus.
- Wählen Sie die neueste Cloud Composer-Version aus.
Hinweis: Der BigQuery-Abschnitt dieser Anleitung muss am multiregionalen Standort US ausgeführt werden. Wir empfehlen, für Ihre Cloud Composer-Umgebung eine Region in den USA auszuwählen, um Kosten und Latenz zu reduzieren. Die Anleitung kann jedoch weiterhin ausgeführt werden, wenn sich Ihre Cloud Composer-Umgebung in einer anderen Region befindet.
Weisen Sie dem Dienstkonto, das in Ihrer Cloud Composer-Umgebung verwendet wird, die folgenden Rollen zu, damit die Airflow-Worker DAG-Aufgaben erfolgreich ausführen können:
- BigQuery-Nutzer (roles/bigquery.user)
- BigQuery-Dateninhaber (roles/bigquery.dataOwner)
- Dienstkontonutzer (roles/iam.serviceAccountUser)
- Dataproc-Editor (roles/dataproc.editor)
- Dataproc-Worker (roles/dataproc.worker)

Zugehörige Ressourcen in Google Cloud erstellen und ändern

Installieren Sie das PyPI-Paket apache-airflow-providers-microsoft-azure in Ihrer Cloud Composer-Umgebung.
Erstellen Sie ein leeres BigQuery-Dataset mit den folgenden Parametern:
- Name: holiday_weather
- Region: US
Erstellen Sie einen neuen Cloud Storage-Bucket am multiregionalen Standort US.
Führen Sie den folgenden Befehl aus, um den privaten Google-Zugriff im Standardsubnetz der Region zu aktivieren, in der Sie Dataproc Serverless ausführen möchten, um die Netzwerkanforderungen zu erfüllen. Wir empfehlen, dieselbe Region wie in Ihrer Cloud Composer-Umgebung zu verwenden.
```
gcloud compute networks subnets update default \
    --region DATAPROC_SERVERLESS_REGION \
    --enable-private-ip-google-access
```

Zugehörige Ressourcen in Azure erstellen

Erstellen Sie ein Speicherkonto mit den Standardeinstellungen.
Rufen Sie den Zugriffsschlüssel und den Verbindungsstring für Ihr Speicherkonto ab.
Erstellen Sie einen Container mit Standardoptionen in Ihrem neu erstellten Speicherkonto.
Weisen Sie dem im vorherigen Schritt erstellten Container die Rolle Storage Blob Delegator zu.
Laden Sie holidays.csv hoch, um ein Block-Blob mit Standardoptionen im Azure-Portal zu erstellen.
Erstellen Sie ein SAS-Token für das Block-Blob, das Sie im vorherigen Schritt im Azure-Portal erstellt haben.
- Signierungsmethode: Schlüssel für die Nutzerdelegierung
- Berechtigungen: Lesen
- Zulässige IP-Adresse: keine
- Zulässige Protokolle: Nur HTTPS

Verbindung zu Azure von Cloud Composer herstellen

Fügen Sie über die Airflow-UI die Microsoft Azure-Verbindung hinzu:

Klicken Sie auf Admin > Verbindungen.
Erstellen Sie eine neue Verbindung mit der folgenden Konfiguration:
- Verbindungs-ID: azure_blob_connection
- Verbindungstyp: Azure Blob Storage
- Blob Storage Log-in:Name Ihres Speicherkontos
- Blob-Speicherschlüssel:der Zugriffsschlüssel für Ihr Speicherkonto
- Blob Storage Account Connection String (Verbindungsstring für das Blob-Speicherkonto): Ihr Verbindungsstring für das Speicherkonto.
- SAS-Token:das von Ihrem Blob generierte SAS-Token

Datenverarbeitung mit Dataproc Serverless

PySpark-Beispiel-Job ansehen

Der folgende Code ist ein PySpark-Beispieljob, der die Temperatur von Zehntelgrad Celsius in Grad Celsius umwandelt. Dieser Job wandelt Temperaturdaten aus dem Dataset in ein anderes Format um.

import sys

from py4j.protocol import Py4JJavaError
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

if __name__ == "__main__":
    BUCKET_NAME = sys.argv[1]
    READ_TABLE = sys.argv[2]
    WRITE_TABLE = sys.argv[3]

    # Create a SparkSession, viewable via the Spark UI
    spark = SparkSession.builder.appName("data_processing").getOrCreate()

    # Load data into dataframe if READ_TABLE exists
    try:
        df = spark.read.format("bigquery").load(READ_TABLE)
    except Py4JJavaError as e:
        raise Exception(f"Error reading {READ_TABLE}") from e

    # Convert temperature from tenths of a degree in celsius to degrees celsius
    df = df.withColumn("value", col("value") / 10)
    # Display sample of rows
    df.show(n=20)

    # Write results to GCS
    if "--dry-run" in sys.argv:
        print("Data will not be uploaded to BigQuery")
    else:
        # Set GCS temp location
        temp_path = BUCKET_NAME

        # Saving the data to BigQuery using the "indirect path" method and the spark-bigquery connector
        # Uses the "overwrite" SaveMode to ensure DAG doesn't fail when being re-run
        # See https://spark.apache.org/docs/latest/sql-data-sources-load-save-functions.html#save-modes
        # for other save mode options
        df.write.format("bigquery").option("temporaryGcsBucket", temp_path).mode(
            "overwrite"
        ).save(WRITE_TABLE)
        print("Data written to BigQuery")

PySpark-Datei in Cloud Storage hochladen

So laden Sie die PySpark-Datei in Cloud Storage hoch:

Speichern Sie data_analytics_process.py auf Ihrem lokalen Computer.
Rufen Sie in der Google Cloud Console die Seite Cloud Storage-Browser auf:

Zum Cloud Storage-Browser
Klicken Sie auf den Namen des Buckets, den Sie zuvor erstellt haben.
Klicken Sie im Tab Objekte für den Bucket auf die Schaltfläche Dateien hochladen, wählen Sie im angezeigten Dialogfeld data_analytics_process.py aus und klicken Sie auf Öffnen.