Am 15. September 2026 erreichen alle Cloud Composer 1-Versionen und Versionen 2.0.x von Cloud Composer 2 das geplante End of Life. Mit diesen Versionen können Sie keine Umgebungen verwenden. Wir empfehlen, die Migration zu Cloud Composer 3 zu planen. Cloud Composer 2-Versionen 2.1.x und höher werden weiterhin unterstützt und sind von dieser Änderung nicht betroffen.

Diese Seite wurde von der Cloud Translation API übersetzt.

Datenanalyse-DAG in Google Cloud mit Daten aus Azure ausführen

Cloud Composer 3 | Cloud Composer 2 | Cloud Composer 1

Diese Anleitung ist eine Modifikation von DAG für die Datenanalyse in Google Cloud. Hier wird gezeigt, wie Sie Ihre Cloud Composer-Umgebung mit Microsoft Azure verbinden, um dort gespeicherte Daten zu nutzen. Darin wird gezeigt, wie Sie mit Cloud Composer einen Apache Airflow-DAG erstellen. Im DAG werden Daten aus einem öffentlichen BigQuery-Dataset und einer in einem Azure Blob Storage gespeicherten CSV-Datei zusammengeführt. Anschließend wird ein Google Cloud Serverless for Apache Spark-Batchjob ausgeführt, um die zusammengeführten Daten zu verarbeiten.

Das öffentliche BigQuery-Dataset in dieser Anleitung ist ghcn_d, eine integrierte Datenbank mit Klimazusammenfassungen weltweit. Die CSV-Datei enthält Informationen zu den Daten und Namen von Feiertagen in den USA von 1997 bis 2021.

Die Frage, die wir mit dem DAG beantworten möchten, lautet: „Wie warm war es in Chicago an Thanksgiving in den letzten 25 Jahren?“

Ziele

Cloud Composer-Umgebung in der Standardkonfiguration erstellen
Blob in Azure erstellen
Leeres BigQuery-Dataset erstellen
Neuen Cloud Storage-Bucket erstellen
Erstellen und führen Sie eine DAG mit den folgenden Aufgaben aus:
- Externes Dataset aus Azure Blob Storage in Cloud Storage laden
- Externes Dataset aus Cloud Storage in BigQuery laden
- Zwei Datasets in BigQuery zusammenführen
- PySpark-Job für die Datenanalyse ausführen

Hinweise

APIs aktivieren

Aktivieren Sie folgende APIs:

Console

Enable the Dataproc, Cloud Composer, BigQuery, Cloud Storage APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

gcloud

Enable the Dataproc, Cloud Composer, BigQuery, Cloud Storage APIs:

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

gcloud services enable dataproc.googleapis.com  composer.googleapis.com  bigquery.googleapis.com  storage.googleapis.com

Berechtigungen erteilen

Weisen Sie Ihrem Nutzerkonto die folgenden Rollen und Berechtigungen zu:

Rollen zum Verwalten von Cloud Composer-Umgebungen und Umgebungs-Buckets zuweisen
Weisen Sie die Rolle BigQuery-Dateninhaber (roles/bigquery.dataOwner) zu, um ein BigQuery-Dataset zu erstellen.
Weisen Sie die Rolle Storage-Administrator (roles/storage.admin) zu, um ein Cloud Storage-Bucket zu erstellen.

Cloud Composer-Umgebung erstellen und vorbereiten

Erstellen Sie eine Cloud Composer-Umgebung mit Standardparametern:
- Wählen Sie eine Region in den USA aus.
- Wählen Sie die aktuelle Cloud Composer-Version aus.
Hinweis: Der BigQuery-Teil dieser Anleitung muss in der Multiregion US ausgeführt werden. Wir empfehlen, für Ihre Cloud Composer-Umgebung eine US-Region auszuwählen, um Kosten und Latenz zu reduzieren. Das Tutorial kann aber auch ausgeführt werden, wenn sich Ihre Cloud Composer-Umgebung in einer anderen Region befindet.
Weisen Sie dem Dienstkonto, das in Ihrer Cloud Composer-Umgebung verwendet wird, die folgenden Rollen zu, damit die Airflow-Worker DAG-Aufgaben erfolgreich ausführen können:
- BigQuery-Nutzer (roles/bigquery.user)
- BigQuery-Dateninhaber (roles/bigquery.dataOwner)
- Dienstkontonutzer (roles/iam.serviceAccountUser)
- Dataproc-Bearbeiter (roles/dataproc.editor)
- Dataproc-Worker (roles/dataproc.worker)

Zugehörige Ressourcen in Google Clouderstellen und ändern

Installieren Sie das apache-airflow-providers-microsoft-azure PyPI-Paket in Ihrer Cloud Composer-Umgebung.
Leeres BigQuery-Dataset mit den folgenden Parametern erstellen:
- Name: holiday_weather
- Region: US
Erstellen Sie einen neuen Cloud Storage-Bucket in der Multiregion US.
Führen Sie den folgenden Befehl aus, um privaten Google-Zugriff im Standardsubnetz in der Region zu aktivieren, in der SieGoogle Cloud Serverless für Apache Spark ausführen möchten, um die Netzwerkanforderungen zu erfüllen. Es wird empfohlen, dieselbe Region wie für Ihre Cloud Composer-Umgebung zu verwenden.
```
gcloud compute networks subnets update default \
    --region DATAPROC_SERVERLESS_REGION \
    --enable-private-ip-google-access
```

Zugehörige Ressourcen in Azure erstellen

Erstellen Sie ein Speicherkonto mit den Standardeinstellungen.
Rufen Sie den Zugriffsschlüssel und die Verbindungszeichenfolge für Ihr Speicherkonto ab.
Erstellen Sie einen Container mit Standardoptionen in Ihrem neu erstellten Speicherkonto.
Weisen Sie die Rolle „Storage Blob Delegator“ für den im vorherigen Schritt erstellten Container zu.
Laden Sie holidays.csv hoch, um im Azure-Portal mit Standardoptionen ein Block-Blob zu erstellen.
Erstellen Sie im Azure-Portal ein SAS-Token für den Blockblob, den Sie im vorherigen Schritt erstellt haben.
- Signiermethode: Schlüssel für die Nutzerdelegierung
- Berechtigungen: Lesen
- Zulässige IP-Adresse: Keine
- Zulässige Protokolle: Nur HTTPS

Verbindung zu Azure über Cloud Composer herstellen

So fügen Sie Ihre Microsoft Azure-Verbindung über die Airflow-Benutzeroberfläche hinzu:

Klicken Sie auf Verwaltung > Verbindungen.
Erstellen Sie eine neue Verbindung mit der folgenden Konfiguration:
- Verbindungs-ID:azure_blob_connection
- Verbindungstyp:Azure Blob Storage
- Blob Storage-Anmeldung:Ihr Speicherkontoname
- Blob Storage-Schlüssel:Der Zugriffsschlüssel für Ihr Speicherkonto
- Blob Storage-Konto – Verbindungsstring:Der Verbindungsstring Ihres Speicherkontos
- SAS-Token:Das SAS-Token, das aus Ihrem Blob generiert wurde.

Datenverarbeitung mit Google Cloud Serverless für Apache Spark

PySpark-Beispieljob ansehen

Der unten gezeigte Code ist ein Beispiel für einen PySpark-Job, der die Temperatur von Zehntelgrad Celsius in Grad Celsius umrechnet. Mit diesem Job werden Temperaturdaten aus dem Dataset in ein anderes Format konvertiert.

import sys


from py4j.protocol import Py4JJavaError
from pyspark.sql import SparkSession
from pyspark.sql.functions import col


if __name__ == "__main__":
    BUCKET_NAME = sys.argv[1]
    READ_TABLE = sys.argv[2]
    WRITE_TABLE = sys.argv[3]

    # Create a SparkSession, viewable via the Spark UI
    spark = SparkSession.builder.appName("data_processing").getOrCreate()

    # Load data into dataframe if READ_TABLE exists
    try:
        df = spark.read.format("bigquery").load(READ_TABLE)
    except Py4JJavaError as e:
        raise Exception(f"Error reading {READ_TABLE}") from e

    # Convert temperature from tenths of a degree in celsius to degrees celsius
    df = df.withColumn("value", col("value") / 10)
    # Display sample of rows
    df.show(n=20)

    # Write results to GCS
    if "--dry-run" in sys.argv:
        print("Data will not be uploaded to BigQuery")
    else:
        # Set GCS temp location
        temp_path = BUCKET_NAME

        # Saving the data to BigQuery using the "indirect path" method and the spark-bigquery connector
        # Uses the "overwrite" SaveMode to ensure DAG doesn't fail when being re-run
        # See https://spark.apache.org/docs/latest/sql-data-sources-load-save-functions.html#save-modes
        # for other save mode options
        df.write.format("bigquery").option("temporaryGcsBucket", temp_path).mode(
            "overwrite"
        ).save(WRITE_TABLE)
        print("Data written to BigQuery")

PySpark-Datei in Cloud Storage hochladen

So laden Sie die PySpark-Datei in Cloud Storage hoch:

Speichern Sie data_analytics_process.py auf Ihrem lokalen Computer.
Wechseln Sie in der Google Cloud Console zur Seite Cloud Storage-Browser:

Zum Cloud Storage Browser
Klicken Sie auf den Namen des Buckets, den Sie zuvor erstellt haben.
Klicken Sie auf dem Tab Objekte für den Bucket auf die Schaltfläche Dateien hochladen, wählen Sie im angezeigten Dialogfeld data_analytics_process.py aus und klicken Sie auf Öffnen.

DAG für die Datenanalyse

Beispiel-DAG ansehen

Im DAG werden mehrere Operatoren verwendet, um die Daten zu transformieren und zu vereinheitlichen:

Mit dem AzureBlobStorageToGCSOperator wird die Datei holidays.csv aus Ihrem Azure-Blockblob in Ihren Cloud Storage-Bucket übertragen.
Mit dem GCSToBigQueryOperator-Task wird die Datei holidays.csv aus Cloud Storage in eine neue Tabelle im BigQuery-Dataset holidays_weather aufgenommen, das Sie zuvor erstellt haben.
Mit DataprocCreateBatchOperator wird ein PySpark-Batchjob mit Serverless für Apache Spark erstellt und ausgeführt.
Mit BigQueryInsertJobOperator werden die Daten aus holidays.csv in der Spalte „Date“ mit Wetterdaten aus dem öffentlichen BigQuery-Dataset ghcn_d zusammengeführt. Die BigQueryInsertJobOperator-Aufgaben werden dynamisch mit einer for-Schleife generiert und befinden sich in einem TaskGroup, um die Lesbarkeit in der Diagrammansicht der Airflow-Benutzeroberfläche zu verbessern.

import datetime

from airflow import models
from airflow.providers.google.cloud.operators import dataproc
from airflow.providers.google.cloud.operators.bigquery import BigQueryInsertJobOperator
from airflow.providers.google.cloud.transfers.gcs_to_bigquery import (
    GCSToBigQueryOperator,
)
from airflow.providers.microsoft.azure.transfers.azure_blob_to_gcs import (
    AzureBlobStorageToGCSOperator,
)
from airflow.utils.task_group import TaskGroup

PROJECT_NAME = "{{var.value.gcp_project}}"
REGION = "{{var.value.gce_region}}"

# BigQuery configs
BQ_DESTINATION_DATASET_NAME = "holiday_weather"
BQ_DESTINATION_TABLE_NAME = "holidays_weather_joined"
BQ_NORMALIZED_TABLE_NAME = "holidays_weather_normalized"

# Dataproc configs
BUCKET_NAME = "{{var.value.gcs_bucket}}"
PYSPARK_JAR = "gs://spark-lib/bigquery/spark-bigquery-latest_2.12.jar"
PROCESSING_PYTHON_FILE = f"gs://{BUCKET_NAME}/data_analytics_process.py"

# Azure configs
AZURE_BLOB_NAME = "{{var.value.azure_blob_name}}"
AZURE_CONTAINER_NAME = "{{var.value.azure_container_name}}"

BATCH_ID = "data-processing-{{ ts_nodash | lower}}"  # Dataproc serverless only allows lowercase characters
BATCH_CONFIG = {
    "pyspark_batch": {
        "jar_file_uris": [PYSPARK_JAR],
        "main_python_file_uri": PROCESSING_PYTHON_FILE,
        "args": [
            BUCKET_NAME,
            f"{BQ_DESTINATION_DATASET_NAME}.{BQ_DESTINATION_TABLE_NAME}",
            f"{BQ_DESTINATION_DATASET_NAME}.{BQ_NORMALIZED_TABLE_NAME}",
        ],
    },
    "environment_config": {
        "execution_config": {
            "service_account": "{{var.value.dataproc_service_account}}"
        }
    },
}

yesterday = datetime.datetime.combine(
    datetime.datetime.today() - datetime.timedelta(1), datetime.datetime.min.time()
)

default_dag_args = {
    # Setting start date as yesterday starts the DAG immediately when it is
    # detected in the Cloud Storage bucket.
    "start_date": yesterday,
    # To email on failure or retry set 'email' arg to your email and enable
    # emailing here.
    "email_on_failure": False,
    "email_on_retry": False,
}

with models.DAG(
    "azure_to_gcs_dag",
    # Continue to run DAG once per day
    schedule_interval=datetime.timedelta(days=1),
    default_args=default_dag_args,
) as dag:
    azure_blob_to_gcs = AzureBlobStorageToGCSOperator(
        task_id="azure_blob_to_gcs",
        # Azure args
        blob_name=AZURE_BLOB_NAME,
        container_name=AZURE_CONTAINER_NAME,
        wasb_conn_id="azure_blob_connection",
        filename=f"https://console.cloud.google.com/storage/browser/{BUCKET_NAME}/",
        # GCP args
        gcp_conn_id="google_cloud_default",
        object_name="holidays.csv",
        bucket_name=BUCKET_NAME,
        gzip=False,
        impersonation_chain=None,
    )

    create_batch = dataproc.DataprocCreateBatchOperator(
        task_id="create_batch",
        project_id=PROJECT_NAME,
        region=REGION,
        batch=BATCH_CONFIG,
        batch_id=BATCH_ID,
    )

    load_external_dataset = GCSToBigQueryOperator(
        task_id="run_bq_external_ingestion",
        bucket=BUCKET_NAME,
        source_objects=["holidays.csv"],
        destination_project_dataset_table=f"{BQ_DESTINATION_DATASET_NAME}.holidays",
        source_format="CSV",
        schema_fields=[
            {"name": "Date", "type": "DATE"},
            {"name": "Holiday", "type": "STRING"},
        ],
        skip_leading_rows=1,
        write_disposition="WRITE_TRUNCATE",
    )

    with TaskGroup("join_bq_datasets") as bq_join_group:
        for year in range(1997, 2022):
            BQ_DATASET_NAME = f"bigquery-public-data.ghcn_d.ghcnd_{str(year)}"
            BQ_DESTINATION_TABLE_NAME = "holidays_weather_joined"
            # Specifically query a Chicago weather station
            WEATHER_HOLIDAYS_JOIN_QUERY = f"""
            SELECT Holidays.Date, Holiday, id, element, value
            FROM `{PROJECT_NAME}.holiday_weather.holidays` AS Holidays
            JOIN (SELECT id, date, element, value FROM {BQ_DATASET_NAME} AS Table
            WHERE Table.element="TMAX" AND Table.id="USW00094846") AS Weather
            ON Holidays.Date = Weather.Date;
            """

            # For demo purposes we are using WRITE_APPEND
            # but if you run the DAG repeatedly it will continue to append
            # Your use case may be different, see the Job docs
            # https://cloud.google.com/bigquery/docs/reference/rest/v2/Job
            # for alternative values for the writeDisposition
            # or consider using partitioned tables
            # https://cloud.google.com/bigquery/docs/partitioned-tables
            bq_join_holidays_weather_data = BigQueryInsertJobOperator(
                task_id=f"bq_join_holidays_weather_data_{str(year)}",
                configuration={
                    "query": {
                        "query": WEATHER_HOLIDAYS_JOIN_QUERY,
                        "useLegacySql": False,
                        "destinationTable": {
                            "projectId": PROJECT_NAME,
                            "datasetId": BQ_DESTINATION_DATASET_NAME,
                            "tableId": BQ_DESTINATION_TABLE_NAME,
                        },
                        "writeDisposition": "WRITE_APPEND",
                    }
                },
                location="US",
            )

        azure_blob_to_gcs >> load_external_dataset >> bq_join_group >> create_batch

Variablen über die Airflow-Benutzeroberfläche hinzufügen

In Airflow sind Variablen eine universelle Möglichkeit, beliebige Einstellungen oder Konfigurationen als einfachen Schlüssel/Wert-Speicher zu speichern und abzurufen. In diesem DAG werden Airflow-Variablen zum Speichern allgemeiner Werte verwendet. So fügen Sie sie Ihrer Umgebung hinzu:

Über die Cloud Composer-Konsole auf die Airflow-UI zugreifen
Klicken Sie auf Verwaltung > Variablen.
Fügen Sie die folgenden Variablen hinzu:
- gcp_project: Ihre Projekt-ID.
- gcs_bucket: der Name des Buckets, den Sie zuvor erstellt haben (ohne das Präfix gs://).
- gce_region: Die Region, in der sich der Dataproc-Job befinden soll, der die Google Cloud Netzwerkanforderungen für Serverless for Apache Spark erfüllt. Das ist die Region, in der Sie zuvor den privaten Google-Zugriff aktiviert haben.
- dataproc_service_account: das Dienstkonto für Ihre Cloud Composer-Umgebung. Sie finden dieses Dienstkonto auf dem Tab „Umgebungskonfiguration“ für Ihre Cloud Composer-Umgebung.
- azure_blob_name: Der Name des Blobs, den Sie zuvor erstellt haben.
- azure_container_name: Der Name des Containers, den Sie zuvor erstellt haben.

DAG in den Bucket Ihrer Umgebung hochladen

Cloud Composer plant DAGs, die sich im Ordner /dags des Buckets Ihrer Umgebung befinden. So laden Sie den DAG über dieGoogle Cloud Console hoch:

Speichern Sie azureblobstoretogcsoperator_tutorial.py auf Ihrem lokalen Computer.
Rufen Sie in der Google Cloud Console die Seite Umgebungen auf.

Zur Seite Umgebungen
Klicken Sie in der Liste der Umgebungen in der Spalte DAG-Ordner auf den Link DAGs. Der DAGs-Ordner Ihrer Umgebung wird geöffnet.
Klicken Sie auf Dateien hochladen.
Wählen Sie azureblobstoretogcsoperator_tutorial.py auf Ihrem lokalen Computer aus und klicken Sie auf Öffnen.

DAG auslösen

Klicken Sie in Ihrer Cloud Composer-Umgebung auf den Tab DAGs.
Klicken Sie auf die DAG-ID azure_blob_to_gcs_dag.
Klicken Sie auf DAG auslösen.
Warten Sie etwa fünf bis zehn Minuten, bis ein grünes Häkchen angezeigt wird, das angibt, dass die Aufgaben erfolgreich abgeschlossen wurden.

Erfolg des DAG prüfen

Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

BigQuery aufrufen
Klicken Sie im Explorer-Bereich auf den Namen Ihres Projekts.
Klicken Sie auf holidays_weather_joined.
Klicken Sie auf „Vorschau“, um die resultierende Tabelle aufzurufen. Die Zahlen in der Spalte „Wert“ sind in Zehntelgrad Celsius angegeben.
Klicken Sie auf holidays_weather_normalized.
Klicken Sie auf „Vorschau“, um die resultierende Tabelle aufzurufen. Die Zahlen in der Spalte „Wert“ sind in Grad Celsius angegeben.

Bereinigen

Löschen Sie die einzelnen Ressourcen, die Sie für diese Anleitung erstellt haben:

Löschen Sie den Container, den Sie in Azure erstellt haben.
Löschen Sie den Cloud Storage-Bucket, den Sie für diese Anleitung erstellt haben.
Löschen Sie das BigQuery-Dataset.
Löschen Sie die Cloud Composer-Umgebung und löschen Sie den Bucket der Umgebung manuell.

Nächste Schritte

Data Analytics-DAG in Google Cloud ausführen
Data Analytics-DAG in AWS ausführen