Cloud Composer 1 è in modalità post-manutenzione. Google non rilascia ulteriori aggiornamenti a Cloud Composer 1, incluse nuove versioni di Airflow, correzioni di bug e aggiornamenti della sicurezza. Ti consigliamo di pianificare la migrazione a Cloud Composer 2.

Questa pagina è stata tradotta dall'API Cloud Translation.

Esegui un DAG di Data Analytics in Google Cloud utilizzando i dati di Azure

Cloud Composer 3 | Cloud Composer 2 | Cloud Composer 1

Questo tutorial è una modifica di Esegui un DAG di analisi dei dati in Google Cloud che mostra come connettere l'ambiente Cloud Composer a Microsoft Azure per utilizzare i dati archiviati al suo interno. Mostra come utilizzare Cloud Composer per creare un DAG di Apache Airflow. Il DAG unisce i dati di un set di dati pubblico BigQuery e di un file CSV archiviato in un contenitore Azure Blob Storage, quindi esegue un job batch Dataproc Serverless per elaborare i dati uniti.

Il set di dati pubblico di BigQuery in questo tutorial è ghcn_d, un database integrato di riepiloghi climatici in tutto il mondo. Il file CSV contiene informazioni sulle date e sui nomi delle festività degli Stati Uniti dal 1997 al 2021.

La domanda a cui vogliamo rispondere utilizzando il DAG è: "Quanto faceva caldo a Chicago in occasione del Giorno del Ringraziamento negli ultimi 25 anni?"

Obiettivi

Creare un ambiente Cloud Composer nella configurazione predefinita
Creare un blob in Azure
crea un set di dati BigQuery vuoto
Creare un nuovo bucket Cloud Storage
Crea ed esegui un DAG che includa le seguenti attività:
- Carica un set di dati esterno da Azure Blob Storage in Cloud Storage
- Carica un set di dati esterno da Cloud Storage in BigQuery
- Unisci due set di dati in BigQuery
- Esegui un job PySpark di analisi dei dati

Prima di iniziare

Abilita API

Abilita le seguenti API:

Console

Enable the Dataproc, Cloud Composer, BigQuery, Cloud Storage APIs.

Enable the APIs

gcloud

Enable the Dataproc, Cloud Composer, BigQuery, Cloud Storage APIs:

gcloud services enable dataproc.googleapis.com  composer.googleapis.com  bigquery.googleapis.com  storage.googleapis.com

Concedi le autorizzazioni

Concedi i seguenti ruoli e autorizzazioni al tuo account utente:

Concedi ruoli per la gestione degli ambienti e dei bucket di ambienti Cloud Composer.
Concedi il ruolo BigQuery Data Owner (roles/bigquery.dataOwner) per creare un set di dati BigQuery.
Concedi il ruolo Amministratore Storage (roles/storage.admin) per creare un bucket Cloud Storage.

Crea e prepara l'ambiente Cloud Composer

Crea un ambiente Cloud Composer con i parametri predefinite:
- Scegli una regione con sede negli Stati Uniti.
- Scegli l'ultima versione di Cloud Composer.
Nota: la parte di BigQuery di questo tutorial deve essere eseguita nella regione con più zone US. Ti consigliamo di scegliere una regione degli Stati Uniti per il tuo ambiente Cloud Composer per ridurre i costi e la latenza, ma il tutorial può essere eseguito anche se il tuo ambiente Cloud Composer si trova in un'altra regione.
Concedi i seguenti ruoli all'account di servizio utilizzato nel tuo ambiente Cloud Composer affinché i worker Airflow possano eseguire correttamente le attività DAG:
- Utente BigQuery (roles/bigquery.user)
- Proprietario dei dati BigQuery (roles/bigquery.dataOwner)
- Utente account di servizio (roles/iam.serviceAccountUser)
- Editor Dataproc (roles/dataproc.editor)
- Dataproc Worker (roles/dataproc.worker)

Crea e modifica le risorse correlate in Google Cloud

Installa il apache-airflow-providers-microsoft-azure pacchetto PyPI nel tuo ambiente Cloud Composer.
Crea un set di dati BigQuery vuoto con i seguenti parametri:
- Nome: holiday_weather
- Regione: US
Crea un nuovo bucket Cloud Storage nella regione multipla US.
Esegui il seguente comando per abilitare l'accesso privato Google nella subnet predefinita della regione in cui vuoi eseguire Dataproc Serverless per soddisfare i requisiti di rete. Ti consigliamo di utilizzare la stessa regione del tuo ambiente Cloud Composer.
```
gcloud compute networks subnets update default \
    --region DATAPROC_SERVERLESS_REGION \
    --enable-private-ip-google-access
```

Creare risorse correlate in Azure

Crea un account di archiviazione con le impostazioni predefinite.
Ottieni la chiave di accesso e la stringa di connessione per il tuo account di archiviazione.
Crea un contenitore con le opzioni predefinite nell'account di archiviazione appena creato.
Concede il ruolo Storage Blob Delegator per il contenitore creato nel passaggio precedente.
Carica holidays.csv per creare un blocco BLOB con le opzioni predefinite nel portale di Azure.
Crea un token SAS per il blocco blob creato nel passaggio precedente nel portale di Azure.
- Metodo di firma: chiave di delega utente
- Autorizzazioni: Lettura
- Indirizzo IP consentito: nessuno
- Protocolli consentiti: solo HTTPS

Connettiti ad Azure da Cloud Composer

Aggiungi la connessione Microsoft Azure utilizzando l'interfaccia utente di Airflow:

Vai ad Amministrazione > Connessioni.
Crea una nuova connessione con la seguente configurazione:
- ID connessione: azure_blob_connection
- Tipo di connessione: Azure Blob Storage
- Accesso a Blob Storage:il nome del tuo account di archiviazione
- Chiave Blob Storage:la chiave di accesso per il tuo account di archiviazione
- Stringa di connessione dell'account Blob Storage:la stringa di connessione dell'account di archiviazione
- Token SAS:il token SAS generato dal tuo blob

Elaborazione dei dati utilizzando Dataproc Serverless

Esplora il job PySpark di esempio

Il codice riportato di seguito è un esempio di job PySpark che converte la temperatura da décimos de grado Celsius a gradi Celsius. Questo job converte i dati sulla temperatura del set di dati in un formato diverso.

import sys


from py4j.protocol import Py4JJavaError
from pyspark.sql import SparkSession
from pyspark.sql.functions import col


if __name__ == "__main__":
    BUCKET_NAME = sys.argv[1]
    READ_TABLE = sys.argv[2]
    WRITE_TABLE = sys.argv[3]

    # Create a SparkSession, viewable via the Spark UI
    spark = SparkSession.builder.appName("data_processing").getOrCreate()

    # Load data into dataframe if READ_TABLE exists
    try:
        df = spark.read.format("bigquery").load(READ_TABLE)
    except Py4JJavaError as e:
        raise Exception(f"Error reading {READ_TABLE}") from e

    # Convert temperature from tenths of a degree in celsius to degrees celsius
    df = df.withColumn("value", col("value") / 10)
    # Display sample of rows
    df.show(n=20)

    # Write results to GCS
    if "--dry-run" in sys.argv:
        print("Data will not be uploaded to BigQuery")
    else:
        # Set GCS temp location
        temp_path = BUCKET_NAME

        # Saving the data to BigQuery using the "indirect path" method and the spark-bigquery connector
        # Uses the "overwrite" SaveMode to ensure DAG doesn't fail when being re-run
        # See https://spark.apache.org/docs/latest/sql-data-sources-load-save-functions.html#save-modes
        # for other save mode options
        df.write.format("bigquery").option("temporaryGcsBucket", temp_path).mode(
            "overwrite"
        ).save(WRITE_TABLE)
        print("Data written to BigQuery")

Carica il file PySpark su Cloud Storage

Per caricare il file PySpark su Cloud Storage:

Salva data_analytics_process.py sulla tua macchina locale.
Nella console Google Cloud, vai alla pagina Browser Cloud Storage:

Vai al browser Cloud Storage
Fai clic sul nome del bucket creato in precedenza.
Nella scheda Oggetti del bucket, fai clic sul pulsante Carica file, seleziona data_analytics_process.py nella finestra di dialogo visualizzata e fai clic su Apri.

DAG di analisi dei dati

Esplora il DAG di esempio

Il DAG utilizza più operatori per trasformare e unificare i dati:

Il comando AzureBlobStorageToGCSOperator trasferisce il file holidays.csv dal blocco blob di Azure al bucket Cloud Storage.
GCSToBigQueryOperator importa il file holidays.csv da Cloud Storage in una nuova tabella del set di dati BigQueryholidays_weather creato in precedenza.
Il script DataprocCreateBatchOperator crea ed esegue un job batch PySpark utilizzando Dataproc Serverless.
BigQueryInsertJobOperator unisce i dati di holidays.csv nella colonna "Data" con i dati meteo del set di dati pubblico BigQuery ghcn_d. Le attività BigQueryInsertJobOperator vengono generate dinamicamente utilizzando un ciclo for e si trovano in un TaskGroup per una migliore leggibilità nella visualizzazione del grafico dell'interfaccia utente di Airflow.

import datetime

from airflow import models
from airflow.providers.google.cloud.operators import dataproc
from airflow.providers.google.cloud.operators.bigquery import BigQueryInsertJobOperator
from airflow.providers.google.cloud.transfers.gcs_to_bigquery import (
    GCSToBigQueryOperator,
)
from airflow.providers.microsoft.azure.transfers.azure_blob_to_gcs import (
    AzureBlobStorageToGCSOperator,
)
from airflow.utils.task_group import TaskGroup

PROJECT_NAME = "{{var.value.gcp_project}}"
REGION = "{{var.value.gce_region}}"

# BigQuery configs
BQ_DESTINATION_DATASET_NAME = "holiday_weather"
BQ_DESTINATION_TABLE_NAME = "holidays_weather_joined"
BQ_NORMALIZED_TABLE_NAME = "holidays_weather_normalized"

# Dataproc configs
BUCKET_NAME = "{{var.value.gcs_bucket}}"
PYSPARK_JAR = "gs://spark-lib/bigquery/spark-bigquery-latest_2.12.jar"
PROCESSING_PYTHON_FILE = f"gs://{BUCKET_NAME}/data_analytics_process.py"

# Azure configs
AZURE_BLOB_NAME = "{{var.value.azure_blob_name}}"
AZURE_CONTAINER_NAME = "{{var.value.azure_container_name}}"

BATCH_ID = "data-processing-{{ ts_nodash | lower}}"  # Dataproc serverless only allows lowercase characters
BATCH_CONFIG = {
    "pyspark_batch": {
        "jar_file_uris": [PYSPARK_JAR],
        "main_python_file_uri": PROCESSING_PYTHON_FILE,
        "args": [
            BUCKET_NAME,
            f"{BQ_DESTINATION_DATASET_NAME}.{BQ_DESTINATION_TABLE_NAME}",
            f"{BQ_DESTINATION_DATASET_NAME}.{BQ_NORMALIZED_TABLE_NAME}",
        ],
    },
    "environment_config": {
        "execution_config": {
            "service_account": "{{var.value.dataproc_service_account}}"
        }
    },
}

yesterday = datetime.datetime.combine(
    datetime.datetime.today() - datetime.timedelta(1), datetime.datetime.min.time()
)

default_dag_args = {
    # Setting start date as yesterday starts the DAG immediately when it is
    # detected in the Cloud Storage bucket.
    "start_date": yesterday,
    # To email on failure or retry set 'email' arg to your email and enable
    # emailing here.
    "email_on_failure": False,
    "email_on_retry": False,
}

with models.DAG(
    "azure_to_gcs_dag",
    # Continue to run DAG once per day
    schedule_interval=datetime.timedelta(days=1),
    default_args=default_dag_args,
) as dag:
    azure_blob_to_gcs = AzureBlobStorageToGCSOperator(
        task_id="azure_blob_to_gcs",
        # Azure args
        blob_name=AZURE_BLOB_NAME,
        container_name=AZURE_CONTAINER_NAME,
        wasb_conn_id="azure_blob_connection",
        filename=f"https://console.cloud.google.com/storage/browser/{BUCKET_NAME}/",
        # GCP args
        gcp_conn_id="google_cloud_default",
        object_name="holidays.csv",
        bucket_name=BUCKET_NAME,
        gzip=False,
        impersonation_chain=None,
    )

    create_batch = dataproc.DataprocCreateBatchOperator(
        task_id="create_batch",
        project_id=PROJECT_NAME,
        region=REGION,
        batch=BATCH_CONFIG,
        batch_id=BATCH_ID,
    )

    load_external_dataset = GCSToBigQueryOperator(
        task_id="run_bq_external_ingestion",
        bucket=BUCKET_NAME,
        source_objects=["holidays.csv"],
        destination_project_dataset_table=f"{BQ_DESTINATION_DATASET_NAME}.holidays",
        source_format="CSV",
        schema_fields=[
            {"name": "Date", "type": "DATE"},
            {"name": "Holiday", "type": "STRING"},
        ],
        skip_leading_rows=1,
        write_disposition="WRITE_TRUNCATE",
    )

    with TaskGroup("join_bq_datasets") as bq_join_group:
        for year in range(1997, 2022):
            BQ_DATASET_NAME = f"bigquery-public-data.ghcn_d.ghcnd_{str(year)}"
            BQ_DESTINATION_TABLE_NAME = "holidays_weather_joined"
            # Specifically query a Chicago weather station
            WEATHER_HOLIDAYS_JOIN_QUERY = f"""
            SELECT Holidays.Date, Holiday, id, element, value
            FROM `{PROJECT_NAME}.holiday_weather.holidays` AS Holidays
            JOIN (SELECT id, date, element, value FROM {BQ_DATASET_NAME} AS Table
            WHERE Table.element="TMAX" AND Table.id="USW00094846") AS Weather
            ON Holidays.Date = Weather.Date;
            """

            # For demo purposes we are using WRITE_APPEND
            # but if you run the DAG repeatedly it will continue to append
            # Your use case may be different, see the Job docs
            # https://cloud.google.com/bigquery/docs/reference/rest/v2/Job
            # for alternative values for the writeDisposition
            # or consider using partitioned tables
            # https://cloud.google.com/bigquery/docs/partitioned-tables
            bq_join_holidays_weather_data = BigQueryInsertJobOperator(
                task_id=f"bq_join_holidays_weather_data_{str(year)}",
                configuration={
                    "query": {
                        "query": WEATHER_HOLIDAYS_JOIN_QUERY,
                        "useLegacySql": False,
                        "destinationTable": {
                            "projectId": PROJECT_NAME,
                            "datasetId": BQ_DESTINATION_DATASET_NAME,
                            "tableId": BQ_DESTINATION_TABLE_NAME,
                        },
                        "writeDisposition": "WRITE_APPEND",
                    }
                },
                location="US",
            )

        azure_blob_to_gcs >> load_external_dataset >> bq_join_group >> create_batch

Utilizzare l'interfaccia utente di Airflow per aggiungere variabili

In Airflow, le variabili sono un modo universale per archiviare e recuperare impostazioni o configurazioni arbitrarie come un semplice archivio di chiavi e valori. Questo DAG utilizza le variabili Airflow per memorizzare i valori comuni. Per aggiungerle al tuo ambiente:

Accedi all'interfaccia utente di Airflow dalla console Cloud Composer.
Vai ad Amministrazione > Variabili.
Aggiungi le seguenti variabili:
- gcp_project: il tuo ID progetto.
- gcs_bucket: il nome del bucket creato in precedenza (senza il prefisso gs://).
- gce_region: la regione in cui vuoi che il tuo job Dataproc soddisfi i requisiti di rete di Dataproc Serverless. Si tratta della regione in cui hai attivato l'accesso privato Google in precedenza.
- dataproc_service_account: l'account di servizio per il tuo ambiente Cloud Composer. Puoi trovare questo account servizio nella scheda di configurazione dell'ambiente per il tuo ambiente Cloud Composer.
- azure_blob_name: il nome del blob creato in precedenza.
- azure_container_name: il nome del contenitore creato in precedenza.

Carica il DAG nel bucket del tuo ambiente

Cloud Composer pianifica i DAG che si trovano nella /dags cartella del bucket del tuo ambiente. Per caricare il DAG utilizzando la console Google Cloud:

Sulla tua macchina locale, salva azureblobstoretogcsoperator_tutorial.py.
Nella console Google Cloud, vai alla pagina Ambienti.

Vai ad Ambienti
Nell'elenco degli ambienti, nella colonna Cartella DAG, fai clic sul link DAG. Viene aperta la cartella DAG del tuo ambiente.
Fai clic su Carica file.
Seleziona azureblobstoretogcsoperator_tutorial.py sulla tua macchina locale e fai clic su Apri.

Attiva il DAG

Nell'ambiente Cloud Composer, fai clic sulla scheda DAG.
Fai clic sull'ID DAG azure_blob_to_gcs_dag.
Fai clic su Attiva DAG.
Attendi circa cinque-dieci minuti finché non viene visualizzato un segno di spunta verde che indica che le attività sono state completate correttamente.

Convalida l'esito positivo del DAG

Nella console Google Cloud, vai alla pagina BigQuery.

Vai a BigQuery
Nel riquadro Explorer, fai clic sul nome del progetto.
Fai clic su holidays_weather_joined.
Fai clic su Anteprima per visualizzare la tabella risultante. Tieni presente che i numeri nella colonna valore sono in decimi di grado Celsius.
Fai clic su holidays_weather_normalized.
Fai clic su Anteprima per visualizzare la tabella risultante. Tieni presente che i numeri nella colonna valore sono in gradi Celsius.

Esegui la pulizia

Elimina le singole risorse che hai creato per questo tutorial:

Elimina il contenitore che hai creato in Azure.
Elimina il bucket Cloud Storage che hai creato per questo tutorial.
Elimina il set di dati BigQuery.
Elimina l'ambiente Cloud Composer, inclusa l'eliminazione manuale del bucket dell'ambiente.