A 15 de setembro de 2026, todas as versões do Cloud Composer 1 e as versões 2.0.x do Cloud Composer 2 vão atingir o fim de vida planeado. Não vai poder usar ambientes com estas versões. Recomendamos que planeie a migração para o Cloud Composer 3. As versões 2.1.x e posteriores do Cloud Composer 2 continuam a ser suportadas e não são afetadas por esta alteração.

Esta página foi traduzida pela API Cloud Translation.

Execute um DAG de análise de dados em Google Cloud

Cloud Composer 3 | Cloud Composer 2 | Cloud Composer 1

Este tutorial mostra como usar o Cloud Composer para criar um DAG do Apache Airflow. O DAG junta dados de um conjunto de dados público do BigQuery e de um ficheiro CSV armazenado num contentor do Cloud Storage e, em seguida, executa uma tarefa em lote doGoogle Cloud Serverless para Apache Spark para processar os dados unidos.

O conjunto de dados públicos do BigQuery neste tutorial é o ghcn_d, uma base de dados integrada de resumos climáticos em todo o mundo. O ficheiro CSV contém informações sobre as datas e os nomes dos feriados nos EUA de 1997 a 2021.

A pergunta à qual queremos responder usando o DAG é: "Qual foi a temperatura em Chicago no Dia de Ação de Graças nos últimos 25 anos?"

Objetivos

Crie um ambiente do Cloud Composer na configuração predefinida
Crie um conjunto de dados do BigQuery vazio
Crie um novo contentor do Cloud Storage
Crie e execute um DAG que inclua as seguintes tarefas:
- Carregue um conjunto de dados externo do Cloud Storage para o BigQuery
- Junte dois conjuntos de dados no BigQuery
- Execute uma tarefa PySpark de análise de dados

Antes de começar

Ativar APIs

Ative as seguintes APIs:

Consola

Enable the Dataproc, Cloud Composer, BigQuery, Cloud Storage APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

gcloud

Enable the Dataproc, Cloud Composer, BigQuery, Cloud Storage APIs:

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

gcloud services enable dataproc.googleapis.com  composer.googleapis.com  bigquery.googleapis.com  storage.googleapis.com

Conceder autorizações

Conceda as seguintes funções e autorizações à sua conta de utilizador:

Conceda funções para gerir ambientes do Cloud Composer e contentores de ambientes.
Conceda a função de proprietário de dados do BigQuery (roles/bigquery.dataOwner) para criar um conjunto de dados do BigQuery.
Conceda a função de administrador de armazenamento (roles/storage.admin) para criar um contentor do Cloud Storage.

Crie e prepare o seu ambiente do Cloud Composer

Crie um ambiente do Cloud Composer com os parâmetros predefinidos:
- Escolha uma região sediada nos EUA.
- Escolha a versão do Cloud Composer mais recente.
Nota: a parte do BigQuery deste tutorial tem de ser executada na US multirregião. Recomendamos que escolha uma região dos EUA para o seu ambiente do Cloud Composer de modo a reduzir o custo e a latência, mas o tutorial também pode ser executado se o seu ambiente do Cloud Composer estiver noutra região.
Conceda as seguintes funções à conta de serviço usada no seu ambiente do Cloud Composer para que os trabalhadores do Airflow executem com êxito as tarefas DAG:
- Utilizador do BigQuery (roles/bigquery.user)
- Proprietário dos dados do BigQuery (roles/bigquery.dataOwner)
- Utilizador da conta de serviço (roles/iam.serviceAccountUser)
- Editor do Dataproc (roles/dataproc.editor)
- Dataproc Worker (roles/dataproc.worker)

Crie recursos relacionados

Crie um conjunto de dados do BigQuery vazio com os seguintes parâmetros:
- Nome: holiday_weather
- Região: US
Crie um novo contentor do Cloud Storage na multirregião US.
Execute o seguinte comando para ativar o acesso privado à Google na sub-rede predefinida na região onde quer executar o Google Cloud Serverless para Apache Spark para cumprir os requisitos de rede. Recomendamos que use a mesma região que o seu ambiente do Cloud Composer.
```
gcloud compute networks subnets update default \
    --region DATAPROC_SERVERLESS_REGION \
    --enable-private-ip-google-access
```

Tratamento de dados com o Google Cloud Serverless para Apache Spark

Explore o exemplo de tarefa do PySpark

O código apresentado abaixo é um exemplo de uma tarefa do PySpark que converte a temperatura de décimas de grau em Celsius para graus Celsius. Esta tarefa converte os dados de temperatura do conjunto de dados num formato diferente.

import sys


from py4j.protocol import Py4JJavaError
from pyspark.sql import SparkSession
from pyspark.sql.functions import col


if __name__ == "__main__":
    BUCKET_NAME = sys.argv[1]
    READ_TABLE = sys.argv[2]
    WRITE_TABLE = sys.argv[3]

    # Create a SparkSession, viewable via the Spark UI
    spark = SparkSession.builder.appName("data_processing").getOrCreate()

    # Load data into dataframe if READ_TABLE exists
    try:
        df = spark.read.format("bigquery").load(READ_TABLE)
    except Py4JJavaError as e:
        raise Exception(f"Error reading {READ_TABLE}") from e

    # Convert temperature from tenths of a degree in celsius to degrees celsius
    df = df.withColumn("value", col("value") / 10)
    # Display sample of rows
    df.show(n=20)

    # Write results to GCS
    if "--dry-run" in sys.argv:
        print("Data will not be uploaded to BigQuery")
    else:
        # Set GCS temp location
        temp_path = BUCKET_NAME

        # Saving the data to BigQuery using the "indirect path" method and the spark-bigquery connector
        # Uses the "overwrite" SaveMode to ensure DAG doesn't fail when being re-run
        # See https://spark.apache.org/docs/latest/sql-data-sources-load-save-functions.html#save-modes
        # for other save mode options
        df.write.format("bigquery").option("temporaryGcsBucket", temp_path).mode(
            "overwrite"
        ).save(WRITE_TABLE)
        print("Data written to BigQuery")

Carregue ficheiros auxiliares para o Cloud Storage

Para carregar o ficheiro PySpark e o conjunto de dados armazenado em holidays.csv:

Guarde o ficheiro data_analytics_process.py na sua máquina local.
Guarde o ficheiro holidays.csv na sua máquina local.
Na Google Cloud consola, aceda à página do navegador do Cloud Storage:

Aceda ao navegador do Cloud Storage
Clique no nome do contentor que criou anteriormente.
No separador Objects do contentor, clique no botão Upload files, selecione data_analytics_process.py e holidays.csv na caixa de diálogo apresentada e clique em Open.

DAG de análise de dados

Explore o DAG de exemplo

O DAG usa vários operadores para transformar e unificar os dados:

O comando GCSToBigQueryOperator introduz o ficheiro holidays.csv do Cloud Storage numa nova tabela no conjunto de dados holidays_weather do BigQuery que criou anteriormente.
O comando DataprocCreateBatchOperator cria e executa uma tarefa em lote do PySpark usando o Serverless para Apache Spark.
O comando BigQueryInsertJobOperator junta os dados de holidays.csv na coluna "Date" com os dados meteorológicos do conjunto de dados público do BigQuery ghcn_d. As tarefas BigQueryInsertJobOperator são geradas dinamicamente através de um ciclo for, e estas tarefas estão num TaskGroup para uma melhor legibilidade na vista de gráfico da IU do Airflow.

import datetime

from airflow import models
from airflow.providers.google.cloud.operators import dataproc
from airflow.providers.google.cloud.operators.bigquery import BigQueryInsertJobOperator
from airflow.providers.google.cloud.transfers.gcs_to_bigquery import (
    GCSToBigQueryOperator,
)
from airflow.utils.task_group import TaskGroup

PROJECT_NAME = "{{var.value.gcp_project}}"

# BigQuery configs
BQ_DESTINATION_DATASET_NAME = "holiday_weather"
BQ_DESTINATION_TABLE_NAME = "holidays_weather_joined"
BQ_NORMALIZED_TABLE_NAME = "holidays_weather_normalized"

# Dataproc configs
BUCKET_NAME = "{{var.value.gcs_bucket}}"
PROCESSING_PYTHON_FILE = f"gs://{BUCKET_NAME}/data_analytics_process.py"

BATCH_ID = "data-processing-{{ ts_nodash | lower}}"  # Dataproc serverless only allows lowercase characters
BATCH_CONFIG = {
    "runtime_config": {"version": "1.1"},
    "pyspark_batch": {
        "main_python_file_uri": PROCESSING_PYTHON_FILE,
        "args": [
            BUCKET_NAME,
            f"{BQ_DESTINATION_DATASET_NAME}.{BQ_DESTINATION_TABLE_NAME}",
            f"{BQ_DESTINATION_DATASET_NAME}.{BQ_NORMALIZED_TABLE_NAME}",
        ],
    },
    "environment_config": {
        "execution_config": {
            "service_account": "{{var.value.dataproc_service_account}}"
        }
    },
}

yesterday = datetime.datetime.combine(
    datetime.datetime.today() - datetime.timedelta(1), datetime.datetime.min.time()
)

default_dag_args = {
    # Setting start date as yesterday starts the DAG immediately when it is
    # detected in the Cloud Storage bucket.
    "start_date": yesterday,
    # To email on failure or retry set 'email' arg to your email and enable
    # emailing here.
    "email_on_failure": False,
    "email_on_retry": False,
}

with models.DAG(
    "data_analytics_dag",
    # Continue to run DAG once per day
    schedule_interval=datetime.timedelta(days=1),
    default_args=default_dag_args,
) as dag:
    create_batch = dataproc.DataprocCreateBatchOperator(
        task_id="create_batch",
        project_id=PROJECT_NAME,
        region="{{ var.value.gce_region }}",
        batch=BATCH_CONFIG,
        batch_id=BATCH_ID,
    )
    # This data is static and it is safe to use WRITE_TRUNCATE
    # to reduce chance of 409 duplicate errors
    load_external_dataset = GCSToBigQueryOperator(
        task_id="run_bq_external_ingestion",
        bucket=BUCKET_NAME,
        source_objects=["holidays.csv"],
        destination_project_dataset_table=f"{BQ_DESTINATION_DATASET_NAME}.holidays",
        source_format="CSV",
        schema_fields=[
            {"name": "Date", "type": "DATE"},
            {"name": "Holiday", "type": "STRING"},
        ],
        skip_leading_rows=1,
        write_disposition="WRITE_TRUNCATE",
    )

    with TaskGroup("join_bq_datasets") as bq_join_group:
        for year in range(1997, 2022):
            # BigQuery configs
            BQ_DATASET_NAME = f"bigquery-public-data.ghcn_d.ghcnd_{str(year)}"
            BQ_DESTINATION_TABLE_NAME = "holidays_weather_joined"
            # Specifically query a Chicago weather station
            WEATHER_HOLIDAYS_JOIN_QUERY = f"""
            SELECT Holidays.Date, Holiday, id, element, value
            FROM `{PROJECT_NAME}.holiday_weather.holidays` AS Holidays
            JOIN (SELECT id, date, element, value FROM {BQ_DATASET_NAME} AS Table WHERE Table.element="TMAX" AND Table.id="USW00094846") AS Weather
            ON Holidays.Date = Weather.Date;
            """

            # for demo purposes we are using WRITE_APPEND
            # but if you run the DAG repeatedly it will continue to append
            # Your use case may be different, see the Job docs
            # https://cloud.google.com/bigquery/docs/reference/rest/v2/Job
            # for alternative values for the writeDisposition
            # or consider using partitioned tables
            # https://cloud.google.com/bigquery/docs/partitioned-tables
            bq_join_holidays_weather_data = BigQueryInsertJobOperator(
                task_id=f"bq_join_holidays_weather_data_{str(year)}",
                configuration={
                    "query": {
                        "query": WEATHER_HOLIDAYS_JOIN_QUERY,
                        "useLegacySql": False,
                        "destinationTable": {
                            "projectId": PROJECT_NAME,
                            "datasetId": BQ_DESTINATION_DATASET_NAME,
                            "tableId": BQ_DESTINATION_TABLE_NAME,
                        },
                        "writeDisposition": "WRITE_APPEND",
                    }
                },
                location="US",
            )

        load_external_dataset >> bq_join_group >> create_batch

Use a IU do Airflow para adicionar variáveis

No Airflow, as variáveis são uma forma universal de armazenar e obter definições ou configurações arbitrárias como um simples armazenamento de valores-chave. Este DAG usa variáveis do Airflow para armazenar valores comuns. Para as adicionar ao seu ambiente:

Aceda à IU do Airflow a partir da consola do Cloud Composer.
Aceda a Administração > Variáveis.
Adicione as seguintes variáveis:
- gcp_project: o ID do seu projeto.
- gcs_bucket: o nome do contentor que criou anteriormente (sem o prefixo gs://).
- gce_region: a região onde quer que a tarefa do Dataproc cumpra os Google Cloud requisitos de rede do Serverless para Apache Spark. Esta é a região onde ativou o acesso privado à Google anteriormente.
- dataproc_service_account: a conta de serviço do seu ambiente do Cloud Composer. Pode encontrar esta conta de serviço no separador de configuração do ambiente do seu ambiente do Cloud Composer.

Carregue o DAG para o contentor do seu ambiente

O Cloud Composer agenda DAGs localizados na pasta /dags no contentor do seu ambiente. Para carregar o DAG através da Google Cloud consola:

Na sua máquina local, guarde o ficheiro data_analytics_dag.py.
Na Google Cloud consola, aceda à página Ambientes.

Aceder a Ambientes
Na lista de ambientes, na coluna Pasta DAG, clique no link DAGs. A pasta DAGs do seu ambiente é aberta.
Clique em Carregar ficheiros.
Selecione data_analytics_dag.py no seu computador local e clique em Abrir.

Acione o DAG

No seu ambiente do Cloud Composer, clique no separador DAGs.
Clique no ID do DAG data_analytics_dag.
Clique em Acionar DAG.
Aguarde cerca de cinco a dez minutos até ver uma marca de verificação verde a indicar que as tarefas foram concluídas com êxito.

Valide o êxito do DAG

Na Google Cloud consola, aceda à página BigQuery.

Aceda ao BigQuery
No painel Explorador, clique no nome do projeto.
Clique em holidays_weather_joined.
Clique em pré-visualizar para ver a tabela resultante. Tenha em atenção que os números na coluna de valor estão em décimos de grau Celsius.
Clique em holidays_weather_normalized.
Clique em pré-visualizar para ver a tabela resultante. Tenha em atenção que os números na coluna de valor estão em graus Celsius.

Análise detalhada com o Google Cloud Serverless para Apache Spark (opcional)

Pode experimentar uma versão avançada deste DAG com um fluxo de processamento de dados PySpark mais complexo. Consulte a extensão do Dataproc para o exemplo de estatísticas de dados no GitHub.

Limpeza

Elimine os recursos individuais que criou para este tutorial:

Elimine o contentor do Cloud Storage que criou para este tutorial.
Elimine o conjunto de dados do BigQuery.
Elimine o ambiente do Cloud Composer, incluindo a eliminação manual do contentor do ambiente.