El 15 de septiembre de 2026, todas las versiones de Cloud Composer 1 y las versiones 2.0.x de Cloud Composer 2 alcanzarán el final del ciclo de vida planificado. No podrás usar entornos con estas versiones. Te recomendamos que planifiques la migración a Cloud Composer 3. Las versiones 2.1.x y posteriores de Cloud Composer 2 siguen siendo compatibles y no se ven afectadas por este cambio.

Se usó la API de Cloud Translation para traducir esta página.

Ejecuta cargas de trabajo de Serverless para Apache Spark con Cloud Composer

Cloud Composer 3 | Cloud Composer 2 | Cloud Composer 1

En esta página, se describe cómo usar Cloud Composer 2 para ejecutar cargas de trabajo de Serverless para Apache Spark enGoogle Cloud.

En los ejemplos de las siguientes secciones, se muestra cómo usar los operadores para administrar cargas de trabajo por lotes de Serverless para Apache Spark. Usas estos operadores en DAGs que crean, borran, enumeran y obtienen una carga de trabajo por lotes de Serverless para Apache Spark:

Crea DAG para operadores que funcionen con cargas de trabajo por lotes de Serverless para Apache Spark:
Crea DAGs que usen contenedores personalizados y Dataproc Metastore.
Configura el servidor de historial persistente para estos DAG.

Antes de comenzar

Habilita la API de Dataproc:
Console

Enable the Dataproc API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the API
gcloud

Enable the Dataproc API:

Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
```
gcloud services enable dataproc.googleapis.com
```
Selecciona la ubicación del archivo de carga de trabajo por lotes. Puedes usar cualquiera de las siguientes opciones:
- Crea un bucket de Cloud Storage que almacene este archivo.
- Usa el bucket de tu entorno. Como no necesitas sincronizar este archivo con Airflow, puedes crear una subcarpeta independiente fuera de las carpetas /dags o /data. Por ejemplo, /batches.
- Usar un bucket existente

Configura archivos y variables de Airflow

En esta sección, se muestra cómo configurar archivos y variables de Airflow para este instructivo.

Sube un archivo de carga de trabajo de AA de Serverless para Apache Spark a un bucket

La carga de trabajo de este instructivo ejecuta una secuencia de comandos de PySpark:

Guarda cualquier secuencia de comandos de PySpark en un archivo local llamado spark-job.py. Por ejemplo, puedes usar la secuencia de comandos de muestra de PySpark.
Sube el archivo a la ubicación que seleccionaste en Antes de comenzar.

Configura variables de Airflow

En los ejemplos de las siguientes secciones, se usan variables de Airflow. Puedes establecer valores para estas variables en Airflow y, luego, el código de tu DAG podrá acceder a ellos.

En los ejemplos de este instructivo, se usan las siguientes variables de Airflow. Puedes establecerlos según sea necesario, según el ejemplo que uses.

Configura las siguientes variables de Airflow para usarlas en el código de tu DAG:

project_id: ID del proyecto
bucket_name: Es el URI de un bucket en el que se encuentra el archivo principal de Python de la carga de trabajo (spark-job.py). Seleccionaste esta ubicación en Antes de comenzar.
phs_cluster: Es el nombre del clúster del servidor de historial persistente. Establece esta variable cuando crees un servidor de historial persistente.
image_name: Nombre y etiqueta de la imagen de contenedor personalizada (image:tag). Estableces esta variable cuando usas una imagen de contenedor personalizada con DataprocCreateBatchOperator.
metastore_cluster: Es el nombre del servicio de Dataproc Metastore. Estableces esta variable cuando usas el servicio de Dataproc Metastore con DataprocCreateBatchOperator.
region_name: Es la región en la que se encuentra el servicio de Dataproc Metastore. Estableces esta variable cuando usas el servicio de Dataproc Metastore con DataprocCreateBatchOperator.

Usa la consola de Google Cloud y la IU de Airflow para establecer cada variable de Airflow

En la consola de Google Cloud , ve a la página Entornos.

Ir a Entornos
En la lista de entornos, haz clic en el vínculo de Airflow para tu entorno. Se abrirá la IU de Airflow.
En la IU de Airflow, selecciona Admin > Variables.
Haz clic en Agregar un registro nuevo.
Especifica el nombre de la variable en el campo Clave y establece su valor en el campo Val.
Haz clic en Guardar.

Crea un servidor de historial persistente

Usa un servidor de historial persistente (PHS) para ver los archivos de historial de Spark de tus cargas de trabajo por lotes:

Crea un servidor de historial persistente.
Asegúrate de haber especificado el nombre del clúster de PHS en la variable de Airflow phs_cluster.

DataprocCreateBatchOperator

El siguiente DAG inicia una carga de trabajo por lotes de Serverless para Apache Spark.

Para obtener más información sobre los argumentos de DataprocCreateBatchOperator, consulta el código fuente del operador.

Para obtener más información sobre los atributos que puedes pasar en el parámetro batch de DataprocCreateBatchOperator, consulta la descripción de la clase Batch.


"""
Examples below show how to use operators for managing Dataproc Serverless batch workloads.
 You use these operators in DAGs that create, delete, list, and get a Dataproc Serverless Spark batch workload.
https://airflow.apache.org/docs/apache-airflow/stable/concepts/variables.html
* project_id is the Google Cloud Project ID to use for the Cloud Dataproc Serverless.
* bucket_name is the URI of a bucket where the main python file of the workload (spark-job.py) is located.
* phs_cluster is the Persistent History Server cluster name.
* image_name is the name and tag of the custom container image (image:tag).
* metastore_cluster is the Dataproc Metastore service name.
* region_name is the region where the Dataproc Metastore service is located.
"""

import datetime

from airflow import models
from airflow.providers.google.cloud.operators.dataproc import (
    DataprocCreateBatchOperator,
    DataprocDeleteBatchOperator,
    DataprocGetBatchOperator,
    DataprocListBatchesOperator,
)
from airflow.utils.dates import days_ago

PROJECT_ID = "{{ var.value.project_id }}"
REGION = "{{ var.value.region_name}}"
BUCKET = "{{ var.value.bucket_name }}"
PHS_CLUSTER = "{{ var.value.phs_cluster }}"
METASTORE_CLUSTER = "{{var.value.metastore_cluster}}"
DOCKER_IMAGE = "{{var.value.image_name}}"

PYTHON_FILE_LOCATION = "gs://{{var.value.bucket_name }}/spark-job.py"
# for e.g.  "gs//my-bucket/spark-job.py"
# Start a single node Dataproc Cluster for viewing Persistent History of Spark jobs
PHS_CLUSTER_PATH = "projects/{{ var.value.project_id }}/regions/{{ var.value.region_name}}/clusters/{{ var.value.phs_cluster }}"
# for e.g. projects/my-project/regions/my-region/clusters/my-cluster"
SPARK_BIGQUERY_JAR_FILE = "gs://spark-lib/bigquery/spark-bigquery-latest_2.12.jar"
# use this for those pyspark jobs that need a spark-bigquery connector
# https://cloud.google.com/dataproc/docs/tutorials/bigquery-connector-spark-example
# Start a Dataproc MetaStore Cluster
METASTORE_SERVICE_LOCATION = "projects/{{var.value.project_id}}/locations/{{var.value.region_name}}/services/{{var.value.metastore_cluster }}"
# for e.g. projects/my-project/locations/my-region/services/my-cluster
CUSTOM_CONTAINER = "us.gcr.io/{{var.value.project_id}}/{{ var.value.image_name}}"
# for e.g. "us.gcr.io/my-project/quickstart-image",

default_args = {
    # Tell airflow to start one day ago, so that it runs as soon as you upload it
    "start_date": days_ago(1),
    "project_id": PROJECT_ID,
    "region": REGION,
}
with models.DAG(
    "dataproc_batch_operators",  # The id you will see in the DAG airflow page
    default_args=default_args,  # The interval with which to schedule the DAG
    schedule_interval=datetime.timedelta(days=1),  # Override to match your needs
) as dag:
    create_batch = DataprocCreateBatchOperator(
        task_id="batch_create",
        batch={
            "pyspark_batch": {
                "main_python_file_uri": PYTHON_FILE_LOCATION,
                "jar_file_uris": [SPARK_BIGQUERY_JAR_FILE],
            },
            "environment_config": {
                "peripherals_config": {
                    "spark_history_server_config": {
                        "dataproc_cluster": PHS_CLUSTER_PATH,
                    },
                },
            },
        },
        batch_id="batch-create-phs",
    )
    list_batches = DataprocListBatchesOperator(
        task_id="list-all-batches",
    )

    get_batch = DataprocGetBatchOperator(
        task_id="get_batch",
        batch_id="batch-create-phs",
    )
    delete_batch = DataprocDeleteBatchOperator(
        task_id="delete_batch",
        batch_id="batch-create-phs",
    )
    create_batch >> list_batches >> get_batch >> delete_batch

Usa una imagen de contenedor personalizada con DataprocCreateBatchOperator

En el siguiente ejemplo, se muestra cómo usar una imagen de contenedor personalizada para ejecutar tus cargas de trabajo. Puedes usar un contenedor personalizado, por ejemplo, para agregar dependencias de Python que no proporciona la imagen de contenedor predeterminada.

Para usar una imagen de contenedor personalizada, haz lo siguiente:

Crea una imagen de contenedor personalizada y súbela a Container Registry.
Especifica la imagen en la variable de Airflow image_name.
Usa DataprocCreateBatchOperator con tu imagen personalizada:

create_batch_with_custom_container = DataprocCreateBatchOperator(
    task_id="dataproc_custom_container",
    batch={
        "pyspark_batch": {
            "main_python_file_uri": PYTHON_FILE_LOCATION,
            "jar_file_uris": [SPARK_BIGQUERY_JAR_FILE],
        },
        "environment_config": {
            "peripherals_config": {
                "spark_history_server_config": {
                    "dataproc_cluster": PHS_CLUSTER_PATH,
                },
            },
        },
        "runtime_config": {
            "container_image": CUSTOM_CONTAINER,
        },
    },
    batch_id="batch-custom-container",
)
get_batch_custom = DataprocGetBatchOperator(
    task_id="get_batch_custom",
    batch_id="batch-custom-container",
)
delete_batch_custom = DataprocDeleteBatchOperator(
    task_id="delete_batch_custom",
    batch_id="batch-custom-container",
)
create_batch_with_custom_container >> get_batch_custom >> delete_batch_custom

Usa el servicio de Dataproc Metastore con DataprocCreateBatchOperator

Para usar un servicio de Dataproc Metastore desde un DAG, haz lo siguiente:

Comprueba que el servicio de metastore ya se haya iniciado.

Para obtener información sobre cómo iniciar un servicio de metastore, consulta Habilita e inhabilita Dataproc Metastore.

Para obtener información detallada sobre el operador de lotes para crear la configuración, consulta PeripheralsConfig.
Una vez que el servicio de metastore esté en funcionamiento, especifica su nombre en la variable metastore_cluster y su región en la region_name variable de Airflow.
Usa el servicio de metastore en DataprocCreateBatchOperator:

create_batch_with_metastore = DataprocCreateBatchOperator(
    task_id="dataproc_metastore",
    batch={
        "pyspark_batch": {
            "main_python_file_uri": PYTHON_FILE_LOCATION,
            "jar_file_uris": [SPARK_BIGQUERY_JAR_FILE],
        },
        "environment_config": {
            "peripherals_config": {
                "metastore_service": METASTORE_SERVICE_LOCATION,
                "spark_history_server_config": {
                    "dataproc_cluster": PHS_CLUSTER_PATH,
                },
            },
        },
    },
    batch_id="dataproc-metastore",
)
get_batch_metastore = DataprocGetBatchOperator(
    task_id="get_batch_metatstore",
    batch_id="dataproc-metastore",
)
delete_batch_metastore = DataprocDeleteBatchOperator(
    task_id="delete_batch_metastore",
    batch_id="dataproc-metastore",
)

create_batch_with_metastore >> get_batch_metastore >> delete_batch_metastore

DataprocDeleteBatchOperator

Puedes usar DataprocDeleteBatchOperator para borrar un lote según el ID del lote de la carga de trabajo.

delete_batch = DataprocDeleteBatchOperator(
    task_id="delete_batch",
    batch_id="batch-create-phs",
)

DataprocListBatchesOperator

DataprocDeleteBatchOperator enumera los lotes que existen dentro de un project_id y una región determinados.

list_batches = DataprocListBatchesOperator(
    task_id="list-all-batches",
)

DataprocGetBatchOperator

DataprocGetBatchOperator recupera una carga de trabajo por lotes en particular.

get_batch = DataprocGetBatchOperator(
    task_id="get_batch",
    batch_id="batch-create-phs",
)