Ejecutar un DAG de Apache Airflow en Cloud Composer 3

Cloud Composer 3 | Cloud Composer 2 | Cloud Composer 1

En esta guía de inicio rápido se muestra cómo crear un entorno de Cloud Composer y ejecutar un DAG de Apache Airflow en Cloud Composer 3.

Antes de empezar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. Enable the Cloud Composer API.

    Enable the API

  7. Para obtener los permisos que necesitas para completar esta guía de inicio rápido, pide a tu administrador que te conceda los siguientes roles de gestión de identidades y accesos en tu proyecto:

    Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.

    También puedes conseguir los permisos necesarios a través de roles personalizados u otros roles predefinidos.

  8. Crear una cuenta de servicio de un entorno

    Cuando creas un entorno, especificas una cuenta de servicio. Esta cuenta de servicio se llama cuenta de servicio del entorno. Tu entorno usa esta cuenta de servicio para realizar la mayoría de las operaciones.

    La cuenta de servicio de tu entorno no es una cuenta de usuario. Una cuenta de servicio es un tipo especial de cuenta que usan las aplicaciones o las instancias de máquinas virtuales (VMs), no las personas.

    Para crear una cuenta de servicio para tu entorno, sigue estos pasos:

    1. Crea una cuenta de servicio, tal como se describe en la documentación de gestión de identidades y accesos.

    2. Asigna un rol, tal como se describe en la documentación de Gestión de Identidades y Accesos. El rol necesario es Trabajador de Composer (composer.worker).

    Crear entorno

    1. En la Google Cloud consola, ve a la página Crear entorno.

      Ir a Crear entorno

    2. En el campo Name (Nombre), introduce example-environment.

    3. En la lista desplegable Ubicación, selecciona una región para el entorno de Cloud Composer. En esta guía se usa la región us-central1.

    4. Para ver otras opciones de configuración del entorno, usa los valores predeterminados proporcionados.

    5. Haz clic en Crear y espera a que se cree el entorno.

    6. Cuando termine, aparecerá una marca de verificación verde junto al nombre del entorno.

    Crear un archivo DAG

    Un DAG de Airflow es una colección de tareas organizadas que quieres programar y ejecutar. Los DAGs se definen en archivos Python estándar.

    En esta guía se usa un ejemplo de DAG de Airflow definido en el archivo quickstart.py. El código Python de este archivo hace lo siguiente:

    1. Crea un DAG, composer_sample_dag. Este DAG se ejecuta todos los días.
    2. Ejecuta una tarea, print_dag_run_conf. La tarea imprime la configuración de la ejecución del DAG mediante el operador bash.

    Guarda una copia del archivo quickstart.py en tu máquina local:

    import datetime
    
    from airflow import models
    from airflow.operators import bash
    
    # If you are running Airflow in more than one time zone
    # see https://airflow.apache.org/docs/apache-airflow/stable/timezone.html
    # for best practices
    YESTERDAY = datetime.datetime.now() - datetime.timedelta(days=1)
    
    default_args = {
        "owner": "Composer Example",
        "depends_on_past": False,
        "email": [""],
        "email_on_failure": False,
        "email_on_retry": False,
        "retries": 1,
        "retry_delay": datetime.timedelta(minutes=5),
        "start_date": YESTERDAY,
    }
    
    with models.DAG(
        "composer_quickstart",
        catchup=False,
        default_args=default_args,
        schedule_interval=datetime.timedelta(days=1),
    ) as dag:
        # Print the dag_run id from the Airflow logs
        print_dag_run_conf = bash.BashOperator(
            task_id="print_dag_run_conf", bash_command="echo {{ dag_run.id }}"
        )

    Subir el archivo DAG al segmento de tu entorno

    Cada entorno de Cloud Composer tiene un bucket de Cloud Storage asociado. Airflow en Cloud Composer solo programa los DAGs que se encuentran en la carpeta /dags de este bucket.

    Para programar tu DAG, sube quickstart.py desde tu máquina local a la carpeta /dags de tu entorno:

    1. En la Google Cloud consola, ve a la página Entornos.

      Ir a Entornos

    2. En la lista de entornos, haz clic en el nombre del entorno. example-environment Se abrirá la página Detalles del entorno.

    3. Haz clic en Abrir carpeta de DAGs. Se abrirá la página Detalles del segmento.

    4. Haz clic en Subir archivos y, a continuación, selecciona tu copia de quickstart.py.

    5. Para subir el archivo, haz clic en Abrir.

    Ver el DAG

    Después de subir el archivo DAG, Airflow hace lo siguiente:

    1. Analiza el archivo DAG que has subido. El DAG puede tardar unos minutos en estar disponible en Airflow.
    2. Añade el DAG a la lista de DAGs disponibles.
    3. Ejecuta el DAG según la programación que hayas indicado en el archivo DAG.

    Comprueba que tu DAG se procese sin errores y que esté disponible en Airflow. Para ello, míralo en la interfaz de usuario de DAG. La interfaz de usuario de DAGs es la interfaz de Cloud Composer para ver información de los DAGs en la consola. Google Cloud Cloud Composer también proporciona acceso a la interfaz de usuario de Airflow, que es una interfaz web nativa de Airflow.

    1. Espera unos cinco minutos para que Airflow procese el archivo DAG que has subido anteriormente y para que se complete la primera ejecución del DAG (se explica más adelante).

    2. En la Google Cloud consola, ve a la página Entornos.

      Ir a Entornos

    3. En la lista de entornos, haz clic en el nombre del entorno. example-environment Se abrirá la página Detalles del entorno.

    4. Ve a la pestaña DAGs.

    5. Comprueba que el composer_quickstart DAG esté presente en la lista de DAGs.

      En la lista de DAGs se muestra el DAG composer_quickstart con
    información adicional, como el estado y la programación.
      Imagen 1. La lista de DAGs muestra el DAG composer_quickstart (haz clic para ampliarlo).

    Ver los detalles de una ejecución de DAG

    Una sola ejecución de un DAG se denomina ejecución de DAG. Airflow ejecuta inmediatamente una ejecución de DAG para el DAG de ejemplo porque la fecha de inicio del archivo DAG es ayer. De esta forma, Airflow se pone al día con la programación del DAG especificado.

    El DAG de ejemplo contiene una tarea, print_dag_run_conf, que ejecuta el comando echo en la consola. Este comando muestra metainformación sobre el DAG (identificador numérico de la ejecución del DAG).

    1. En la pestaña DAGs, haga clic en composer_quickstart. Se abre la pestaña Ejecuciones del DAG.

    2. En la lista de ejecuciones de DAG, haz clic en la primera entrada.

      La lista de ejecuciones de DAGs muestra la ejecución de DAGs reciente (su fecha de ejecución
    y su estado).
      Imagen 2. Lista de ejecuciones del DAG composer_quickstart (haz clic para ampliar)
    3. Se muestran los detalles de la ejecución del DAG, que incluyen información sobre las tareas individuales del DAG de ejemplo.

      La lista de tareas con una entrada print_dag_run_conf, su hora de inicio, hora de finalización y duración
      Imagen 3. Lista de tareas que se han ejecutado en la ejecución del DAG (haz clic para ampliar)
    4. En la sección Registros de la ejecución del DAG se muestran los registros de todas las tareas de la ejecución del DAG. Puedes ver el resultado del comando echo en los registros.

      Entradas de registro de la tarea. Una de ellas es Output y la otra muestra
    un identificador.
      Imagen 4. Registros de la tarea print_dag_run_conf (haz clic para ampliar)

    Limpieza

    Para evitar que se apliquen cargos en tu cuenta de Google Cloud por los recursos utilizados en esta página, sigue estos pasos.

    Elimina los recursos que has usado en este tutorial:

    1. Elimina el entorno de Cloud Composer:

      1. En la Google Cloud consola, ve a la página Entornos.

        Ir a Entornos

      2. Selecciona example-environment y haz clic en Eliminar.

      3. Espera a que se elimine el entorno.

    2. Elimina el segmento de tu entorno. Si eliminas el entorno de Cloud Composer, no se elimina su segmento.

      1. En la Google Cloud consola, ve a la página Almacenamiento > Navegador.

        Ve a Almacenamiento > Explorador.

      2. Selecciona el contenedor del entorno y haz clic en Eliminar. Por ejemplo, este contenedor se puede llamar us-central1-example-environ-c1616fe8-bucket.

    Siguientes pasos