Organizar canalizaciones

En esta página, se explica la organización de canalizaciones con Cloud Composer y los activadores. Cloud Data Fusion recomienda usar Cloud Composer para organizar las canalizaciones. Si necesitas una forma más sencilla de administrar la organización, usa activadores.

Composer

Organiza canalizaciones con Cloud Composer

La organización de la ejecución de canalizaciones en Cloud Data Fusion con Cloud Composer proporciona los siguientes beneficios:

  • Administración del flujo de trabajo centralizada: Administra de manera uniforme la ejecución de varias canalizaciones de Cloud Data Fusion.
  • Administración de dependencias: Para garantizar un orden de ejecución adecuado, define las dependencias entre las canalizaciones.
  • Supervisión y alertas: Cloud Composer proporciona capacidades de supervisión y alertas para fallas.
  • Integración en otros servicios: Cloud Composer te permite organizar flujos de trabajo que abarcan Cloud Data Fusion y otros servicios de Google Cloud.

Para organizar las canalizaciones de Cloud Data Fusion con Cloud Composer, sigue este proceso:

  1. Configura el entorno de Cloud Composer.

    • Crea un entorno de Cloud Composer. Si no tienes uno, aprovisiona el entorno en tu proyecto de Google Cloud. Este entorno es tu lugar de trabajo de organización.
    • Otorga permisos. Asegúrate de que la cuenta de servicio de Cloud Composer tenga los permisos necesarios para acceder a Cloud Data Fusion (como permiso para iniciar, detener y enumerar canalizaciones).
  2. Define grafos acíclicos dirigidos (DAG) para la organización.

    • Crea un DAG: En Cloud Composer, crea un DAG que defina el flujo de trabajo de organización para tus canalizaciones de Cloud Data Fusion.
    • Operadores de Cloud Data Fusion: Usa los operadores de Cloud Data Fusion de Cloud Composer en tu DAG. Estos operadores te permiten interactuar de manera programática con Cloud Data Fusion.

Operadores de Cloud Data Fusion

La organización de canalizaciones de Cloud Data Fusion tiene los siguientes operadores:

CloudDataFusionStartPipelineOperator

Activa la ejecución de una canalización de Cloud Data Fusion por su ID. Tiene los siguientes parámetros:

  • ID de la canalización
  • Ubicación (región de Google Cloud)
  • Espacio de nombres de la canalización
  • Argumentos de entorno de ejecución (opcional)
  • Esperar a que se complete el proceso (opcional)
  • Tiempo de espera (opcional)
CloudDataFusionStopPipelineOperator

Te permite detener una canalización de Cloud Data Fusion en ejecución.

CloudDataFusionDeletePipelineOperator

Borra una canalización de Cloud Data Fusion.

Compila el flujo de trabajo del DAG

Cuando compiles el flujo de trabajo del DAG, ten en cuenta lo siguiente:

  • Definición de dependencias: usa la estructura del DAG para definir dependencias entre tareas. Por ejemplo, es posible que tengas una tarea que espera a que se complete de forma correcta una canalización en un espacio de nombres antes de activar otra canalización en un espacio de nombres diferente.
  • Programación: Programa el DAG para que se ejecute a intervalos específicos, como por día o por hora, o configúralo para que se active de forma manual.

Para obtener más información, consulta la descripción general de Cloud Composer.

Activadores

Organiza canalizaciones con activadores

Los activadores de Cloud Data Fusion te permiten ejecutar de forma automática una canalización descendente cuando se completa (éxito, falla o cualquier condición especificada) de una o más canalizaciones ascendentes.

Los activadores son útiles para las siguientes tareas:

  • Limpiar los datos una vez y, luego, hacer que estén disponibles en varias canalizaciones descendentes para su consumo
  • Compartir información, como argumentos del entorno de ejecución y configuraciones de complementos, entre canalizaciones Esta tarea se llama configuración de carga útil.
  • Tener un conjunto de canalizaciones dinámicas que se ejecutan con los datos desde la hora, el día, la semana o el mes, en lugar de una canalización estática que debe actualizarse para cada ejecución

Por ejemplo, tienes un conjunto de datos que contiene toda la información sobre los envíos de tu empresa. A partir de estos datos, deseas responder varias preguntas empresariales. Para ello, debes crear una canalización que limpia los datos sin procesar sobre los envíos, llamada Limpieza de datos de envíos. Luego, creas una segunda canalización, Delayed Shipments USA, que lee los datos limpios y encuentra los envíos dentro de EE.UU. que se retrasaron más de un umbral especificado. La canalización Delayed Shipments USA se puede activar en cuanto la canalización ascendente Shipments Data Cleaning se complete con éxito.

Además, dado que la canalización descendente consume la salida de la canalización ascendente, debes especificar que cuando la canalización descendente se ejecute con este activador, también reciba el directorio de entrada desde el que se debe leer (que es el directorio en el que la canalización ascendente generó su resultado). Este proceso se denomina pasar la configuración de la carga útil, que se define con argumentos del entorno de ejecución. Te permite tener un conjunto de canalizaciones dinámicas que se ejecutan con los datos de la hora, el día, la semana o el mes (no una canalización estática, que debe actualizarse para cada ejecución).

Para organizar las canalizaciones con activadores, sigue este proceso:

  1. Crea canalizaciones ascendentes y descendentes.

    • En Cloud Data Fusion Studio, diseña e implementa las canalizaciones que forman tu cadena de organización.
    • Considera qué canalización activará la siguiente canalización (downstream) en tu flujo de trabajo.
  2. Opcional: Pasa argumentos del entorno de ejecución para las canalizaciones ascendentes.

  3. Crea un activador de entrada en la canalización descendente.

    • En Cloud Data Fusion Studio, ve a la página Lista. En la pestaña Implementado, haz clic en el nombre de la canalización descendente. Aparecerá la vista Implementar para esa canalización.
    • En el lado izquierdo del medio de la página, haz clic en Activadores de entrada. Aparecerá una lista de las canalizaciones disponibles.
    • Haz clic en la canalización ascendente. Selecciona uno o más de los estados de finalización de la canalización ascendente (Succeeds, Fails o Stops) como la condición para cuándo debe ejecutarse la canalización descendente.
    • Si deseas que la canalización ascendente comparta información (llamada configuración de carga útil) con la canalización descendente, haz clic en Configuración del activador y, luego, sigue los pasos para pasar la configuración de la carga útil como argumentos del entorno de ejecución. De lo contrario, haz clic en Habilitar activador.
  4. Prueba el activador.

    • Iniciar una ejecución de la canalización ascendente
    • Si el activador se configura de forma correcta, la canalización descendente se ejecuta de forma automática cuando se completan las canalizaciones ascendentes, según la condición configurada.

Pasa la configuración de la carga útil como argumentos del entorno de ejecución

La configuración de la carga útil permite compartir información desde la canalización ascendente hasta la canalización descendente. Esta información puede ser, por ejemplo, el directorio de salida, el formato de datos o el día en que se ejecutó la canalización. Luego, la canalización descendente usa esta información para tomar decisiones como determinar el conjunto de datos correcto desde el que se debe leer.

Para pasar información de la canalización ascendente a la canalización descendente, establece los argumentos del entorno de ejecución de la canalización descendente con los valores de los argumentos del entorno de ejecución o la configuración de cualquier complemento en la canalización ascendente.

Cada vez que se activa y ejecuta la canalización descendente, la configuración de su carga útil se establece mediante los argumentos del entorno de ejecución de la ejecución específica de la canalización ascendente que activó la canalización descendente.

Para pasar la configuración de la carga útil como argumentos del entorno de ejecución, sigue estos pasos:

  1. Si retomas la configuración desde donde la dejaste en Crea un activador entrante y, después de hacer clic en Configuración del activador, aparecerán todos los argumentos del entorno de ejecución que configuraste antes para tu canalización ascendente. Elige los argumentos del entorno de ejecución para pasar de la canalización ascendente a la canalización descendente cuando se ejecute este activador.
  2. Haz clic en la pestaña Configuración de complementos para ver una lista de lo que se pasará de tu canalización upstream a la canalización downstream cuando se active.
  3. Haz clic en Configurar y habilitar activador.