En esta página, se explica la organización de canalizaciones con Cloud Composer y activadores. Cloud Data Fusion recomienda usar Cloud Composer para organizar canalizaciones. Si necesitas una forma más sencilla de administrar la orquestación, usa activadores.
Compositor
Organiza canalizaciones con Cloud Composer
Organiza la ejecución de canalizaciones en Cloud Data Fusion con Cloud Composer ofrece los siguientes beneficios:
- Administración centralizada de flujos de trabajo: Administra de forma uniforme la ejecución de varias canalizaciones de Cloud Data Fusion.
- Administración de dependencias: Para garantizar un orden de ejecución adecuado, define las dependencias entre las canalizaciones.
- Supervisión y alertas: Cloud Composer de supervisión y alertas para fallas.
- Integración con otros servicios: Cloud Composer te permite organizar flujos de trabajo que abarcan Cloud Data Fusion y otros servicios de Google Cloud.
Organizar las canalizaciones de Cloud Data Fusion con Cloud Composer, sigue este proceso:
Configura el entorno de Cloud Composer.
- Crea un entorno de Cloud Composer. Si no tienes uno, aprovisiona el entorno en tu proyecto de Google Cloud. Este entorno es tu lugar de trabajo de organización.
- Otorga permisos. Asegúrate de Cloud Composer cuenta de servicio tiene los permisos necesarios para acceder Cloud Data Fusion (como el permiso para iniciar, detener y enumerar canalizaciones).
Define grafos acíclicos dirigidos (DAG) para la organización.
- Crea un DAG: en Cloud Composer, crea un DAG que define el flujo de trabajo de organización para Cloud Data Fusion canalizaciones.
- Operadores de Cloud Data Fusion: Usa Cloud Composer Operadores de Cloud Data Fusion dentro del DAG Estos operadores te permiten interactuar de manera programática con Cloud Data Fusion.
Operadores de Cloud Data Fusion
La orquestación de canalizaciones de Cloud Data Fusion tiene los siguientes operadores:
CloudDataFusionStartPipelineOperator
Activa la ejecución de una canalización de Cloud Data Fusion por su ID. Integra tiene los siguientes parámetros:
- ID de la canalización
- Ubicación (región de Google Cloud)
- Espacio de nombres de la canalización
- Argumentos del entorno de ejecución (opcional)
- Esperar a que se complete el proceso (opcional)
- Tiempo de espera (opcional)
CloudDataFusionStopPipelineOperator
Te permite detener una canalización de Cloud Data Fusion en ejecución.
CloudDataFusionDeletePipelineOperator
Borra una canalización de Cloud Data Fusion.
Compila el flujo de trabajo de DAG
Cuando compiles el flujo de trabajo del DAG, ten en cuenta lo siguiente:
- Definir dependencias: Usa la estructura de DAG para definir las dependencias entre tareas. Por ejemplo, puedes tener una tarea que espere a que una canalización en un espacio de nombres se complete correctamente antes de activar otra canalización en un espacio de nombres diferente.
- Programación: Programa el DAG para que se ejecute a intervalos específicos, como por día o cada hora, o bien puedes configurarlo para que se active manualmente.
Para obtener más información, consulta la Descripción general de Cloud Composer.
Activadores
Organiza canalizaciones con activadores
Los activadores de Cloud Data Fusion permiten ejecutar automáticamente la canalización cuando se complete (con éxito, falla o cualquier condición especificada) de una o más canalizaciones ascendentes.
Los activadores son útiles para las siguientes tareas:
- Limpiar los datos una vez y hacer que estén disponibles para varios canalizaciones downstream para el consumo.
- Compartir información, como argumentos de entorno de ejecución y configuraciones de complementos, entre canalizaciones. Esta tarea se denomina configuración de carga útil.
- Tener un conjunto de canalizaciones dinámicas que se ejecutan con los datos recopilados por hora día, semana o mes, en lugar de una canalización estática que debe actualizarse en cada carrera.
Por ejemplo, tienes un conjunto de datos que contiene toda la información sobre los envíos de tu empresa. En función de estos datos, quieres responder varias preguntas empresariales. Para ello, creas una canalización que limpie los datos sin procesar. información sobre envíos, llamada Limpieza de datos de envíos. Luego, creas una segunda Delayed Shipments USA, que lee los datos depurados y encuentra los envíos dentro de EE.UU. que se retrasaron más de una hora especificada umbral. La canalización Delayed Shipments USA se puede activar en cuanto la canalización upstream Shipments Data Cleaning se completa con éxito.
Además, dado que la canalización descendente consume la salida de la debes especificarlo cuando se ejecute la canalización downstream con este activador, también recibe el directorio de entrada desde el que se debe leer (que es el directorio en el que la canalización upstream generó su resultado). Esta se denomina configuración de la carga útil de paso, que se define con de tiempo de ejecución. Te permite tener un conjunto de canalizaciones dinámicas que se ejecutan con los datos de la hora, el día, la semana o el mes (no una canalización estática, que se debe actualizar para cada ejecución).
Para orquestar canalización con activadores, sigue este proceso:
Crea canalizaciones ascendentes y descendentes.
- En Cloud Data Fusion Studio, diseña e implementa canalizaciones que forman tu cadena de organización.
- Considera qué canalización completará la siguiente canalización (aguas abajo) en tu flujo de trabajo.
Opcional: Pasa argumentos de tiempo de ejecución para las canalizaciones upstream.
- Si necesitas pasar la configuración de la carga útil como argumentos del entorno de ejecución entre canalizaciones, configura argumentos del entorno de ejecución. Estos argumentos pueden pasan a la canalización downstream durante la ejecución.
Crea un activador de entrada en la canalización descendente.
- En Cloud Data Fusion Studio, ve a la página Lista. En En la pestaña Implementadas, haz clic en el nombre de la canalización descendente. El Aparecerá la vista de implementación para esa canalización.
- En el lado medio izquierdo de la página, haz clic en Activadores entrantes. Aparecerá una lista de las canalizaciones disponibles.
- Haz clic en la canalización ascendente. Selecciona uno o más de los estados de finalización de la canalización (Sin errores, Con errores o Detenciones) como la condición para cuándo debe ejecutarse la canalización descendente.
- Si deseas que la canalización upstream comparta información (llamada configuración de carga útil) con la canalización descendente, haz clic en Activa la configuración y sigue los pasos pasar la configuración de la carga útil como argumentos del entorno de ejecución De lo contrario, haz clic en Habilitar activador.
Prueba el activador.
- Iniciar una ejecución de la canalización ascendente
- Si el activador se configuró correctamente, la canalización descendente se ejecuta automáticamente cuando se completan las canalizaciones ascendentes, según la condición configurada.
Pasa la configuración de la carga útil como argumentos del entorno de ejecución
La configuración de la carga útil permite compartir información desde el flujo ascendente a la canalización descendente. Esta información puede ser, por ejemplo, el directorio de salida, el formato de datos o el día en que se ejecutó la canalización. Esta Luego, la canalización descendente usa información para tomar decisiones, determinar cuál es el conjunto de datos correcto para leer.
Para pasar información de la canalización ascendente a la canalización descendente, debes configurar los argumentos del entorno de ejecución de la canalización descendente con los valores de los argumentos del entorno de ejecución o la configuración de cualquier complemento en la canalización ascendente.
Cada vez que se activa y ejecuta la canalización descendente, su configuración de carga útil se establece con los argumentos del entorno de ejecución de la ejecución en particular de la canalización ascendente que activó la canalización descendente.
Para pasar la configuración de la carga útil como argumentos del entorno de ejecución, sigue estos pasos:
- Siguiendo desde donde quedaste en Cómo crear un activador entrante, después de hacer clic en Configuración del activador, aparecerán todos los argumentos de entorno de ejecución que estableciste anteriormente para tu canalización ascendente. Elige el de entorno de ejecución para pasarlos de la canalización ascendente al canalización descendente cuando se ejecuta este activador.
- Haz clic en la pestaña Configuración del complemento para ver una lista de lo que se pasará de tu canalización ascendente a la canalización descendente cuando se active.
- Haz clic en Configurar y habilitar activador.