Organizar canalizaciones

En esta página, se explica la organización de canalizaciones con Cloud Composer y activadores. Cloud Data Fusion recomienda usar Cloud Composer para organizar canalizaciones. Si necesitas una manera más sencilla de administrar la organización, usa activadores.

Compositor

Organiza canalizaciones con Cloud Composer

Organiza la ejecución de canalizaciones en Cloud Data Fusion con Cloud Composer ofrece los siguientes beneficios:

  • Administración centralizada del flujo de trabajo: administra de manera uniforme la ejecución de varias canalizaciones de Cloud Data Fusion.
  • Administración de dependencias: Para garantizar un orden de ejecución adecuado, define las dependencias entre las canalizaciones.
  • Supervisión y alertas: Cloud Composer de supervisión y alertas para fallas.
  • Integración con otros servicios: Cloud Composer te permite organizar flujos de trabajo que abarcan Cloud Data Fusion y otros servicios de Google Cloud.

Organizar las canalizaciones de Cloud Data Fusion con Cloud Composer, sigue este proceso:

  1. Configura el entorno de Cloud Composer.

    • Crea un entorno de Cloud Composer. Si no tienes primero, aprovisionar el entorno en tu proyecto de Google Cloud. Este entorno es tu lugar de trabajo de organización.
    • Otorga permisos. Asegúrate de Cloud Composer cuenta de servicio tiene los permisos necesarios para acceder Cloud Data Fusion (como el permiso para iniciar, detener y enumerar canalizaciones).
  2. Define grafos acíclicos dirigidos (DAG) para la organización.

    • Crea un DAG: en Cloud Composer, crea un DAG que define el flujo de trabajo de organización para Cloud Data Fusion canalizaciones.
    • Operadores de Cloud Data Fusion: Usa Cloud Composer Operadores de Cloud Data Fusion dentro del DAG Estos operadores te permiten interactuar de manera programática con Cloud Data Fusion.

Operadores de Cloud Data Fusion

La organización de canalizaciones de Cloud Data Fusion tiene los siguientes operadores:

CloudDataFusionStartPipelineOperator

Activa la ejecución de una canalización de Cloud Data Fusion por su ID. Integra tiene los siguientes parámetros:

  • ID de la canalización
  • Ubicación (región de Google Cloud)
  • Espacio de nombres de la canalización
  • Argumentos de entorno de ejecución (opcional)
  • Esperar a que se complete el proceso (opcional)
  • Tiempo de espera (opcional)
CloudDataFusionStopPipelineOperator

Te permite detener una canalización de Cloud Data Fusion en ejecución.

CloudDataFusionDeletePipelineOperator

Borra una canalización de Cloud Data Fusion.

Compila el flujo de trabajo del DAG

Cuando compiles el flujo de trabajo del DAG, ten en cuenta lo siguiente:

  • Definición de dependencias: usa la estructura del DAG para definir dependencias entre tareas. Por ejemplo, podrías tener una tarea que espera una en un espacio de nombres para que se complete correctamente antes de activarse a otra canalización en un espacio de nombres diferente.
  • Programación: Programa el DAG para que se ejecute a intervalos específicos, como por día o cada hora, o bien puedes configurarlo para que se active manualmente.

Para obtener más información, consulta la Descripción general de Cloud Composer.

Activadores

Organiza canalizaciones con activadores

Los activadores de Cloud Data Fusion permiten ejecutar automáticamente la canalización cuando se complete (con éxito, falla o cualquier condición especificada) de una o más canalizaciones ascendentes.

Los activadores son útiles para las siguientes tareas:

  • Limpiar los datos una vez y hacer que estén disponibles para varios canalizaciones downstream para el consumo.
  • Compartir información, como argumentos de tiempo de ejecución y complementos parámetros de configuración entre las canalizaciones. Esta tarea se llama carga útil actual.
  • Tener un conjunto de canalizaciones dinámicas que se ejecutan con los datos recopilados por hora día, semana o mes, en lugar de una canalización estática que debe actualizarse en cada carrera.

Por ejemplo, tienes un conjunto de datos que contiene toda la información sobre tu los envíos de la empresa. A partir de estos datos, quieres responder preguntas preguntas. Para ello, creas una canalización que limpie los datos sin procesar. información sobre envíos, llamada Limpieza de datos de envíos. Luego, creas una segunda Delayed Shipments USA, que lee los datos depurados y encuentra los envíos dentro de EE.UU. que se retrasaron más de una hora especificada umbral. La canalización Delayed Shipments USA se puede activar en cuanto la canalización upstream Shipments Data Cleaning se completa correctamente.

Además, dado que la canalización descendente consume la salida de la debes especificarlo cuando se ejecute la canalización downstream con este activador, también recibe el directorio de entrada desde el que se debe leer (que es el directorio en el que la canalización upstream generó su salida). Esta se denomina configuración de la carga útil de paso, que se define con de tiempo de ejecución. Te permite tener un conjunto de canalizaciones dinámicas ejecutar con los datos de la hora, el día, la semana o el mes (no es una canalización estática, que debe actualizarse en cada ejecución).

Para organizar las canalizaciones con activadores, sigue este proceso:

  1. Crea canalizaciones ascendentes y descendentes.

    • En Cloud Data Fusion Studio, diseña e implementa canalizaciones que forman tu cadena de organización.
    • Considerar qué canalización activará la siguiente en tu canalización (downstream) en tu flujo de trabajo.
  2. Opcional: Pasa argumentos del entorno de ejecución para las canalizaciones ascendentes.

  3. Crea un activador de entrada en la canalización descendente.

    • En Cloud Data Fusion Studio, ve a la página Lista. En En la pestaña Implementadas, haz clic en el nombre de la canalización descendente. El Aparecerá la vista de implementación para esa canalización.
    • En el lado izquierdo del medio de la página, haz clic en Activadores de entrada. Aparecerá una lista de las canalizaciones disponibles.
    • Haz clic en la canalización ascendente. Selecciona uno o más de los estados de finalización de la canalización (Sin errores, Con errores o Detenciones) como la condición para cuándo debe ejecutarse la canalización descendente.
    • Si deseas que la canalización upstream comparta información (llamada configuración de carga útil) con la canalización descendente, haz clic en Activa la configuración y sigue los pasos pasar la configuración de la carga útil como argumentos del entorno de ejecución De lo contrario, haz clic en Habilitar activador.
  4. Prueba el activador.

    • Iniciar una ejecución de la canalización ascendente
    • Si el activador se configuró correctamente, la canalización descendente se ejecuta automáticamente cuando se completan las canalizaciones ascendentes, según la condición configurada.

Pasa la configuración de la carga útil como argumentos del entorno de ejecución

La configuración de la carga útil permite compartir información desde el flujo ascendente a la canalización descendente. Esta información puede ser, por ejemplo, el directorio de salida, el formato de datos o el día en que se ejecutó la canalización. Esta Luego, la canalización descendente usa información para tomar decisiones, determinar cuál es el conjunto de datos correcto para leer.

Para pasar información de la canalización ascendente a la canalización descendente, haz lo siguiente: establece los argumentos del entorno de ejecución de la canalización descendente con los valores de los argumentos del entorno de ejecución o la configuración de cualquier complemento en una canalización ascendente.

Cada vez que se active y ejecute la canalización descendente, su carga útil se establece mediante los argumentos del tiempo de ejecución de la ejecución específica de la canalización upstream que activó la canalización downstream.

Para pasar la configuración de la carga útil como argumentos del entorno de ejecución, sigue estos pasos:

  1. Retomando donde lo dejaste en Crea un activador entrante, Después de hacer clic en Configuración del activador, cualquier argumento de entorno de ejecución aparecerán previamente configurados para tu canalización ascendente. Elige el de entorno de ejecución para pasarlos de la canalización ascendente al canalización descendente cuando se ejecuta este activador.
  2. Haz clic en la pestaña Configuración de complementos para ver una lista de lo que se pasará. de tu canalización upstream a tu canalización downstream cuando activa.
  3. Haz clic en Configurar y habilitar activador.