En esta página, se describen los conceptos básicos para implementar y ejecutar canalizaciones en Cloud Data Fusion.
Implementa canalizaciones
Una vez que termines de diseñar y depurar una canalización de datos y estés conforme con los datos que ves en la vista previa, estará todo listo para implementarla.
Cuando implementas la canalización, Cloud Data Fusion Studio crea el flujo de trabajo y los trabajos de Apache Spark correspondientes en segundo plano.
Ejecutar canalizaciones
Después de implementar una canalización, puedes ejecutarla de las siguientes maneras:
- Para ejecutar una canalización a pedido, abre una canalización implementada y haz clic en Run.
- Para programar la canalización para que se ejecute en un momento determinado, abre una canalización implementada y haz clic en Programar.
- Para activar la canalización según cuando se complete otra, abre una canalización implementada y haz clic en Activadores entrantes.
Pipeline Studio guarda el historial de una canalización cada vez que se ejecuta. Puedes cambiar entre diferentes versiones del entorno de ejecución de la canalización.
Si la canalización tiene macros, establece los argumentos del entorno de ejecución para cada macro. También puedes revisar y cambiar los parámetros de configuración de la canalización antes de ejecutar la canalización implementada. Puedes ver el cambio de estado durante las fases de la ejecución de la canalización, como Aprovisionamiento, Iniciada, En ejecución y Correcto. También puedes detener la canalización en cualquier momento.
Si habilitas la instrumentación, puedes explorar las métricas que genera la canalización haciendo clic en Propiedades en cualquier nodo de la canalización, como una fuente, una transformación o un receptor.
Para obtener más información sobre las ejecuciones de la canalización, haz clic en Resumen.
Cómo ver los registros de ejecución
Una vez que se completa una ejecución de canalización, puedes ver el registro de ejecución. De forma predeterminada, puedes ver los últimos 30 días de registros de ejecución. Cloud Data Fusion los borra después de ese período. Puedes extender ese período con la API de REST.
API de REST
Para conservar registros de ejecución por más de 30 días, actualiza las opciones de app.run.records.ttl
con el siguiente comando:
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/PROJECT_NAME/locations/REGION_NAME/instances/INSTANCE_NAME?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "DAYS", "app.run.records.ttl.frequency.hours": "HOURS" } }'
Reemplaza lo siguiente:
PROJECT_NAME
: Es el Google Cloud nombre del proyecto.REGION_NAME
: La región de la instancia de Cloud Data Fusion, por ejemplo,us-east4
INSTANCE_NAME
: El ID de la instancia de Cloud Data FusionDAYS
: Es la cantidad de tiempo, en días, para retener los registros de ejecución de ejecuciones de canalizaciones anteriores, por ejemplo,30
.HOURS
: Es la frecuencia, en horas, para buscar y borrar registros de actividades anteriores, por ejemplo,24
.
Ejemplo:
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/project-1/locations/us-east4/instances/data-fusion-instance-1?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "30", "app.run.records.ttl.frequency.hours": "24" } }'
¿Qué sigue?
- Obtén más información sobre las configuraciones de canalización.