En esta página se describen los conceptos básicos sobre la implementación y la ejecución de canalizaciones en Cloud Data Fusion.
Flujos de procesamiento de despliegue
Cuando hayas terminado de diseñar y depurar una canalización de datos y estés conforme con los datos que ves en Vista previa, podrás implementar la canalización.
Cuando despliegas el flujo de procesamiento, Cloud Data Fusion Studio crea el flujo de trabajo y las tareas de Apache Spark correspondientes en segundo plano.
Ejecutar flujos de procesamiento
Una vez que hayas implementado una canalización, podrás ejecutarla de las siguientes formas:
- Para ejecutar un flujo de procesamiento bajo demanda, abre un flujo de procesamiento implementado y haz clic en Ejecutar.
- Para programar la ejecución de una canalización a una hora determinada, abre una canalización implementada y haz clic en Programar.
- Para activar la canalización cuando se complete otra, abre una canalización implementada y haz clic en Activadores entrantes.
Pipeline Studio guarda el historial de una canalización cada vez que se ejecuta. Puedes alternar entre diferentes versiones de tiempo de ejecución de la canalización.
Si la canalización tiene macros, define los argumentos de tiempo de ejecución de cada macro. También puedes revisar y cambiar las configuraciones de la canalización antes de ejecutar la canalización implementada. Puedes ver el cambio de estado durante las fases de la ejecución de la canalización, como Provisioning (Aprovisionamiento), Starting (Iniciando), Running (En ejecución) y Succeeded (Completado). También puedes detener la canalización en cualquier momento.
Si habilitas la instrumentación, puedes consultar las métricas generadas por la canalización haciendo clic en Propiedades en cualquier nodo de la canalización, como un origen, una transformación o un receptor.
Para obtener más información sobre las ejecuciones de la canalización, haga clic en Resumen.
Ver registros de ejecución
Una vez que se haya completado una ejecución de una canalización, podrás ver el registro de la ejecución. De forma predeterminada, puedes ver los registros de las carreras de los últimos 30 días. Cloud Data Fusion los elimina después de ese periodo. Puedes ampliar ese periodo mediante la API REST.
API REST
Para conservar los registros de ejecución durante más de 30 días, actualiza las opciones de app.run.records.ttl
con el siguiente comando:
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/PROJECT_NAME/locations/REGION_NAME/instances/INSTANCE_NAME?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "DAYS", "app.run.records.ttl.frequency.hours": "HOURS" } }'
Haz los cambios siguientes:
PROJECT_NAME
: el nombre del proyecto Google CloudREGION_NAME
: la región de la instancia de Cloud Data Fusion (por ejemplo,us-east4
)INSTANCE_NAME
: el ID de la instancia de Cloud Data FusionDAYS
: cantidad de tiempo, en días, que se conservan los registros de ejecución de las ejecuciones de la canalización antiguas. Por ejemplo,30
.HOURS
: frecuencia, en horas, con la que se comprueban y eliminan los registros de ejecución antiguos. Por ejemplo,24
.
Ejemplo:
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/project-1/locations/us-east4/instances/data-fusion-instance-1?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "30", "app.run.records.ttl.frequency.hours": "24" } }'