Dataflow proporciona una pestaña Detalles de ejecución en su interfaz de usuario de supervisión basada en la Web. Usa la información de esta pestaña para optimizar el rendimiento de tus trabajos y diagnosticar por qué podrían ser lentos o estar atascados. Después de iniciar tu trabajo, podrás ver la pestaña Detalles de ejecución con la IU de supervisión de Dataflow. Para obtener más información, consulta Cómo acceder a la interfaz de supervisión de Dataflow.
Esta función no genera uso adicional de CPU o red para tus VMs. El sistema de supervisión de backend de Dataflow recopila los detalles de la ejecución, lo que no afecta el rendimiento del trabajo.
En esta página, se proporciona un resumen de alto nivel de la función de detalles de la ejecución y su diseño de interfaz de usuario. Para obtener información adicional sobre la solución de problemas, consulta Depuración y solución de problemas de canalización.
Cuándo usar detalles de ejecución
Las siguientes son situaciones comunes para usar los detalles de ejecución cuando ejecutas trabajos de Dataflow:
- La canalización está atascada y quieres solucionar el problema.
- La canalización es lenta y quieres optimizarla.
- No es necesario corregir nada, pero deseas ver los detalles de ejecución de tu canalización para comprender tu trabajo.
Terminología
Para usar los detalles de ejecución de manera efectiva, es útil comprender cómo se aplican los siguientes conceptos a los trabajos de Dataflow.
Terminología de Dataflow
- Optimización de fusión: proceso de Dataflow que usa varios pasos o transformaciones. Este proceso optimiza las canalizaciones enviadas por los usuarios. Para obtener más información, consulta Optimización de fusiones.
- Etapas: unidad de pasos combinados en canalizaciones de Dataflow.
- Última etapa: El nodo final en las canalizaciones de Dataflow. Una canalización puede tener varios nodos finales.
Terminología de Batch
- Rutas de acceso críticas: La secuencia de etapas de una canalización que contribuyeron al entorno de ejecución general del trabajo. Por ejemplo, esta secuencia excluye las siguientes etapas:
- Ramas de la canalización que finalizaron antes del trabajo general.
- Entradas que no retrasaron el procesamiento descendente.
- Trabajadores: instancias de VM de Compute Engine que ejecutan un trabajo de Dataflow.
- Elementos de trabajo: Son las unidades de trabajo que corresponden a un paquete seleccionado por Dataflow.
Terminología de transmisión
- Actualidad de los datos: Es la cantidad de tiempo transcurrido entre la hora real y la marca de agua de salida. Puedes obtener más información en Actualización de datos.
Usa la pestaña Detalles de la ejecución
La pestaña Detalles de la ejecución incluye cuatro vistas: Progreso de la etapa, Panel de información de la etapa (dentro del Progreso de la etapa), Flujo de trabajo de la etapa y Progreso de los trabajadores.
La vista Flujo de trabajo por etapas se habilita de forma automática para todos los trabajos por lotes y de transmisión. Los trabajos por lotes y de transmisión también tienen la vista Progreso de la etapa, y los trabajos por lotes tienen una vista adicional Progreso del trabajador.
En esta sección, se explica cada vista y se proporcionan ejemplos de trabajos por lotes exitosos y fallidos.
Progreso de la etapa para trabajos por lotes
La vista Progreso de etapa para los trabajos por lotes muestra las etapas de ejecución del trabajo ordenadas por las horas de inicio y finalización. El tiempo se representa con una barra. Por ejemplo, puedes identificar visualmente las etapas de ejecución más largas de una canalización si encuentras la barra más larga.
Con cada una de las barras, una minigráfico muestra el progreso de la etapa a lo largo del tiempo. Para destacar las etapas que contribuyeron al entorno de ejecución general del trabajo, haz clic en el botón de activación Ruta crítica. Además, puedes usar Filtrar etapas para seleccionar solo las etapas que te interesan.
Progreso de la etapa para trabajos de transmisión
La vista del Progreso de la etapa para los trabajos de transmisión se puede dividir en dos secciones. La primera mitad de la vista muestra un gráfico que representa la actualidad de los datos para cada etapa de ejecución del trabajo. Si colocas el cursor sobre el gráfico, se proporciona el valor de actualización de datos en ese instante específico de tiempo.
La segunda mitad de la vista muestra las etapas de ejecución del trabajo, ordenadas de forma topológica. Las etapas sin etapas descendientes se muestran primero, seguidas de sus descendientes. Esta vista facilita la identificación de las etapas de una canalización que tardan más de lo esperado. El tamaño de las barras se relaciona con la actualización de datos más larga durante todo el dominio de tiempo.
Los trabajos de transmisión se ejecutan hasta que se cancelan, se desvían o se actualizan.
- Usa el selector de hora que se muestra con el gráfico para acotar el dominio a un intervalo de tiempo más útil.
- Usa el menú Filtrar etapas para seleccionar las etapas que te interesan.
La vista Progreso de etapa te ayuda a identificar cuándo tu trabajo de transmisión es lento o atascado de dos maneras diferentes:
El gráfico de Actualización de datos por etapas incluye detección de anomalías, que mostrará automáticamente los períodos en que la actualización de datos se ve en mal estado. En el gráfico, se destaca la posible inactividad cuando la actualización de los datos supera el percentil 99 para el período seleccionado. Del mismo modo, en el gráfico se destaca la posible lentitud cuando la actualidad de los datos supera el percentil 95.
Para detectar cuellos de botella, coloca el cursor sobre un punto del gráfico que muestre resultados inesperados. Las barras más largas indican etapas más lentas. Como alternativa, haz clic en el eje x del gráfico para mostrar los datos en ese momento. Un enfoque común para encontrar la etapa que causa la inactividad o la lentitud es encontrar la etapa más ascendente (más arriba) o la más descendente (más baja), lo que hace que la actualidad de los datos aumente. Este enfoque no se adapta a todas las situaciones y es posible que necesites depurar más para identificar la causa exacta.
Panel de información de la etapa
En el panel de información de la etapa, se muestra una lista de pasos asociados a una etapa y clasificados por un tiempo de muro descendente. Para abrir el panel, mantén el puntero sobre una de las barras de la vista Progreso de etapa y haz clic en Ver detalles.
Flujo de trabajo de la etapa
El flujo de trabajo por etapas muestra las etapas de ejecución del trabajo, representadas como un grafo de flujo de trabajo. Para mostrar solo las etapas que contribuyeron directamente al entorno de ejecución general del trabajo, haz clic en el botón de activación Ruta crítica.
Progreso de los trabajadores
En el caso de los trabajos por lotes, la opción Progreso del trabajador muestra los trabajadores de una etapa en particular. Esta vista no está disponible para los trabajos de transmisión.
Cada barra se asigna a un elemento de trabajo programado para un trabajador. Hay un minigráfico que hace un seguimiento del uso de CPU en un trabajador ubicado con cada trabajador, lo que facilita detectar los problemas de uso insuficiente.
Debido a la densidad de esta visualización, debes filtrar esta vista preseleccionando una etapa. Primero, identifica una etapa en la vista Progreso de la etapa. Mantén el cursor sobre esa etapa y, luego, haz clic en Ver trabajadores para ingresar a la vista Progreso de los trabajadores.
¿Qué sigue?
- Obtén más información para solucionar problemas de trabajos lentos o atascados.
- Lee sobre los diferentes componentes de la interfaz de usuario de supervisión basada en la Web de Dataflow.