Cuando ejecutas tu canalización con Dataflow, puedes ver ese trabajo y cualquier otro mediante la interfaz de supervisión basada en la Web de Dataflow. La interfaz de supervisión te permite ver tus trabajos de Dataflow y también interactuar con ellos.
Puedes acceder a la interfaz de supervisión de Dataflow en la consola de Google Cloud. La interfaz de supervisión te puede mostrar la siguiente información:
- Una lista de todos los trabajos de Dataflow en ejecución y todos los trabajos que se ejecutan dentro de los últimos 30 días
- Una representación gráfica de cada canalización
- Detalles sobre el estado de tu trabajo, el tipo y la versión del SDK
- Vínculos a la información sobre los servicios de Google Cloud en ejecución en tu canalización, como Compute Engine y Cloud Storage
- Cualquier error o advertencia que suceda durante un trabajo
- Diagnóstico adicional para un trabajo.
Puedes ver los visualizadores de trabajo dentro de la interfaz de supervisión de Dataflow. Estos gráficos muestran métricas sobre la duración de un trabajo y incluyen la siguiente información:
- Visibilidad paso a paso para ayudar a identificar qué pasos pueden causar un retraso en la canalización
- Información estadística que puede revelar comportamientos anómalos
- Métricas de E/S que pueden ayudarte a identificar cuellos de botella en tus fuentes y receptores
Accede a la interfaz de supervisión de Dataflow
Para acceder a la interfaz de supervisión de Dataflow, sigue estos pasos:
- Accede a la consola de Google Cloud.
- Selecciona tu proyecto de Google Cloud.
- Abre el Menú de navegación.
- En Analytics, haz clic en Dataflow.
Aparecerá una lista de trabajos de Dataflow junto con su estado. Si no ves ningún trabajo, debes ejecutar uno nuevo. Para obtener información sobre cómo ejecutar un trabajo, consulta la guía de inicio rápido de Java, la guía de inicio rápido de Python o la guía de inicio rápido de Go.
Un trabajo puede tener los siguientes estados:
- —: La interfaz de supervisión aún no recibió un estado del servicio Dataflow.
- En ejecución: el trabajo está en ejecución.
- Iniciando…: Se crea el trabajo, pero el sistema necesita tiempo para prepararse antes de iniciarlo.
- En cola: Un trabajo de FlexRS está en cola o se está iniciando un trabajo de plantilla flexible (que puede tardar varios minutos).
- Cancelando…: El trabajo se está cancelando.
- Cancelado: el trabajo se canceló.
- Desviando…: el trabajo se está desviando.
- Desviado: el trabajo se desvió.
- Actualizando…: el trabajo se está actualizando.
- Actualizado: el trabajo se actualizó.
- Finalizado de manera correcta: el trabajo finalizó correctamente.
- Con errores: No se pudo completar el trabajo.
Accede a los visualizadores de trabajo
Para acceder a los gráficos a fin de supervisar tu trabajo, haz clic en el nombre del trabajo en la interfaz de supervisión de Dataflow. Se muestra la página Detalles del trabajo, que contiene la siguiente información:
- Grafo de trabajo: Es la representación visual de tu canalización.
- Detalles de ejecución: Es la herramienta para optimizar el rendimiento de la canalización.
- Métricas de empleo: Son las métricas sobre la ejecución de tu trabajo.
- Costo: Métricas sobre el costo estimado de tu trabajo
- Ajuste de escala automático: son las métricas relacionadas con los eventos de ajuste de escala automático de un trabajo de transmisión
- Panel Información del trabajo: información descriptiva sobre tu canalización
- Registros de trabajos: registros generados por el servicio de Dataflow en el nivel del trabajo
- Registros de trabajadores: registros generados por el servicio de Dataflow a nivel del trabajador
- Diagnóstico: Es la tabla que muestra dónde se produjeron errores a lo largo del cronograma elegido y las posibles recomendaciones para tu canalización.
- Muestreo de datos: Es una herramienta que te permite observar los datos en cada paso de una canalización. Consulte Usar el muestreo de datos para observar datos de canalización.
En la página Detalles del trabajo puedes cambiar la vista de trabajo con las pestañas Gráfico del trabajo, Detalles de la ejecución, Métricas del trabajo, Costo y Ajuste de escala automático.
Gráfico del trabajo
Cuando seleccionas un trabajo específico de Dataflow, la interfaz de supervisión proporciona una representación gráfica de tu canalización: el gráfico de trabajo. La página del gráfico de trabajo en la consola también proporciona un resumen del trabajo, un registro de trabajo y la información sobre cada paso de la canalización. Para obtener más detalles sobre los gráficos de trabajo, consulta Gráficos de trabajos de Dataflow.
Métricas del trabajo
Puedes ver los gráficos en la pestaña Job metrics
de la interfaz web de Dataflow. Cada métrica se organiza en los siguientes paneles:
Métricas generales
- Ajuste de escala automático
- Capacidad de procesamiento
- Recuento de registros de error de los trabajadores
Métricas de transmisión (solo canalizaciones de transmisión)
- Actualidad de los datos (con y sin Streaming Engine)
- Latencia del sistema (con y sin Streaming Engine)
- Tareas pendientes
- Procesamiento (solo Streaming Engine)
- Paralelismo (solo Streaming Engine)
- Persistencia (solo Streaming Engine)
- Duplicados (solo Streaming Engine)
- Temporizadores (solo Streaming Engine)
Métricas de recursos
Métricas de entradas
Métricas de salidas
Alertas de Cloud Monitoring
Consulta Cómo crear alertas de Cloud Monitoring.
Supervisión de costos
En la página Costo de la consola de Google Cloud, se muestra el costo estimado de tu trabajo actual de Dataflow. Los costos estimados se calculan mediante la multiplicación de las métricas de uso de recursos como se muestra en Cloud Monitoring por el precio de esos recursos en la región del trabajo.
Usa la supervisión de costos
Las estimaciones de costos de los trabajos están disponibles para los trabajos por lotes y de transmisión. La página Costo de la consola de Google Cloud proporciona la siguiente información:
- Detalles sobre qué recursos contribuyen al costo del trabajo y en qué medida. Los recursos incluyen CPUs virtuales, memoria, datos procesados con Dataflow Shuffle o datos de Streaming Engine procesados, y uso de discos SSD y HDD.
- Costos durante períodos específicos, como el tiempo desde que comenzó el trabajo, la hora anterior, las últimas 24 horas, los siete días anteriores y un intervalo de tiempo especificado por el usuario.
Puedes usar alertas de supervisión para recibir notificaciones cuando los costos de tu trabajo superen un límite específico. También puedes usar alertas para realizar cambios en tus trabajos, como detener o cancelar trabajos, según los umbrales que establezcas.
Para crear una regla de alerta de Cloud Monitoring, haz clic en Crear alerta. Si deseas obtener instrucciones para configurar estas alertas, consulta Usa Cloud Monitoring para canalizaciones de Dataflow.
Limitaciones
La supervisión de costos de Dataflow no admite trabajos de Dataflow Prime ni métricas de GPU.
Métricas de ajuste de escala automático
Puedes ver gráficos de supervisión de ajuste de escala automático para trabajos de transmisión dentro de la interfaz de supervisión de Dataflow. Estos gráficos muestran métricas sobre la duración de un trabajo de canalización e incluyen la siguiente información:
- La cantidad de instancias de trabajador que usa tu trabajo en un momento determinado
- Archivos de registro con ajuste de escala automático
- El trabajo pendiente estimado en el tiempo
- Uso de CPU promedio en el tiempo
Para obtener más información, consulta Supervisa el ajuste de escala automático de Dataflow.
Recomendaciones y diagnósticos
Dataflow proporciona recomendaciones para mejorar el rendimiento del trabajo, reducir los costos y solucionar errores. En esta sección, se explica cómo revisar e interpretar las recomendaciones. Ten en cuenta que algunas recomendaciones pueden no ser relevantes para tu caso de uso.
Recomendaciones
La pestaña Recomendaciones muestra estadísticas de Dataflow relacionadas con la canalización. El objetivo de estas estadísticas es identificar situaciones en las que se podrían realizar mejoras en costo y rendimiento.
La columna Fecha de actualización indica la última vez que se observó una estadística. Las recomendaciones se almacenan durante 30 días a partir de la Fecha de actualización.
Acceso programático a las recomendaciones
Para acceder de manera programática a las recomendaciones, usa la API del Recomendador.
Descarta una recomendación
Puedes descartar una recomendación en el Centro de recomendaciones de tu proyecto.
Para descartar una recomendación, sigue estos pasos:
- En la consola de Google Cloud, abre el menú de navegación.
- Selecciona Página principal y, luego, Recomendaciones.
- En la tarjeta Diagnóstico de Dataflow, haz clic en Ver todo.
- Selecciona la recomendación que deseas descartar y, luego, haz clic en Descartar.
Diagnóstico
La pestaña Diagnóstico del panel Registros recopila y muestra ciertas entradas de registro que se produjeron en tus canalizaciones. Estas entradas incluyen mensajes que indican un posible problema con la canalización y mensajes de error con seguimientos de pila. Las entradas de registro recopiladas anulan el duplicado y se combinan en grupos de errores.
El informe de error incluye la siguiente información:
- Una lista de errores con los mensajes de error
- La cantidad de veces que ocurrió cada error
- Un histograma que indica cuándo sucedió cada error
- La hora en que ocurrió el error más reciente
- La hora en que se produjo el error por primera vez
- El estado del error
Para ver el informe de error de un error específico, haz clic en la descripción en la columna Errores. Se mostrará la página Error Reporting. Si el error es un error del servicio, se mostrará un vínculo a la Guía de solución de problemas.
Si deseas obtener más información sobre la página, consulta Cómo ver y filtrar errores.
Silencia un error
Para silenciar un mensaje de error, sigue estos pasos:
- Abre la pestaña Diagnóstico.
- Haz clic en el error que quieres silenciar.
- Abre el menú de estado de resolución. Los estados tienen las siguientes etiquetas: Abierto, Confirmado, Resuelto o Silenciado.
- Selecciona Silenciado.
¿Qué sigue?
Obtén información para usar los detalles de ejecución y optimizar un trabajo de Dataflow.
Explora Cloud Monitoring para crear alertas y ver métricas de Dataflow, incluidas las métricas personalizadas
Obtén más información sobre cómo compilar canalizaciones de datos listas para la producción.