Usa la interfaz de supervisión de trabajos de Dataflow

Cuando ejecutas tu canalización con el servicio administrado de Dataflow, puedes ver ese trabajo y cualquier otro mediante la interfaz de supervisión de Dataflow basada en la Web. La interfaz de supervisión te permite ver tus trabajos de Dataflow y también interactuar con ellos.

Puedes acceder a la interfaz de supervisión de Dataflow mediante la consola de Google Cloud. La interfaz de supervisión te puede mostrar la siguiente información:

  • Una lista de todos los trabajos de Dataflow en ejecución y todos los trabajos que se ejecutan dentro de los últimos 30 días
  • Una representación gráfica de cada canalización
  • Detalles sobre el estado de tu trabajo, el tipo y la versión del SDK
  • Vínculos a la información sobre los servicios de Google Cloud en ejecución en tu canalización, como Compute Engine y Cloud Storage
  • Cualquier error o advertencia que suceda durante un trabajo
  • Diagnóstico adicional para un trabajo.

Puedes ver los visualizadores de trabajo dentro de la interfaz de supervisión de Dataflow. Estos gráficos muestran métricas sobre la duración de un trabajo de canalización e incluyen la siguiente información:

  • Visibilidad paso a paso para ayudar a identificar qué etapas de la canalización pueden estar causando un retraso
  • Información estadística que puede revelar comportamientos anómalos
  • Métricas de E/S que pueden ayudarte a identificar cuellos de botella en tus fuentes y receptores

Accede a la interfaz de supervisión de Dataflow

Para acceder a la interfaz de supervisión de Dataflow, sigue estos pasos:

  1. Accede a la consola de Google Cloud.
  2. Selecciona tu proyecto de Google Cloud.
  3. Abre el Menú de navegación.
  4. En Analytics, haz clic en Dataflow.

Aparecerá una lista de trabajos de Dataflow junto con su estado. Si no ves ningún trabajo, debes ejecutar uno nuevo. Para obtener información sobre cómo ejecutar un trabajo, consulta la guía de inicio rápido de Java, la guía de inicio rápido de Python o la guía de inicio rápido de Go.

Una lista de trabajos de Dataflow con trabajos en los estados en ejecución, con errores y finalizado de manera correcta.
Figura 1: Una lista de trabajos de Dataflow en la consola de Google Cloud cuyos estados son En ejecución, Con errores y Correcto.

Un trabajo puede tener los siguientes estados:

  • : La interfaz de supervisión aún no recibió un estado del servicio Dataflow.
  • En ejecución: el trabajo está en ejecución.
  • Iniciando…: Se crea el trabajo, pero el sistema necesita tiempo para prepararse antes de iniciarlo.
  • En cola: un trabajo de FlexRS está en cola o un trabajo de plantilla flexible se lanza (que puede tardar varios minutos).
  • Cancelando…: El trabajo se está cancelando.
  • Cancelado: el trabajo se canceló.
  • Desviando…: el trabajo se está desviando.
  • Desviado: el trabajo se desvió.
  • Actualizando…: el trabajo se está actualizando.
  • Actualizado: el trabajo se actualizó.
  • Finalizado de manera correcta: el trabajo finalizó correctamente.
  • Con errores: No se pudo completar el trabajo.

Para obtener más información sobre una canalización, haz clic en el nombre del trabajo.

Accede a los visualizadores de trabajo

Para acceder a los gráficos a fin de supervisar tu trabajo, haz clic en el nombre del trabajo en la interfaz de supervisión de Dataflow. Se muestra la página Detalles del trabajo, que contiene la siguiente información:

  • Grafo de trabajo: Es la representación visual de tu canalización.
  • Detalles de ejecución: Es la herramienta para optimizar el rendimiento de la canalización.
  • Métricas de empleo: Son las métricas sobre la ejecución de tu trabajo.
  • Costo: métricas sobre el costo estimado de tu trabajo
  • Ajuste de escala automático: son las métricas relacionadas con los eventos de ajuste de escala automático de un trabajo de transmisión
  • Panel Información del trabajo: información descriptiva sobre tu canalización
  • Registros de trabajos: registros generados por el servicio de Dataflow en el nivel del trabajo
  • Registros de trabajadores: registros generados por el servicio de Dataflow a nivel del trabajador
  • Diagnóstico: Es la tabla que muestra dónde se produjeron errores a lo largo del cronograma elegido y las posibles recomendaciones para tu canalización.
  • Muestreo de datos: Es una herramienta que te permite observar los datos en cada paso de una canalización. Consulte Usar el muestreo de datos para observar datos de canalización.

En la página Detalles del trabajo puedes cambiar la vista de trabajo con las pestañas Gráfico del trabajo, Detalles de la ejecución, Métricas del trabajo, Costo y Ajuste de escala automático.

Gráfico del trabajo

Cuando seleccionas un trabajo específico de Dataflow, la interfaz de supervisión proporciona una representación gráfica de tu canalización: el gráfico de trabajo. La página del gráfico de trabajo en la consola también proporciona un resumen del trabajo, un registro de trabajo y la información sobre cada paso de la canalización. Para obtener más detalles sobre los gráficos de trabajo, consulta Gráfico de trabajos de Dataflow.

Métricas del trabajo

Puedes ver los gráficos en la pestaña Job metrics de la interfaz web de Dataflow. Cada métrica se organiza en los siguientes paneles:

Métricas generales

Métricas de transmisión (solo canalizaciones de transmisión)

Métricas de recursos

Métricas de entradas

Métricas de salidas

Alertas de Cloud Monitoring

Consulta Crea alertas de Cloud Monitoring.

Supervisión de costos

En la página Costo de la consola de Google Cloud, se muestra el costo estimado de tu trabajo actual de Dataflow. Los costos estimados se calculan mediante la multiplicación de las métricas de uso de recursos como se muestra en Cloud Monitoring por el precio de esos recursos en la región del trabajo.

Usa la supervisión de costos

Las estimaciones de costos de los trabajos están disponibles para los trabajos por lotes y de transmisión. En la página Costo de la consola de Google Cloud, se proporciona la siguiente información:

  • Detalles sobre los recursos que contribuyen al costo del trabajo y en qué medida. Los recursos incluyen CPUs virtuales, memoria, datos procesados con Dataflow Shuffle o datos de Streaming Engine procesados, y uso de discos SSD y HDD.
  • Costos durante períodos específicos, como el tiempo desde que comenzó el trabajo, la hora anterior, las últimas 24 horas, los siete días anteriores y un intervalo de tiempo especificado por el usuario.

Puedes usar alertas de supervisión para recibir notificaciones cuando los costos de tu trabajo superen un límite específico. También puedes usar alertas para realizar cambios en tus trabajos, como detener o cancelar trabajos, según los umbrales que establezcas.

Para crear una regla de alerta de Cloud Monitoring, haz clic en Crear alerta. Si deseas obtener instrucciones para configurar estas alertas, consulta Usa Cloud Monitoring para canalizaciones de Dataflow.

Limitaciones

La supervisión de costos de Dataflow no admite trabajos de Dataflow Prime ni métricas de GPU.

Métricas de ajuste de escala automático

Puedes ver gráficos de supervisión de ajuste de escala automático para trabajos de transmisión dentro de la interfaz de supervisión de Dataflow. Estos gráficos muestran métricas sobre la duración de un trabajo de canalización e incluyen la siguiente información:

  • La cantidad de instancias de trabajador que usa tu trabajo en un momento determinado
  • Archivos de registro con ajuste de escala automático
  • El trabajo pendiente estimado en el tiempo
  • Uso de CPU promedio en el tiempo

Para obtener más información, consulta Supervisa el ajuste de escala automático de Dataflow.

Recomendaciones y diagnósticos

Dataflow proporciona recomendaciones para mejorar el rendimiento del trabajo, reducir los costos y solucionar errores. En esta sección, se explica cómo revisar e interpretar las recomendaciones. Ten en cuenta que algunas recomendaciones pueden no ser relevantes para tu caso de uso.

Recomendaciones

La pestaña Recomendaciones muestra estadísticas de Dataflow relacionadas con la canalización. El objetivo de estas estadísticas es identificar situaciones en las que se podrían realizar mejoras en costo y rendimiento.

La pestaña Recomendaciones para un trabajo de Dataflow con recomendaciones de muestra.

La columna Fecha de actualización indica la última vez que se observó una estadística. Las recomendaciones se almacenarán durante 30 días a partir de la Fecha de actualización.

Acceso programático a las recomendaciones

Para acceder de manera programática a las recomendaciones, usa la API del Recomendador.

Descarta una recomendación

Puedes descartar una recomendación en el Centro de recomendaciones de tu proyecto.

Para descartar una recomendación, haz clic en el menú de navegación en la esquina superior izquierda de la consola de Google Cloud y selecciona Página principal > Recomendaciones. En la tarjeta Diagnóstico de Dataflow, haz clic en Ver todo, selecciona la recomendación que deseas descartar y haz clic en Descartar.

Diagnóstico

La pestaña Diagnóstico del panel Registros recopila y muestra ciertas entradas de registro que se produjeron en tus canalizaciones. Estos incluyen mensajes que indican un posible problema con la canalización y mensajes de error con seguimientos de pila. Las entradas de registro recopiladas anulan el duplicado y se combinan en grupos de errores.

La pestaña Diagnostics de un trabajo de Dataflow con un grupo de errores del servicio.

El informe de error incluye la siguiente información:

  • Una lista de errores con los mensajes de error
  • La cantidad de veces que sucedió cada error.
  • Un histograma que indica cuándo sucedió cada error.
  • La hora en que sucedió el error más reciente.
  • La hora en que se produjo el error por primera vez.
  • El estado del error.

Para ver el informe de error de un error específico, haz clic en la descripción en la columna Errores. Se mostrará la página Error Reporting. Si el error es un error del servicio, se mostrará un vínculo adicional con la documentación, que incluye más pasos (“Guía de solución de problemas”).

La página de detalles del grupo de errores para un error del servicio de Dataflow.

Si deseas obtener más información sobre la página, consulta Visualiza errores.

Silencia un error

Para silenciar un mensaje de error, abre la pestaña Diagnóstico, haz clic en el error que deseas silenciar y abre el menú de estado de resolución (etiquetado como Abierto | Confirmado | Resuelto | Silenciado) y selecciona Silenciado.

¿Qué sigue?