Usar el panel de supervisión

Cloud Composer 1 | Cloud Composer 2 | Cloud Composer 3

En esta página, se describe cómo acceder al panel de supervisión y usarlo para una entorno de Cloud Composer.

Accede al panel de supervisión

El panel de supervisión contiene métricas y gráficos para supervisar las tendencias de el DAG se ejecute en tu entorno y a identificar problemas con Airflow componentes y recursos de Cloud Composer.

Para acceder al panel de supervisión de tu entorno, haz lo siguiente:

  1. En la consola de Google Cloud, ve a la página Entornos.

    Ir a Entornos

  2. En la lista de entornos, haz clic en el nombre de tu entorno. Se abrirá la página Detalles del entorno.

  3. Ve a la pestaña Monitoring.

Configura alertas para las métricas

Para configurar las alertas de una métrica, haz clic en el ícono de campana en la esquina de la tarjeta de supervisión.

Crea una alerta para una métrica que se muestra en el panel de supervisión
Figura 1. Crea una alerta para una métrica que se muestra en el panel de supervisión (haz clic para ampliar)

Cómo ver una métrica en Monitoring

Para ver con más detalle una métrica, puedes verla en Monitoring.

Para navegar hasta allí desde el panel de supervisión de Cloud Composer, haz clic en los tres puntos en la esquina superior derecha de una tarjeta de métrica y selecciona Ver en el Explorador de métricas.

Visualiza una métrica del panel de supervisión en el Explorador de métricas
Figura 2. Visualiza una métrica del panel de supervisión en el Explorador de métricas (haz clic para ampliar)

Descripciones de las métricas

Cada entorno de Cloud Composer tiene su propio panel de supervisión. Métricas que se muestran en un panel de supervisión solo para un entorno en particular haga un seguimiento de las ejecuciones del DAG, los componentes de Airflow y los detalles del entorno para esto dentro del entorno de nube. Por ejemplo, si tienes dos entornos, el panel no agrega métricas de ambos entornos.

Descripción general del entorno

Métrica del entorno Descripción
Estado del entorno (DAG de supervisión de Airflow) Un cronograma que muestra el estado de la implementación de Composer. El estado verde solo refleja el estado de la implementación de Composer. No significa que todos los componentes de Airflow estén operativos y que los DAG puedan ejecutarse.
Señal de monitoreo de funcionamiento del programador Un cronograma que muestra el indicador de estado del programador de Airflow. Verifica las áreas rojas para identificar los problemas del programador de Airflow. Si tu entorno tiene más de un programador, el estado del indicador de actividad es correcto, siempre y cuando al menos uno de los programadores responda.
Estado del servidor web Un cronograma que muestra el estado del servidor web de Airflow Este estado se genera según los códigos de estado HTTP que muestra el servidor web de Airflow.
Estado de la base de datos Un cronograma que muestra el estado de la conexión a la instancia de Cloud SQL que aloja la base de datos de Airflow
Operaciones del entorno Una línea de tiempo en la que se muestran las operaciones que modifican el entorno, como la ejecución de actualizaciones de configuración o la carga de instantáneas del entorno.
Operaciones de mantenimiento Un cronograma que muestra los períodos en los que se realizan operaciones de mantenimiento en el clúster del entorno.
Dependencias del entorno Un cronograma que muestra el estado de la accesibilidad y las verificaciones de permisos para la operación del entorno.

Estadísticas del DAG

Métrica del entorno Descripción
Ejecuciones correctas de DAG La cantidad total de ejecuciones correctas de todos los DAG del entorno durante el intervalo de tiempo seleccionado. Si la cantidad de ejecuciones de DAG correctas cae por debajo de los niveles esperados, esto podría indicar fallas (consulta Ejecuciones fallidas de DAG) o un problema de programación.
Ejecuciones fallidas de DAG Tareas fallidas La cantidad total de ejecuciones fallidas de todos los DAG del entorno durante el intervalo de tiempo seleccionado. La cantidad total de tareas que fallaron en el entorno durante el intervalo de tiempo seleccionado. Las tareas fallidas no siempre hacen que falle una ejecución de DAG, pero pueden ser una señal útil para solucionar errores de DAG.
Ejecuciones de DAG completadas La cantidad de aciertos y fracasos de los DAG por los intervalos de tiempo seleccionados. Esto puede ayudar a identificar problemas transitorios en las ejecuciones de DAG y correlacionarlos con otros eventos, como las expulsiones de Pods de trabajadores.
Tareas completadas Es la cantidad de tareas completadas en el entorno, con un desglose de las tareas exitosas y fallidas.
Mediana de duración de la ejecución de DAG La mediana de duración de las ejecuciones de DAG. Este gráfico puede ayudar a identificar problemas de rendimiento y detectar tendencias en la duración del DAG.
Tareas de Airflow La cantidad de tareas en ejecución, en cola o diferidas en un momento determinado. Las tareas de Airflow son tareas que se encuentran en estado en cola en Airflow y pueden ir a la cola del agente de Celery o del ejecutor de Kubernetes. Las tareas en cola de Celery son instancias de tareas que se ponen en la cola de agentes de Celery.
Procesos zombi eliminados Es la cantidad de tareas zombi que finalizaron en un período pequeño. Las tareas zombi, a menudo, son producto de la terminación externa de los procesos de Airflow. El programador de Airflow finaliza las tareas zombi de forma periódica, lo que se refleja en este gráfico.
Tamaño de la bolsa del DAG Es la cantidad de DAG implementados en el bucket de tu entorno y que Airflow procesó en un momento determinado. Esto puede ser útil para analizar los cuellos de botella de rendimiento. Por ejemplo, una mayor cantidad de implementaciones de DAG puede disminuir el rendimiento debido a una carga excesiva.
Errores del procesador de DAG La cantidad de errores y tiempos de espera por segundo que se encontraron durante el procesamiento de los archivos DAG. El valor indica la frecuencia de errores que informó el procesador de DAG (es un valor diferente de la cantidad de DAG con errores).
Tiempo de análisis total de todos los DAG Un gráfico que muestra el tiempo total necesario para que Airflow procese todos los DAG en el entorno. Un mayor tiempo de análisis puede afectar la eficiencia de la programación. Consulta la diferencia entre el tiempo de análisis y el tiempo de ejecución del DAG para obtener más información.

Estadísticas del programador

Métrica del entorno Descripción
Señal de monitoreo de funcionamiento del programador Consulta Descripción general del entorno.
Uso total de CPU del programador El uso total de núcleos de CPU virtual por parte de los contenedores que se ejecutan en todos los pods del programador de Airflow y el límite combinado de CPU virtual para todos los programadores
Uso total de memoria del programador El uso total de memoria por parte de los contenedores que se ejecutan en todos los pods del programador de Airflow y el límite combinado de CPU virtual para todos los programadores
Uso total del disco del programador El uso total del espacio en disco por parte de los contenedores que se ejecutan en todos los pods del programador de Airflow y el límite combinado de espacio en disco para todos los programadores
Reinicios del contenedor del programador La cantidad total de reinicios para contenedores individuales del programador.
Expulsiones de Pods del programador Cantidad de expulsiones de Pods del programador de Airflow. La expulsión de un Pod puede ocurrir cuando un Pod particular del clúster de tu entorno alcanza sus límites de recursos.

Estadísticas de los trabajadores

Métrica del entorno Descripción
Uso total de CPU de los trabajadores El uso total de núcleos de CPU virtual por parte de los contenedores que se ejecutan en todos los Pods trabajadores de Airflow y el límite combinado de CPU virtual para todos los trabajadores.
Uso total de memoria de los trabajadores El uso total de memoria por parte de los contenedores que se ejecutan en todos los Pods trabajadores de Airflow y el límite combinado de CPU virtual para todos los trabajadores.
Uso total del disco de los trabajadores El uso total del espacio en disco por parte de los contenedores que se ejecutan en todos los pods de trabajadores de Airflow y el límite combinado de espacio en disco para todos los trabajadores.
Trabajadores activos Es la cantidad actual de trabajadores en tu entorno. En Cloud Composer 2, tu entorno escala automáticamente la cantidad de trabajadores activos.
Reinicios del contenedor de trabajadores Es la cantidad total de reinicios de los contenedores de trabajadores individuales.
Expulsiones de pods de trabajadores Cantidad de expulsiones de Pods de trabajadores de Airflow. La expulsión de pods puede ocurrir cuando un pod en particular del clúster de tu entorno alcanza sus límites de recursos. Si se expulsa un pod de trabajador de Airflow, todas las instancias de tareas que se ejecutan en ese pod se interrumpen y, luego, se marcan como con errores en Airflow.
Tareas de Airflow Consulta Descripción general del entorno.
Tiempos de espera de publicación del agente de Celery La cantidad total de errores AirflowTaskTimeout generados cuando se publican tareas en los agentes de Celery. Esta métrica corresponde a la métrica celery.task_timeout_error de Airflow.
Fallas del comando de ejecución de Celery Es la cantidad total de códigos de salida distintos de cero de las tareas de Celery. Esta métrica corresponde a la métrica celery.execute_command.failure de Airflow.
Tareas finalizadas por el sistema La cantidad de tareas de flujo de trabajo en las que el ejecutor de tareas se terminó con una SIGKILL (por ejemplo, debido a problemas con la memoria del trabajador o la señal de monitoreo de funcionamiento).

Estadísticas del activador

Métrica del entorno Descripción
Tareas diferidas La cantidad de tareas que se encuentran en estado diferido en un momento determinado. Para obtener más información sobre las tareas diferidas, consulta Cómo usar operadores diferibles.
Activadores completados La cantidad de activadores completados en todos los pods del activador.
Activadores en ejecución La cantidad de activadores que se ejecutan por instancia del activador. En este gráfico, se muestran líneas separadas para cada activador.
Activadores de bloqueo Cantidad de activadores que bloquearon el subproceso principal (probablemente debido a que no es completamente asíncrono)
Uso total de CPU de los activadores El uso total de núcleos de CPU virtual por parte de los contenedores que se ejecutan en todos los Pods de activadores de Airflow y el límite combinado de CPU virtual para todos los activadores.
Uso total de memoria de los activadores El uso total de memoria por parte de los contenedores que se ejecutan en todos los pods de activadores de Airflow y el límite combinado de CPU virtual para todos los activadores
Uso total del disco de los activadores El uso total de espacio en el disco por parte de los contenedores que se ejecutan en todos los Pods de activadores de Airflow y el límite de espacio en disco combinado para todos los activadores.
Activadores activos La cantidad de instancias del activador activas.
RESTR del contenedor del activador La cantidad de reinicios del contenedor del activador.

Estadísticas del servidor web

Métrica del entorno Descripción
Estado del servidor web Consulta Descripción general del entorno.
Uso de CPU del servidor web El uso total de núcleos de CPU virtual por parte de los contenedores que se ejecutan en todos los pods de servidor web de Airflow y el límite combinado de CPU virtual para todos los servidores web.
Uso de memoria del servidor web El uso total de memoria por parte de los contenedores que se ejecutan en todos los Pods del servidor web de Airflow y el límite combinado de CPU virtual para todos los servidores web.
Uso total del disco del servidor web El uso total de espacio en el disco por parte de los contenedores que se ejecutan en todos los pods del servidor web de Airflow y el límite combinado de espacio en el disco para todos los servidores web

Estadísticas de la base de datos de SQL

Métrica del entorno Descripción
Estado de la base de datos Consulta Descripción general del entorno.
Uso de CPU de la base de datos El uso de núcleos de CPU por parte de las instancias de base de datos de Cloud SQL de tu entorno.
Uso de memoria de la base de datos El uso total de memoria por parte de las instancias de base de datos de Cloud SQL de tu entorno
Uso del disco de la base de datos El uso total del espacio en disco por parte de las instancias de base de datos de Cloud SQL de tu entorno. Esta métrica se aplica a la instancia de la base de datos de Cloud SQL, por lo que no disminuye cuando se reduce el tamaño de la base de datos de Airflow. Para ver una métrica que muestre el tamaño del contenido de la base de datos de Airflow, consulta Tamaño de la base de datos de metadatos de Airflow.
Tamaño de la base de datos de metadatos de Airflow Tamaño de la base de datos de metadatos de Airflow. Esta métrica se aplica al componente Airflow de tu entorno y muestra la cantidad de espacio en disco que ocupa la base de datos de metadatos de Airflow en la instancia de base de datos de Cloud SQL. Esta métrica disminuye cuando se reduce el tamaño de la base de datos de metadatos de Airflow (por ejemplo, después del mantenimiento de la base de datos de Airflow) y determina si es posible crear instantáneas y actualizar entornos. Esta métrica es diferente de la métrica de uso del disco de la base de datos, que muestra la cantidad de espacio en el disco que usan las instancias de la base de datos de Cloud SQL.
Conexiones de base de datos La cantidad total de conexiones activas a la base de datos y el límite total de conexiones.

Diferencia entre el tiempo de análisis del DAG y el tiempo de ejecución del DAG

En el panel de supervisión de un entorno, se muestra el tiempo total necesario para analizar todos los DAG en tu entorno de Cloud Composer y el tiempo promedio que lleva ejecutar un DAG.

Analizar un DAG y programar tareas de un DAG para su ejecución son dos que ejecuta el programador de Airflow.

Análisis de DAG y programación de tareas que realiza el programador de Airflow
. Figura 3: Análisis del DAG y programación de tareas que realiza el programador de Airflow (haz clic para ampliar)

El tiempo de análisis del DAG es la cantidad de tiempo que tarda el programador de Airflow en leer un archivo DAG y analizarlo.

Antes de que el programador de Airflow pueda programar cualquier tarea desde un DAG, el programador debe analizar el archivo del DAG para descubrir la estructura del DAG y las tareas definidas. Después de analizar el archivo DAG, el programador puede comenzar a programar tareas desde el DAG.

El tiempo de ejecución del DAG es la suma de todos los tiempos de ejecución de las tareas de un DAG.

Para ver cuánto tiempo lleva ejecutar una tarea específica de Airflow desde un DAG, en la interfaz web de Airflow, selecciona un DAG y abre el Pestaña Duración de la tarea. En esta pestaña, se muestran los tiempos de ejecución de las tareas para la cantidad especificada de últimas ejecuciones de DAG.