Usa el panel de supervisión

Cloud Composer 1 | Cloud Composer 2

En esta página, se describe cómo acceder al panel de supervisión y usarlo para un entorno de Cloud Composer.

Accede al panel de supervisión

El panel de supervisión contiene métricas y gráficos para supervisar tendencias en las ejecuciones de DAG en tu entorno y, también, identificar problemas con los componentes de Airflow y los recursos de Cloud Composer.

Para acceder al panel de supervisión de tu entorno, haz lo siguiente:

  1. En la consola de Google Cloud, ve a la página Entornos.

    Ir a Entornos

  2. En la lista de entornos, haz clic en el nombre de tu entorno. Se abrirá la página Detalles del entorno.

  3. Ve a la pestaña Supervisión.

Configura alertas para las métricas

Para configurar las alertas de una métrica, haz clic en el ícono de campana en la esquina de la tarjeta de supervisión.

Crear una alerta para una métrica que se muestra en el panel de supervisión
Figura 1. Crea una alerta para una métrica que se muestra en el panel de supervisión (haz clic para ampliar)

Ver una métrica en Monitoring

Para obtener un análisis más detallado de una métrica, puedes visualizarla en Monitoring.

Para navegar hasta allí desde el panel de supervisión de Cloud Composer, haz clic en los tres puntos en la esquina superior derecha de una tarjeta de métrica y selecciona Ver en el Explorador de métricas.

Consulta una métrica del panel de supervisión en el Explorador de métricas
Figura 2: Visualiza una métrica desde el panel de supervisión en el Explorador de métricas (haz clic para ampliar)

Descripciones de las métricas

Cada entorno de Cloud Composer tiene su propio panel de supervisión. Las métricas que se muestran en el panel de supervisión de un entorno en particular solo hacen un seguimiento de las ejecuciones de DAG, los componentes de Airflow y los detalles del entorno solo para este entorno. Por ejemplo, si tienes dos entornos, el panel no agregará métricas de ambos.

Descripción general del entorno

Métrica del entorno Descripción
Estado del entorno (DAG de supervisión de Airflow) Un cronograma que muestra el estado de la implementación de Composer. El estado verde solo refleja el estado de la implementación de Composer. Esto no significa que todos los componentes de Airflow estén operativos y que los DAG puedan ejecutarse.
Señal de monitoreo de funcionamiento del programador Una línea de tiempo que muestra los latidos del programador de Airflow. Verifica las áreas rojas para identificar los problemas del programador de Airflow. Si tu entorno tiene más de un programador, el estado de la señal del corazón es saludable siempre y cuando al menos uno de los programadores esté respondiendo.
Estado del servidor web Un cronograma que muestra el estado del servidor web de Airflow. Este estado se genera en función de los códigos de estado HTTP que muestra el servidor web de Airflow.
Estado de la base de datos Un cronograma que muestra el estado de la conexión a la instancia de Cloud SQL que aloja la base de datos de Airflow
Operaciones del entorno Un cronograma que muestra las operaciones que modifican el entorno, como realizar actualizaciones de configuración o cargar instantáneas del entorno.
Operaciones de mantenimiento Una línea de tiempo que muestra los períodos en los que se realizan operaciones de mantenimiento en el clúster del entorno.
Dependencias del entorno Un cronograma que muestra el estado de la accesibilidad y las verificaciones de permisos para el funcionamiento del entorno.

Estadísticas del DAG

Métrica del entorno Descripción
Ejecuciones correctas de DAG La cantidad total de ejecuciones correctas de todos los DAG del entorno durante el intervalo de tiempo seleccionado. Si la cantidad de ejecuciones correctas de DAG disminuye por debajo de los niveles esperados, esto podría indicar fallas (consulta Ejecuciones de DAG con errores) o un problema de programación.
Ejecuciones fallidas de DAG Tareas con errores La cantidad total de ejecuciones fallidas de todos los DAG del entorno durante el intervalo de tiempo seleccionado. La cantidad total de tareas que fallaron en el entorno durante el intervalo de tiempo seleccionado. Las tareas fallidas no siempre hacen que falle una ejecución de DAG, pero pueden ser una señal útil para solucionar errores de DAG.
Ejecuciones de DAG completadas La cantidad de éxitos y fracasos de DAG para los intervalos del intervalo de tiempo seleccionado. Esto puede ayudar a identificar problemas transitorios con las ejecuciones de DAG y correlacionarlos con otros eventos, como las expulsiones de Pods de trabajadores.
Tareas completadas La cantidad de tareas completadas en el entorno con un desglose de las tareas exitosas y fallidas.
Mediana de duración de la ejecución de DAG La mediana de duración de las ejecuciones de DAG. Este gráfico puede ayudar a identificar problemas de rendimiento y a identificar tendencias en la duración del DAG.
Tareas de Airflow La cantidad de tareas en ejecución, en cola o diferidas en un momento determinado. Las tareas de Airflow son tareas que están en estado de cola en Airflow. Pueden ir a la cola del agente de Celery o Kubernetes Executor. Las tareas en cola de Celery son instancias de tareas que se ponen en la cola de agentes de Celery.
Procesos zombi eliminados Cantidad de tareas zombi finalizadas en un período breve. Las tareas zombi, a menudo, son producto de la terminación externa de los procesos de Airflow. El programador de Airflow finaliza las tareas zombi de forma periódica, lo que se refleja en este gráfico.
Tamaño de la bolsa del DAG La cantidad de DAG implementados en el bucket de tu entorno y procesados por Airflow en un momento determinado. Esto puede ser útil para analizar los cuellos de botella de rendimiento. Por ejemplo, una cantidad mayor de implementaciones de DAG puede degradar el rendimiento debido a una carga excesiva.
Errores del procesador de DAG La cantidad de errores y tiempos de espera por segundo que se encontraron durante el procesamiento de los archivos DAG. El valor indica la frecuencia de errores que informó el procesador de DAG (es un valor diferente de la cantidad de DAG con errores).
Tiempo de análisis total de todos los DAG Un gráfico que muestra el tiempo total necesario para que Airflow procese todos los DAG en el entorno. Un mayor tiempo de análisis puede afectar la eficiencia de la programación. Consulta Diferencia entre el tiempo de análisis del DAG y el tiempo de ejecución del DAG para obtener más información.

Estadísticas del programador

Métrica del entorno Descripción
Sonido del programador Consulta Descripción general del entorno.
Uso total de CPU del programador El uso total de núcleos de CPU virtual por parte de los contenedores que se ejecutan en todos los pods de programadores de Airflow y el límite combinado de CPU virtual para todos los programadores.
Uso total de memoria del programador El uso total de memoria por parte de los contenedores que se ejecutan en todos los pods de programadores de Airflow y el límite combinado de CPU virtuales para todos los programadores.
Uso total del disco del programador El uso total de espacio en disco por parte de los contenedores que se ejecutan en todos los pods de programadores de Airflow y el límite de espacio en disco combinado para todos los programadores.
Reinicios del contenedor del programador La cantidad total de reinicios para los contenedores del programador individuales.
Expulsiones de Pods del programador Cantidad de expulsiones de Pods del programador de Airflow. El expulsión de Pods puede ocurrir cuando un Pod particular del clúster de tu entorno alcanza sus límites de recursos.

Estadísticas de trabajadores

Métrica del entorno Descripción
Uso total de CPU de los trabajadores El uso total de núcleos de CPU virtual por parte de los contenedores que se ejecutan en todos los Pods trabajadores de Airflow y el límite combinado de CPU virtuales para todos los trabajadores.
Uso total de memoria de los trabajadores El uso total de memoria por parte de los contenedores que se ejecutan en todos los pods trabajadores de Airflow y el límite combinado de CPU virtuales para todos los trabajadores.
Uso total del disco de trabajador El uso total de espacio en disco por parte de los contenedores que se ejecutan en todos los pods trabajadores de Airflow y el límite de espacio en disco combinado para todos los trabajadores.
Trabajadores activos La cantidad actual de trabajadores en tu entorno. En Cloud Composer 2, tu entorno escala automáticamente la cantidad de trabajadores activos.
Reinicios del contenedor de trabajadores La cantidad total de reinicios para los contenedores de trabajadores individuales.
Expulsiones de pods de trabajadores Cantidad de expulsiones de Pods de trabajadores de Airflow. El expulsión de Pods puede ocurrir cuando un Pod particular del clúster de tu entorno alcanza sus límites de recursos. Si se expulsa un Pod de trabajador de Airflow, todas las instancias de tareas que se ejecutan en ese Pod se interrumpen y, más adelante, Airflow las marca como con errores.
Tareas de Airflow Consulta Descripción general del entorno.
Tiempos de espera de publicación del agente de Celery La cantidad total de errores AirflowTaskTimeout que se generaron cuando se publicaron tareas para Celery agentes. Esta métrica corresponde a la métrica celery.task_timeout_error de Airflow.
Fallas del comando de ejecución de Celery La cantidad total de códigos de salida distintos de cero de las tareas de Celery. Esta métrica corresponde a la métrica celery.execute_command.failure de Airflow.
Tareas finalizadas por el sistema La cantidad de tareas de flujo de trabajo en las que el ejecutor de tareas se terminó con una SIGKILL (por ejemplo, debido a problemas con la memoria del trabajador o la señal de monitoreo de funcionamiento).

Estadísticas del servidor web

Métrica del entorno Descripción
Estado del servidor web Consulta Descripción general del entorno.
Uso de CPU del servidor web El uso total de núcleos de CPU virtual por parte de los contenedores que se ejecutan en todas las instancias del servidor web de Airflow y el límite combinado de CPU virtual para todos los servidores web.
Uso de memoria del servidor web El uso total de memoria por parte de los contenedores que se ejecutan en todas las instancias de servidor web de Airflow y el límite combinado de CPU virtuales para todos los servidores web.
Uso total del disco del servidor web El uso total del espacio en disco por parte de los contenedores que se ejecutan en todas las instancias de servidor web de Airflow y el límite de espacio en disco combinado para todos los servidores web.

Estadísticas de la base de datos SQL

Métrica del entorno Descripción
Estado de la base de datos Consulta Descripción general del entorno.
Uso de CPU de la base de datos El uso de núcleos de CPU por parte de las instancias de base de datos de Cloud SQL de tu entorno.
Uso de memoria de la base de datos El uso total de memoria por parte de las instancias de base de datos de Cloud SQL de tu entorno.
Uso del disco de la base de datos El uso total de memoria por parte de las instancias de base de datos de Cloud SQL de tu entorno.
Conexiones de base de datos La cantidad total de conexiones activas a la base de datos y el límite total de conexiones.
Tamaño de la base de datos de metadatos de Airflow Tamaño de la base de datos de metadatos de Airflow. Para obtener más información sobre el mantenimiento de la base de datos de metadatos de Airflow, consulta Limpia la base de datos de Airflow.

Diferencia entre el tiempo de análisis del DAG y el tiempo de ejecución del DAG

En el panel de supervisión de un entorno, se muestra el tiempo total necesario para analizar todos los DAG en tu entorno de Cloud Composer y el tiempo promedio que lleva ejecutar un DAG.

El análisis de un DAG y la programación de las tareas desde un DAG para su ejecución son dos operaciones independientes que realiza el programador de Airflow.

Análisis de DAG y programación de tareas realizadas por el programador de Airflow
Figura 3: Análisis del DAG y programación de tareas realizadas por el programador de Airflow (haz clic para ampliar)

El tiempo de análisis del DAG es la cantidad de tiempo que tarda el programador de Airflow en leer un archivo DAG y analizarlo.

Antes de que el programador de Airflow pueda programar cualquier tarea desde un DAG, el programador debe analizar el archivo del DAG para descubrir la estructura del DAG y las tareas definidas. Después de analizar el archivo DAG, el programador puede comenzar a programar tareas desde el DAG.

El tiempo de ejecución del DAG es la suma de todos los tiempos de ejecución de las tareas de un DAG.

Para ver cuánto tiempo se tarda en ejecutar una tarea de Airflow específica desde un DAG, en la interfaz web de Airflow, selecciona un DAG y abre la pestaña Duración de la tarea. En esta pestaña, se muestran los tiempos de ejecución de la tarea para la cantidad especificada de últimas ejecuciones de DAG.