Cloud Composer 1 | Cloud Composer 2 | Cloud Composer 3
En esta página, se describe cómo acceder y usar el panel de supervisión para un entorno de Cloud Composer.
Para ver un instructivo sobre cómo supervisar métricas clave del entorno, consulta Supervisa el estado y el rendimiento del entorno con métricas clave.
Para obtener más información sobre métricas específicas, consulta Supervisa entornos con Cloud Monitoring.
Accede al panel de supervisión
El panel de supervisión contiene métricas y gráficos para supervisar las tendencias de el DAG se ejecute en tu entorno y a identificar problemas con Airflow componentes y recursos de Cloud Composer.
Para acceder al panel de supervisión de tu entorno, haz lo siguiente:
En la consola de Google Cloud, ve a la página Entornos.
En la lista de entornos, haz clic en el nombre de tu entorno. Se abrirá la página Detalles del entorno.
Ve a la pestaña Monitoring.
Configura alertas para las métricas
Para configurar las alertas de una métrica, haz clic en el ícono de campana en la esquina de la tarjeta de supervisión.
Cómo ver una métrica en Monitoring
Puedes obtener un análisis más detallado de una métrica si la observas en Supervisión
Para navegar hasta allí desde el panel de supervisión de Cloud Composer, haz clic en los tres puntos en la esquina superior derecha de una tarjeta de métrica y selecciona Ver en el Explorador de métricas.
Descripciones de las métricas
Cada entorno de Cloud Composer tiene su propio panel de supervisión. Las métricas que se muestran en un panel de supervisión de un entorno en particular solo realizan un seguimiento de las ejecuciones del DAG, los componentes de Airflow y los detalles del entorno solo para este entorno. Por ejemplo, si tienes dos entornos, el panel no agrega métricas de ambos entornos.
Descripción general del entorno
Métrica del entorno | Descripción |
---|---|
Estado del entorno (DAG de supervisión de Airflow) | Un cronograma que muestra el estado de la implementación de Composer. El estado verde solo refleja el estado de la implementación de Composer. No significa que todos los componentes de Airflow estén operativos y que los DAG puedan ejecutarse. |
Señal de monitoreo de funcionamiento del programador | Una línea de tiempo que muestra la señal de monitoreo de funcionamiento del programador de Airflow. Verifica las áreas rojas para identificar los problemas del programador de Airflow. Si tu entorno tiene más de un programador, el estado del indicador de actividad es correcto, siempre y cuando al menos uno de los programadores responda. |
Estado del servidor web | Un cronograma que muestra el estado del servidor web de Airflow Este estado se genera según los códigos de estado HTTP que muestra el servidor web de Airflow. |
Estado de la base de datos | Un cronograma que muestra el estado de la conexión a la instancia de Cloud SQL que aloja la base de datos de Airflow |
Operaciones del entorno | Una línea de tiempo en la que se muestran las operaciones que modifican el entorno, como la ejecución de actualizaciones de configuración o la carga de instantáneas del entorno. |
Operaciones de mantenimiento | Una línea de tiempo que muestra los períodos en los que se realizan las operaciones de mantenimiento en el clúster del entorno. |
Dependencias del entorno | Un cronograma que muestra el estado de las verificaciones de accesibilidad y permisos para la operación del entorno. |
Estadísticas del DAG
Métrica del entorno | Descripción |
---|---|
Ejecuciones correctas de DAG | La cantidad total de ejecuciones correctas de todos los DAG del entorno durante el intervalo de tiempo seleccionado. Si la cantidad de ejecuciones de DAG correctas cae por debajo de los niveles esperados, esto podría indicar fallas (consulta Ejecuciones fallidas de DAG) o un problema de programación. |
Ejecuciones fallidas de DAG Tareas con errores | La cantidad total de ejecuciones fallidas de todos los DAG del entorno durante el intervalo de tiempo seleccionado. La cantidad total de tareas que fallaron en el entorno durante el intervalo de tiempo seleccionado. Las tareas fallidas no siempre hacen que falle una ejecución de DAG, pero pueden ser una señal útil para solucionar errores de DAG. |
Ejecuciones de DAG completadas | La cantidad de éxitos y fracasos de DAG en intervalos en el intervalo de tiempo seleccionado. Esto puede ayudar a identificar problemas transitorios en las ejecuciones de DAG y correlacionarlos con otros eventos, como expulsiones de Pods trabajadores. |
Tareas completadas | La cantidad de tareas completadas en el entorno con un desglose de las tareas exitosas y fallidas. |
Mediana de duración de la ejecución de DAG | La mediana de duración de las ejecuciones de DAG. Este gráfico puede ayudar a identificar problemas de rendimiento y detectar tendencias en la duración del DAG. |
Tareas de Airflow | La cantidad de tareas en ejecución, en cola o diferidas en un momento determinado. Las tareas de Airflow son tareas que se encuentran en un estado en cola en Airflow y pueden ir a la cola del agente de Celery o de Kubernetes Executor. Las tareas en cola de Celery son instancias de tareas que se ponen en la cola de agentes de Celery. |
Procesos zombi eliminados | Es la cantidad de tareas zombi que finalizaron en un período pequeño. Las tareas zombi, a menudo, son producto de la terminación externa de los procesos de Airflow. El programador de Airflow finaliza las tareas zombi de forma periódica, lo que se refleja en este gráfico. |
Tamaño de la bolsa del DAG | Es la cantidad de DAG implementados en el bucket de tu entorno y que Airflow procesó en un momento determinado. Esto puede ser útil para analizar los cuellos de botella de rendimiento. Por ejemplo, una mayor cantidad de implementaciones de DAG puede disminuir el rendimiento debido a una carga excesiva. |
Errores del procesador de DAG | La cantidad de errores y tiempos de espera por segundo que se encontraron durante el procesamiento de los archivos DAG. El valor indica la frecuencia de errores que informó el procesador de DAG (es un valor diferente de la cantidad de DAG con errores). |
Tiempo de análisis total de todos los DAG | Un gráfico que muestra el tiempo total necesario para que Airflow procese todos los DAG en el entorno. Un mayor tiempo de análisis puede afectar la eficiencia de la programación. Consulta la diferencia entre el tiempo de análisis y el tiempo de ejecución del DAG para obtener más información. |
Estadísticas del programador
Métrica del entorno | Descripción |
---|---|
Sonido del programador | Consulta Descripción general del entorno. |
Uso total de CPU del programador | El uso total de núcleos de CPU virtual por parte de los contenedores que se ejecutan en todos los Pods de programadores de Airflow y el límite combinado de CPU virtual para todos los programadores. |
Uso total de memoria del programador | El uso total de memoria por parte de los contenedores que se ejecutan en todos los Pods de programadores de Airflow y el límite combinado de CPU virtual para todos los programadores. |
Uso total del disco del programador | El uso total del espacio en el disco por parte de los contenedores que se ejecutan en todos los Pods de programadores de Airflow y el límite de espacio en disco combinado para todos los programadores. |
Reinicios del contenedor del programador | Es la cantidad total de reinicios de los contenedores del programador individuales. |
Expulsiones de pods del programador | Cantidad de expulsiones de Pods del programador de Airflow. La expulsión de pods puede ocurrir cuando un pod en particular del clúster de tu entorno alcanza sus límites de recursos. |
Estadísticas de los trabajadores
Métrica del entorno | Descripción |
---|---|
Uso total de CPU de trabajadores | El uso total de núcleos de CPU virtual por parte de los contenedores que se ejecutan en todos los pods de trabajadores de Airflow y el límite combinado de CPU virtual para todos los trabajadores. |
Uso total de memoria de los trabajadores | El uso total de memoria por parte de los contenedores que se ejecutan en todos los pods de trabajadores de Airflow y el límite combinado de CPU virtual para todos los trabajadores. |
Uso total del disco de los trabajadores | El uso total del espacio en el disco por parte de los contenedores que se ejecutan en todos los Pods trabajadores de Airflow y el límite de espacio en disco combinado para todos los trabajadores. |
Trabajadores activos | La cantidad actual de trabajadores en tu entorno. En Cloud Composer 2, tu entorno escala automáticamente la cantidad de trabajadores activos. |
Reinicios del contenedor de trabajadores | La cantidad total de reinicios de contenedores de trabajadores individuales. |
Expulsiones de pods de trabajadores | Cantidad de expulsiones de Pods de trabajadores de Airflow. La expulsión de un Pod puede ocurrir cuando un Pod particular del clúster de tu entorno alcanza sus límites de recursos. Si se expulsa un pod de trabajador de Airflow, todas las instancias de tareas que se ejecutan en ese pod se interrumpen y, luego, se marcan como con errores en Airflow. |
Tareas de Airflow | Consulta Descripción general del entorno. |
Tiempos de espera de publicación del agente de Celery |
La cantidad total de errores AirflowTaskTimeout generados cuando se publican tareas en los agentes de Celery. Esta métrica corresponde a la métrica celery.task_timeout_error de Airflow. |
Fallas del comando de ejecución de Celery |
La cantidad total de códigos de salida distintos de cero de las tareas de Celery. Esta métrica corresponde a la métrica celery.execute_command.failure de Airflow. |
Tareas finalizadas por el sistema | La cantidad de tareas de flujo de trabajo en las que el ejecutor de tareas se terminó con una SIGKILL (por ejemplo, debido a problemas con la memoria del trabajador o la señal de monitoreo de funcionamiento). |
Estadísticas del servidor web
Métrica del entorno | Descripción |
---|---|
Estado del servidor web | Consulta Descripción general del entorno. |
Uso de CPU del servidor web | El uso total de núcleos de CPU virtual por parte de los contenedores que se ejecutan en todo el servidor web de Airflow instancias y el límite combinado de CPU virtuales para todos los servidores web. |
Uso de memoria del servidor web | El uso total de memoria por parte de los contenedores que se ejecutan en todo el servidor web de Airflow instancias y el límite combinado de CPU virtuales para todos los servidores web. |
Uso total del disco del servidor web | El uso total de espacio en disco por parte de los contenedores que se ejecutan en todas las instancias del servidor web de Airflow y el límite de espacio en disco combinado para todos los servidores web |
Estadísticas de la base de datos SQL
Métrica del entorno | Descripción |
---|---|
Estado de la base de datos | Consulta Descripción general del entorno. |
Uso de CPU de la base de datos | El uso de núcleos de CPU por parte de las instancias de base de datos de Cloud SQL de tu entorno |
Uso de memoria de la base de datos | El uso total de memoria por parte de las instancias de base de datos de Cloud SQL de tu entorno |
Uso del disco de la base de datos | El uso total del espacio en disco por parte de las instancias de base de datos de Cloud SQL de tu entorno Esta métrica se aplica a la instancia de la base de datos de Cloud SQL, por lo que no disminuye cuando se reduce el tamaño de la base de datos de Airflow. Para ver una métrica que muestre el tamaño del contenido de la base de datos de Airflow, consulta Tamaño de la base de datos de metadatos de Airflow. |
Tamaño de la base de datos de metadatos de Airflow | Tamaño de la base de datos de metadatos de Airflow. Esta métrica se aplica al componente Airflow de tu entorno y muestra la cantidad de espacio en disco que ocupa la base de datos de metadatos de Airflow en la instancia de base de datos de Cloud SQL. Esta métrica disminuye cuando se reduce el tamaño de la base de datos de metadatos de Airflow (por ejemplo, después del mantenimiento de la base de datos de Airflow) y determina si es posible crear instantáneas y actualizar entornos. Esta métrica es diferente de la métrica de uso del disco de la base de datos, que muestra la cantidad de espacio en el disco que usan las instancias de la base de datos de Cloud SQL. |
Conexiones de base de datos | La cantidad total de conexiones activas a la base de datos y el límite total de conexiones. |
Diferencia entre el tiempo de análisis del DAG y el tiempo de ejecución del DAG
En el panel de supervisión de un entorno, se muestra el tiempo total necesario para analizar todos los DAG en tu entorno de Cloud Composer y el tiempo promedio que lleva ejecutar un DAG.
Analizar un DAG y programar tareas de un DAG para su ejecución son dos que ejecuta el programador de Airflow.
El tiempo de análisis del DAG es la cantidad de tiempo que tarda el programador de Airflow en leer un archivo DAG y analizarlo.
Antes de que el programador de Airflow pueda programar cualquier tarea desde un DAG, el programador debe analizar el archivo del DAG para descubrir la estructura del DAG y las tareas definidas. Después de analizar el archivo DAG, el programador puede comenzar a programar tareas desde el DAG.
El tiempo de ejecución del DAG es la suma de todos los tiempos de ejecución de las tareas de un DAG.
Para ver cuánto tiempo lleva ejecutar una tarea de Airflow en particular desde un DAG, en la interfaz web de Airflow, selecciona un DAG y abre la pestaña Duración de la tarea. En esta pestaña, se muestran los tiempos de ejecución de las tareas para la cantidad especificada de últimas ejecuciones de DAG.