Esta página se ha traducido con Cloud Translation API.
Switch to English

Supervisa entornos en Cloud Console

En esta página, se describe cómo acceder y usar el panel de supervisión para un entorno de Cloud Composer. Este panel contiene métricas y gráficos para supervisar las tendencias en las ejecuciones del DAG en tu entorno y, además, identificar los problemas con los componentes de Airflow y los recursos de Cloud Composer.

Accede al panel de supervisión

  1. Abre la páginaEntornos en Cloud Console.

    Abrir la página Entornos

  2. Busca el nombre del entorno que deseas supervisar en la lista. Haz clic en el nombre del entorno para abrir la pestaña correspondiente de la página Detalles del entorno.

Selecciona un intervalo de tiempo

Puedes seleccionar un intervalo de tiempo para los datos en el panel mediante la lista de rangos en la parte superior derecha de la página.

Selector de intervalo de tiempo

También puedes acercar un intervalo de tiempo específico si haces clic y arrastras en cualquier gráfico. El nuevo intervalo de tiempo se aplicará a todas las métricas. Para restablecer el zoom, haz clic en el botón RESTABLECER EL ZOOM a la izquierda de los intervalos de tiempo.

Configurar las alertas

Para configurar las alertas de una métrica, haz clic en el ícono de campana en la esquina de la tarjeta de supervisión.

Alertas de Monitoring

Visualiza una métrica en Monitoring

Para ver con más detalle una métrica, puedes verla en Monitoring. Para navegar desde el panel de supervisión de Cloud Composer, haz clic en los tres puntos de la esquina superior derecha de una tarjeta de métrica y selecciona Ver en el Explorador de métricas (View in Metrics Explorer).

Ver en el Explorador de métricas

Descripciones de las métricas

Cada entorno de Cloud Composer tiene su propio panel de supervisión. Las métricas a continuación solo realizan un seguimiento de las ejecuciones del DAG, los componentes de Airflow y los detalles del entorno para el entorno seleccionado actualmente.

Descripción general del entorno

Métrica del entorno Descripción
Uso de CPU por nodo Un gráfico que muestra el uso de núcleos de CPU agregados en todos los Pods en ejecución en el nodo, medido como una proporción de uso de tiempo principal. Esto no incluye el uso de CPU de la instancia de App Engine usada para la IU de Airflow o la instancia de Cloud SQL. El uso elevado de CPU suele ser la causa raíz de las expulsiones de Pods trabajadores. Si observa un uso muy alto, considere escalar horizontalmente su entorno de Composer o cambiar la programación de tus ejecuciones de DAG.
Uso de memoria por nodo Uso de memoria por nodo en el clúster de GKE No incluye el uso de memoria de la instancia de App Engine que se usa para la IU de Airflow o la instancia de Cloud SQL. El uso de memoria elevado suele ser la causa raíz de las expulsiones de pods de trabajador, lo que puede provocar fallas de DAG.
Estado del entorno Un cronograma que muestra el estado de la implementación de Composer. El estado verde no significa que todos los componentes de Airflow fueron operativos y los DAG pudieron ejecutarse, solo refleja el estado de la implementación de Composer.
Estado de la base de datos Un cronograma que muestra el estado de la conexión a la instancia de Cloud SQL de Composer.
Estado del servidor web Un cronograma que muestra el estado del servidor web de IU de Airflow Esto se genera según los códigos de estado HTTP que muestra el servidor de IU.

Componentes de Airflow

Métrica de Airflow Descripción
Señal de monitoreo de funcionamiento del programador Un cronograma que muestra cuándo el programador de Airflow proporcionó un ritmo cardíaco correcto (p. ej., cuando respondió). Verifica las áreas rojas para identificar los problemas del programador de Airflow.
Trabajadores activos Un gráfico que muestra la cantidad de trabajadores activos en el intervalo de tiempo seleccionado. De forma predeterminada, debería ser igual a la cantidad de nodos en el clúster de Airflow, pero puede aumentar si el entorno se escala horizontalmente. Si el número de trabajadores activos disminuye, esto puede indicar fallas en el proceso del trabajador (consulta el gráfico de expulsiones de Pods trabajadores).
Expulsiones de pods de trabajadores1 Un gráfico que muestra la cantidad de expulsiones de pods trabajadores de GKE a lo largo del tiempo. Las expulsiones de pods suelen provocar el agotamiento de los recursos de GKE. Para obtener más detalles, consulta el gráfico de uso de CPU y memoria por nodo.
Procesos zombi eliminados1 Un gráfico que muestra la cantidad de tareas de zombis que finalizaron en un período pequeño. Las tareas zombi, a menudo, son producto de la terminación externa de los procesos de Airflow. El programador de Airflow finaliza las tareas zombi de forma periódica, lo que debería reflejarse en este gráfico.

Ejecuciones de DAG

Métrica de ejecución del DAG Descripción
Ejecuciones correctas de DAG La cantidad total de ejecuciones correctas de todos los DAG del entorno durante el intervalo de tiempo seleccionado. Si esto cae por debajo de los niveles esperados, esto podría indicar fallas (consulta Ejecuciones fallidas de DAG) o un problema de programación.
Ejecuciones fallidas de DAG La cantidad total de ejecuciones fallidas de todos los DAG del entorno durante el intervalo de tiempo seleccionado.
Tareas con errores1 La cantidad total de tareas que fallaron en el entorno durante el intervalo de tiempo seleccionado. Las tareas fallidas no siempre hacen que falle una ejecución de DAG, pero pueden ser una señal útil para solucionar errores de DAG.
Ejecuciones de DAG completadas Un gráfico de barras que muestra la cantidad de aciertos y fracasos de los DAG por los intervalos de tiempo seleccionados. Esto puede ayudar a identificar problemas transitorios en las ejecuciones de DAG y correlacionarlos con otros eventos, como expulsiones de Pods trabajadores.
Mediana de duración de la ejecución de DAG Un gráfico que muestra la mediana de duración de las ejecuciones de DAG que se completaron durante un período corto. Este gráfico puede ayudar a identificar problemas de rendimiento y detectar tendencias en la duración del DAG.
Tareas completadas1 Un gráfico en el que se muestra la cantidad de tareas completadas en el entorno en un período breve con un desglose de las tareas exitosas y fallidas.
Tareas en ejecución 1y en la cola Un gráfico que muestra la cantidad de tareas en ejecución y en cola en un momento determinado. Consulta la cantidad de tareas en cola para identificar cuellos de botella en el rendimiento o cargas excesivas. La cola se agranda cuando las tareas no se pueden ejecutar de inmediato. Consulta la cantidad de tareas en ejecución para detectar problemas de programación. Por ejemplo, si la cantidad de tareas en ejecución disminuye de manera significativa, esto podría sugerir un problema de programación.
Tamaño de la bolsa del DAG1 Un gráfico que muestra la cantidad de DAG implementados en un bucket de Cloud Storage y que procesó Airflow en un momento determinado. Esto puede ser útil para analizar los cuellos de botella de rendimiento. Por ejemplo, una mayor cantidad de implementaciones de DAG puede degradar el rendimiento debido a la carga excesiva.
Errores en la importación del archivo DAG 1 Un gráfico en el que se muestra la cantidad de errores de análisis de DAG en un período reducido. Esto puede ayudar a identificar cuándo Airflow procesó los DAG dañados, lo que señala problemas en el código fuente de DAG.
Tiempo de análisis total de todos los DAG 1 Un gráfico que muestra el tiempo total necesario para que Airflow procese todos los DAG en el entorno. Un mayor tiempo de análisis puede afectar la eficiencia de la programación.

Diferencia entre el tiempo de análisis de DAG y el tiempo de ejecución del DAG

El análisis de un DAG y la programación de las tareas de un DAG para la ejecución son dos operaciones independientes que realiza el programador de Airflow:

El tiempo de análisis de DAG es la cantidad de tiempo que le lleva a este programador leer un archivo DAG y analizarlo.

Antes de que el programador de Airflow pueda programar cualquier tarea desde un DAG, este debe analizar el archivo DAG para descubrir la estructura del DAG y las tareas definidas. Después de analizar el archivo DAG, el programador puede comenzar a programar tareas desde el DAG.

Tiempo de ejecución de DAG es la suma de todos los tiempos de ejecución de tareas para un DAG. Para ver cuánto tiempo lleva ejecutar una tarea de Airflow en particular desde un DAG, en la interfaz web de Airflow, selecciona un DAG y abre el Pestaña Duración de las tareas. En esta pestaña, se muestran los tiempos de ejecución de las tareas del número especificado de ejecuciones de DAG más recientes.

En el panel de supervisión de un entorno, se muestra el tiempo total necesario para analizar todos los DAG en tu entorno de Cloud Composer y el tiempo promedio que lleva ejecutar el DAG.

1 Disponible para entornos con la versión 1.10.0 o una versión posterior de Composer y la versión 1.10.6 o una versión posterior de Airflow.