Cloud Composer 1 está en el modo posterior al mantenimiento. Google no lanzará más actualizaciones de Cloud Composer 1, incluidas nuevas versiones de Airflow, correcciones de errores y actualizaciones de seguridad. Te recomendamos planificar la migración a Cloud Composer 2.

Se usó la API de Cloud Translation para traducir esta página.

Supervisa el estado y el rendimiento del entorno con métricas clave en el panel de supervisión

Cloud Composer 3 | Cloud Composer 2 | Cloud Composer 1

En esta página, se describe cómo supervisar el estado general y el rendimiento del entorno de Cloud Composer con métricas clave en el panel de supervisión.

Introducción

En este instructivo, se enfocan las métricas de supervisión clave de Cloud Composer que pueden proporcionar una buena descripción general del estado y el rendimiento a nivel del entorno.

Cloud Composer ofrece varias métricas que describen el estado general del entorno. Los lineamientos de supervisión de este instructivo se basan en las métricas expuestas en el panel de Monitoring de tu entorno de Cloud Composer.

En este instructivo, obtendrás información sobre las métricas clave que sirven como indicadores principales de problemas con el rendimiento y el estado de tu entorno, así como los lineamientos para interpretar cada métrica en acciones correctivas para mantener el entorno en buen estado. También configurarás reglas de alertas para cada métrica, ejecutarás el DAG de ejemplo y usarás estas métricas y alertas para optimizar el rendimiento de tu entorno.

Objetivos

Costos

En este instructivo, se usan los siguientes componentes facturables de Google Cloud:

Cloud Composer (consulta los costos adicionales)
Cloud Monitoring

Cuando finalices este instructivo, puedes borrar los recursos creados para evitar que se te siga facturando. Para obtener más información, consulta Cómo realizar una limpieza.

Antes de comenzar

En esta sección, se describen las acciones que debes realizar antes de comenzar el instructivo.

Crea y configura un proyecto

Para este instructivo, necesitas un Google Cloud proyecto. Configura el proyecto de la siguiente manera:

En la consola de Google Cloud, selecciona o crea un proyecto:

Ir al Selector de proyectos
Asegúrate de tener habilitada la facturación para tu proyecto. Obtén información para verificar si la facturación está habilitada en un proyecto.
Asegúrate de que el Google Cloud usuario de tu proyecto tenga los siguientes roles para crear los recursos necesarios:
- Administrador de objetos de almacenamiento y entorno (roles/composer.environmentAndStorageObjectAdmin)
- Administrador de Compute (roles/compute.admin)
- Editor de Monitoring (roles/monitoring.editor)

Habilita las API para tu proyecto.

Enable the Cloud Composer API.

Enable the API

Crea tu entorno de Cloud Composer

Crea un entorno de Cloud Composer 2.

Como parte de este procedimiento, otorgas el rol de Extensión del agente de servicio de la API de Cloud Composer v2 (roles/composer.ServiceAgentV2Ext) a la cuenta del agente de servicio de Composer. Cloud Composer usa esta cuenta para realizar operaciones en tu Google Cloud proyecto.

Explora las métricas clave del estado y el rendimiento a nivel del entorno

En este instructivo, se enfocan las métricas clave que pueden brindarte una buena descripción general del estado y el rendimiento general de tu entorno.

El panel de supervisión de la consola de Google Cloud contiene una variedad de métricas y gráficos que permiten supervisar las tendencias en tu entorno y, además, identificar los problemas con los componentes de Airflow y los recursos de Cloud Composer.

Cada entorno de Cloud Composer tiene su propio panel de supervisión.

Familiarízate con las métricas clave que se indican a continuación y ubica cada una en el panel de supervisión:

En la consola de Google Cloud, ve a la página Entornos.

Ir a Entornos
En la lista de entornos, haz clic en el nombre de tu entorno. Se abrirá la página Detalles del entorno.
Ve a la pestaña Monitoring.
Selecciona la sección Resumen, busca el elemento Resumen del entorno en el panel y observa la métrica Estado del entorno (DAG de supervisión de Airflow).
- Este cronograma muestra el estado del entorno de Cloud Composer. El color verde de la barra de estado del entorno indica que el entorno está en buen estado, mientras que el estado del entorno no en buen estado se indica con el color rojo.
- Cada cierto tiempo, Cloud Composer ejecuta un DAG de estado activo llamado airflow_monitoring. Si la ejecución del DAG de estado activo finaliza correctamente, el estado de estado es True. Si falla la ejecución del DAG de actividad (por ejemplo, debido a la expulsión de Pods, la finalización de procesos externos o el mantenimiento), el estado es False.
Selecciona la sección Base de datos de SQL, busca el elemento Estado de la base de datos en el panel y observa la métrica Estado de la base de datos.
- Este cronograma muestra el estado de la conexión a la instancia de Cloud SQL de tu entorno. La barra de estado verde de la base de datos indica conectividad, mientras que las fallas de conexión se indican con el color rojo.
- El pod de supervisión de Airflow hace ping a la base de datos de forma periódica y informa el estado como True si se puede establecer una conexión, o como False si no.
En el elemento Estado de la base de datos, observa las métricas Uso de CPU de la base de datos y Uso de memoria de la base de datos.
- El gráfico de uso de CPU de la base de datos indica el uso de núcleos de CPU por parte de las instancias de base de datos de Cloud SQL de tu entorno en comparación con el límite total de CPU de la base de datos disponible.
- El gráfico de uso de memoria de la base de datos indica el uso de memoria que hacen las instancias de base de datos de Cloud SQL de tu entorno en comparación con el límite total de memoria disponible de la base de datos.
Selecciona la sección Programadores, busca el elemento Pulso del programador en el panel y observa la métrica Pulso del programador.
- Este cronograma muestra el estado del programador de Airflow. Verifica las áreas rojas para identificar los problemas del programador de Airflow. Si tu entorno tiene más de un programador, el estado del indicador de actividad es saludable, siempre y cuando al menos uno de los programadores responda.
- El programador se considera inestable si el último mensaje de estado se recibió más de 30 segundos (valor predeterminado) antes de la hora actual.
Selecciona la sección DAG statistics, busca el elemento Zombie tasks killed en el panel y observa la métrica Zombie tasks killed.
- Este gráfico indica la cantidad de tareas zombi que finalizaron en un período breve. Las tareas zombi, a menudo, son producto de la terminación externa de los procesos de Airflow (como cuando se cancela el proceso de una tarea).
- El programador de Airflow finaliza las tareas zombi de forma periódica, lo que se refleja en este gráfico.
Selecciona la sección Trabajadores, busca el elemento Reinicio del contenedor de trabajadores en el panel y observa la métrica Reinicio del contenedor de trabajadores.
- Un gráfico indica la cantidad total de reinicios de los contenedores de trabajo individuales. Demasiados reinicios de contenedores pueden afectar la disponibilidad de tu servicio o de otros servicios downstream que lo usan como dependencia.

Conoce las comparativas y las posibles acciones correctivas para las métricas clave

En la siguiente lista, se describen los valores de referencia que pueden indicar problemas y se proporcionan acciones correctivas que puedes realizar para abordarlos.

Estado del entorno (DAG de supervisión de Airflow)
- Menos del 90% de tasa de éxito en un período de 4 horas
- Las fallas pueden significar expulsiones de Pods o terminaciones de trabajadores porque el entorno está sobrecargado o funciona mal. Las áreas rojas en el cronograma de estado del entorno suelen correlacionarse con las áreas rojas en las otras barras de estado de los componentes individuales del entorno. Revisa otras métricas en el panel de Monitoring para identificar la causa raíz.
Estado de la base de datos
- Menos del 95% de tasa de éxito en un período de 4 horas
- Las fallas indican que hay problemas con la conectividad a la base de datos de Airflow, lo que podría deberse a una falla o un tiempo de inactividad de la base de datos porque está sobrecargada (por ejemplo, debido a un alto uso de la CPU o la memoria, o una latencia más alta mientras se conecta a la base de datos). Estos síntomas suelen ser causados por DAGs poco óptimas, como cuando usan muchas variables de entorno o de Airflow definidas a nivel global. Para identificar la causa raíz, revisa las métricas de uso de recursos de la base de datos de SQL. También puedes inspeccionar los registros del programador en busca de errores relacionados con la conectividad de la base de datos.
Uso de CPU y memoria de la base de datos
- Más del 80% de uso promedio de CPU o memoria en un período de 12 horas
- Es posible que la base de datos esté sobrecargada. Analiza la correlación entre las ejecuciones de tu DAG y los aumentos repentinos en el uso de la CPU o la memoria de la base de datos.
  - Puedes reducir la carga de la base de datos a través de DAGs más eficientes con consultas y conexiones de ejecución optimizadas, o bien distribuyendo la carga de manera más uniforme con el tiempo.
  - Como alternativa, puedes asignar más CPU o memoria a la base de datos. Los recursos de la base de datos están controlados por la propiedad de tamaño del entorno, y este debe ajustarse a un tamaño mayor.
Señal de monitoreo de funcionamiento del programador
- Menos del 90% de tasa de éxito en un período de 4 horas
- Asigna más recursos al programador o aumenta la cantidad de programadores de 1 a 2 (recomendado).
Procesos zombi eliminados
- Más de una tarea zombi por 24 horas
- El motivo más común de las tareas zombi es la escasez de recursos de CPU o memoria en el clúster de tu entorno. Revisa los gráficos de uso de recursos de los trabajadores y asígnales más recursos, o bien aumenta el tiempo de espera de las tareas zombi para que el programador espere más tiempo antes de considerar una tarea como zombi.
Reinicios del contenedor de trabajadores
- Más de un reinicio por 24 horas
- El motivo más común es la falta de memoria o almacenamiento del trabajador. Analiza el consumo de recursos de los trabajadores y asigna más memoria o almacenamiento a los trabajadores. Si la falta de recursos no es el motivo, consulta la sección para solucionar problemas relacionados con el reinicio de los trabajadores y usa las consultas de registro para descubrir los motivos de los reinicios.

Crea canales de notificaciones

Sigue las instrucciones que se describen en Cómo crear un canal de notificaciones para crear un canal de notificaciones por correo electrónico.

Para obtener más información sobre los canales de notificaciones, consulta Administra canales de notificaciones.

Crea políticas de alertas

Crea políticas de alertas basadas en las comparativas proporcionadas en las secciones anteriores de este instructivo para supervisar de forma continua los valores de las métricas y recibir notificaciones cuando esas métricas infrinjan una condición.

Console

Para configurar alertas para cada métrica que se presenta en el panel de supervisión, haz clic en el ícono de campana en la esquina del elemento correspondiente:

**Figura 1:** Crea una alerta para una métrica que se muestra en el panel de supervisión (haz clic para ampliar)

Busca cada métrica que quieras supervisar en el panel de Monitoring y haz clic en el ícono de campana en la esquina del elemento de la métrica. Se abrirá la página Crear política de alertas.

Importante: Los filtros de nombre de métrica, nombre de entorno y ubicación se aplican automáticamente. Sin embargo, las políticas de alertas para algunas de las métricas requieren filtros adicionales y nombres de métricas diferentes. Consulta los campos "Filtros" y "Nombre de la métrica" en la configuración de las políticas de alertas para métricas individuales para verificar que se apliquen los filtros correctos.
En la sección Transforma los datos, haz lo siguiente:
1. Configura la sección Dentro de cada serie temporal como se describe en la configuración de las políticas de alertas para la métrica.
2. Haz clic en Siguiente y, luego, configura la sección Configurar activador de alertas como se describe en la configuración de las políticas de alertas para la métrica.
Haz clic en Siguiente.
Configura las notificaciones. Expande el menú Canales de notificaciones y selecciona los canales de notificaciones que creaste en el paso anterior.
Haz clic en Aceptar.
En la sección Asigna un nombre a la política de alertas, completa el campo Nombre de la política de alertas. Usa un nombre descriptivo para cada una de las métricas. Usa el valor "Asigna un nombre a la política de alertas" como se describe en la configuración de las políticas de alertas para la métrica.
Haz clic en Siguiente.
Revisa la política de alertas y haz clic en Crear política.

Métrica de estado del entorno (DAG de supervisión de Airflow): Parámetros de configuración de la política de alertas

Nombre de la métrica: Entorno de Cloud Composer: En buen estado
API: composer.googleapis.com/environment/healthy

Filtros:

environment_name = [ENVIRONMENT_NAME]
location = [CLUSTER_LOCATION]

Transformar datos > Dentro de cada serie temporal:
- Ventana móvil: Personalizada
- Valor personalizado: 4
- Unidades personalizadas: horas
- Función analítica progresiva: fracción verdadera
Configura el activador de alertas:
- Tipos de condiciones: Umbral
- Activador de alertas: Cualquier serie temporal es una infracción
- Posición del umbral: Por debajo del umbral
- Valor del umbral: 90
- Nombre de la condición: Estado del entorno
Configura las notificaciones y finaliza la alerta:
- Asigna el nombre Airflow Environment Health a la política de alertas.

Métrica de estado de la base de datos: Parámetros de configuración de la política de alertas

Nombre de la métrica: Entorno de Cloud Composer: Base de datos en buen estado
API: composer.googleapis.com/environment/database_health

Filtros:

environment_name = [ENVIRONMENT_NAME]
location = [CLUSTER_LOCATION]

Transformar datos > Dentro de cada serie temporal:
- Ventana móvil: Personalizada
- Valor personalizado: 4
- Unidades personalizadas: horas
- Función analítica progresiva: fracción verdadera
Configura el activador de alertas:
- Tipos de condiciones: Umbral
- Activador de alertas: Cualquier serie temporal es una infracción
- Posición del umbral: Por debajo del umbral
- Valor del umbral: 95
- Nombre de la condición: Estado de la base de datos
Configura las notificaciones y finaliza la alerta:
- Asigna el nombre Airflow Database Health a la política de alertas.

Métrica de uso de CPU de la base de datos: parámetros de configuración de la política de alertas

Nota: Para simplificar, cuando configures alertas para el uso de memoria de la base de datos y las métricas de uso de CPU de la base de datos, usa los nombres de métrica Uso de memoria de la base de datos (composer.googleapis.com/environment/database/memory/utilization) y Uso de CPU de la base de datos (composer.googleapis.com/environment/database/cpu/utilization) en lugar de los nombres de métrica predeterminados que supervisan los bytes usados (composer.googleapis.com/environment/database/memory/bytes_used) y el tiempo usado (composer.googleapis.com/environment/database/cpu/usage_time). Las métricas de uso de CPU y memoria de la base de datos supervisan automáticamente el porcentaje de CPU y memoria usados en comparación con los disponibles, lo que ayuda a evitar cálculos innecesarios cuando se configura el activador de condiciones.

Nombre de la métrica: Entorno de Cloud Composer: Utilización de la CPU de la base de datos
API: composer.googleapis.com/environment/database/cpu/utilization

Filtros:

environment_name = [ENVIRONMENT_NAME]
location = [CLUSTER_LOCATION]

Transformar datos > Dentro de cada serie temporal:
- Ventana móvil: Personalizada
- Valor personalizado: 12
- Unidades personalizadas: horas
- Función analítica progresiva: media
Configura el activador de alertas:
- Tipos de condiciones: Umbral
- Activador de alertas: Cualquier serie temporal es una infracción
- Posición del umbral: Por encima del umbral
- Valor del umbral: 80
- Nombre de la condición: Condición de uso de CPU de la base de datos
Configura las notificaciones y finaliza la alerta:
- Asigna el nombre Airflow Database CPU Usage a la política de alertas.

Métrica de uso de CPU de la base de datos: parámetros de configuración de la política de alertas

Nombre de la métrica: Entorno de Cloud Composer: Uso de memoria de la base de datos
API: composer.googleapis.com/environment/database/memory/utilization

Filtros:

environment_name = [ENVIRONMENT_NAME]
location = [CLUSTER_LOCATION]

Transformar datos > Dentro de cada serie temporal:
- Ventana móvil: Personalizada
- Valor personalizado: 12
- Unidades personalizadas: horas
- Función analítica progresiva: media
Configura el activador de alertas:
- Tipos de condiciones: Umbral
- Activador de alertas: Cualquier serie temporal es una infracción
- Posición del umbral: Por encima del umbral
- Valor del umbral: 80
- Nombre de la condición: Condición de uso de memoria de la base de datos
Configura las notificaciones y finaliza la alerta:
- Asigna el nombre Airflow Database Memory Usage a la política de alertas.

Métrica de señales de monitoreo de funcionamiento del programador: Parámetros de configuración de la política de alertas

Nombre de la métrica: Entorno de Cloud Composer: Pings del programador
API: composer.googleapis.com/environment/scheduler_heartbeat_count

Filtros:

environment_name = [ENVIRONMENT_NAME]
location = [CLUSTER_LOCATION]

Transformar datos > Dentro de cada serie temporal:
- Ventana móvil: Personalizada
- Valor personalizado: 4
- Unidades personalizadas: horas
- Función de ventana progresiva: count
Configura el activador de alertas:
- Tipos de condiciones: Umbral
- Activador de alertas: Cualquier serie temporal es una infracción
- Posición del umbral: Por debajo del umbral
- Valor del umbral: 216
  
  Nota: El recuento promedio de señales de actividad del programador en un entorno inactivo es de 240, por lo que una proporción de éxito del 90% en un período de 4 horas equivale a 240 × 0.9 =
  1. Para obtener este número, ejecuta una consulta que agregue el valor _scheduler_heartbeat_count_mean en el Editor de consultas del Explorador de métricas.
- Nombre de la condición: Condición de la señal de monitoreo de funcionamiento del programador
Configura las notificaciones y finaliza la alerta:
- Asigna el nombre "Airflow Scheduler Heartbeat" a la política de alertas.

Métrica de procesos zombi eliminados: Parámetros de configuración de la política de alertas

Nombre de la métrica: Entorno de Cloud Composer: Procesos zombi eliminados
API: composer.googleapis.com/environment/zombie_task_killed_count

Filtros:

environment_name = [ENVIRONMENT_NAME]
location = [CLUSTER_LOCATION]

Transformar datos > Dentro de cada serie temporal:
- Ventana móvil: 1 día
- Función analítica progresiva: suma
Configura el activador de alertas:
- Tipos de condiciones: Umbral
- Activador de alertas: Cualquier serie temporal es una infracción
- Posición del umbral: Por encima del umbral
- Valor del umbral: 1
- Nombre de la condición: Condición de tareas zombi
Configura las notificaciones y finaliza la alerta:
- Asigna el nombre a la política de alertas: Tareas zombi de Airflow

Métrica de reinicios del contenedor de trabajadores: parámetros de configuración de la política de alertas

Nombre de la métrica: Entorno de Cloud Composer: Procesos zombi eliminados
API: composer.googleapis.com/environment/zombie_task_killed_count

Filtros:

environment_name = [ENVIRONMENT_NAME]
location = [CLUSTER_LOCATION]

Transformar datos > Dentro de cada serie temporal:
- Ventana móvil: 1 día
- Función analítica progresiva: suma
Configura el activador de alertas:
- Tipos de condiciones: Umbral
- Activador de alertas: Cualquier serie temporal es una infracción
- Posición del umbral: Por encima del umbral
- Valor del umbral: 1
- Nombre de la condición: Condición de tareas zombi
Configura las notificaciones y finaliza la alerta:
- Asigna el nombre a la política de alertas: Tareas zombi de Airflow

Terraform

Ejecuta una secuencia de comandos de Terraform que cree un canal de notificación por correo electrónico y cargue políticas de alertas para las métricas clave que se proporcionan en este instructivo según sus respectivos comparativas:

Guarda el archivo de ejemplo de Terraform en tu computadora local.
Reemplaza lo siguiente:
- PROJECT_ID: Es el ID del proyecto de tu proyecto. Por ejemplo, example-project.
- EMAIL_ADDRESS: La dirección de correo electrónico a la que se debe notificar en caso de que se active una alerta.
- ENVIRONMENT_NAME: Es el nombre de tu entorno de Cloud Composer. Por ejemplo, example-composer-environment
- CLUSTER_NAME: Es el nombre del clúster de tu entorno, que se encuentra en Configuración del entorno > Recursos > Clúster de GKE en la consola de Google Cloud.

resource "google_monitoring_notification_channel" "basic" {
  project      = "PROJECT_ID"
  display_name = "Test Notification Channel"
  type         = "email"
  labels = {
    email_address = "EMAIL_ADDRESS"
  }
  # force_delete = false
}

resource "google_monitoring_alert_policy" "environment_health_metric" {
  project      = "PROJECT_ID"
  display_name = "Airflow Environment Health"
  combiner     = "OR"
  notification_channels = [google_monitoring_notification_channel.basic.name] // To manually add a notification channel add it with the syntax "projects/[PROJECT_ID]/notificationChannels/[CHANNEL_ID]"
  conditions {
    display_name = "Environment health condition"
    condition_threshold {
      filter     = "resource.type = \"cloud_composer_environment\" AND metric.type=\"composer.googleapis.com/environment/healthy\" AND resource.label.environment_name=\"ENVIRONMENT_NAME\""
      duration   = "60s"
      comparison = "COMPARISON_LT"
      threshold_value = 0.9
      aggregations {
        alignment_period   = "14400s"
        per_series_aligner = "ALIGN_FRACTION_TRUE"
      }
    }
  }

}

resource "google_monitoring_alert_policy" "database_health_metric" {
  project      = "PROJECT_ID"
  display_name = "Airflow Database Health"
  combiner     = "OR"
  notification_channels = [google_monitoring_notification_channel.basic.name] // To manually add a notification channel add it with the syntax "projects/[PROJECT_ID]/notificationChannels/[CHANNEL_ID]"
  conditions {
    display_name = "Database health condition"
    condition_threshold {
      filter     = "resource.type = \"cloud_composer_environment\" AND metric.type=\"composer.googleapis.com/environment/database_health\" AND resource.label.environment_name=\"ENVIRONMENT_NAME\""
      duration   = "60s"
      comparison = "COMPARISON_LT"
      threshold_value = 0.95
      aggregations {
        alignment_period   = "14400s"
        per_series_aligner = "ALIGN_FRACTION_TRUE"
      }
    }
  }
}

resource "google_monitoring_alert_policy" "alert_database_cpu_usage" {
  project      = "PROJECT_ID"
  display_name = "Airflow Database CPU Usage"
  combiner     = "OR"
  notification_channels = [google_monitoring_notification_channel.basic.name] // To manually add a notification channel add it with the syntax "projects/[PROJECT_ID]/notificationChannels/[CHANNEL_ID]"
  conditions {
    display_name = "Database CPU usage condition"
    condition_threshold {
      filter     = "resource.type = \"cloud_composer_environment\" AND metric.type=\"composer.googleapis.com/environment/database/cpu/utilization\" AND resource.label.environment_name=\"ENVIRONMENT_NAME\""
      duration   = "60s"
      comparison = "COMPARISON_GT"
      threshold_value = 80
      aggregations {
        alignment_period   = "43200s"
        per_series_aligner = "ALIGN_MEAN"
      }
    }
  }
}

resource "google_monitoring_alert_policy" "alert_database_memory_usage" {
  project      = "PROJECT_ID"
  display_name = "Airflow Database Memory Usage"
  combiner     = "OR"
  notification_channels = [google_monitoring_notification_channel.basic.name] // To manually add a notification channel add it with the syntax "projects/[PROJECT_ID]/notificationChannels/[CHANNEL_ID]"
  conditions {
    display_name = "Database memory usage condition"
    condition_threshold {
      filter     = "resource.type = \"cloud_composer_environment\" AND metric.type=\"composer.googleapis.com/environment/database/memory/utilization\" AND resource.label.environment_name=\"ENVIRONMENT_NAME\""
      duration   = "60s"
      comparison = "COMPARISON_GT"
      threshold_value = 80
      aggregations {
        alignment_period   = "43200s"
        per_series_aligner = "ALIGN_MEAN"
      }
    }
  }
}

resource "google_monitoring_alert_policy" "alert_scheduler_heartbeat" {
  project      = "PROJECT_ID"
  display_name = "Airflow Scheduler Heartbeat"
  combiner     = "OR"
  notification_channels = [google_monitoring_notification_channel.basic.name] // To manually add a notification channel add it with the syntax "projects/[PROJECT_ID]/notificationChannels/[CHANNEL_ID]"
  conditions {
    display_name = "Scheduler heartbeat condition"
    condition_threshold {
      filter     = "resource.type = \"cloud_composer_environment\" AND metric.type=\"composer.googleapis.com/environment/scheduler_heartbeat_count\" AND resource.label.environment_name=\"ENVIRONMENT_NAME\""
      duration   = "60s"
      comparison = "COMPARISON_LT"
      threshold_value = 216 // Threshold is 90% of the average for composer.googleapis.com/environment/scheduler_heartbeat_count metric in an idle environment
      aggregations {
        alignment_period   = "14400s"
        per_series_aligner = "ALIGN_COUNT"
      }
    }
  }
}

resource "google_monitoring_alert_policy" "alert_zombie_task" {
  project      = "PROJECT_ID"
  display_name = "Airflow Zombie Tasks"
  combiner     = "OR"
  notification_channels = [google_monitoring_notification_channel.basic.name] // To manually add a notification channel add it with the syntax "projects/[PROJECT_ID]/notificationChannels/[CHANNEL_ID]"
  conditions {
    display_name = "Zombie tasks condition"
    condition_threshold {
      filter     = "resource.type = \"cloud_composer_environment\" AND metric.type=\"composer.googleapis.com/environment/zombie_task_killed_count\" AND  resource.label.environment_name=\"ENVIRONMENT_NAME\""
      duration   = "60s"
      comparison = "COMPARISON_GT"
      threshold_value = 1
      aggregations {
        alignment_period   = "86400s"
        per_series_aligner = "ALIGN_SUM"
      }
    }
  }
}

resource "google_monitoring_alert_policy" "alert_worker_restarts" {
  project      = "PROJECT_ID"
  display_name = "Airflow Worker Restarts"
  combiner     = "OR"
  notification_channels = [google_monitoring_notification_channel.basic.name] // To manually add a notification channel add it with the syntax "projects/[PROJECT_ID]/notificationChannels/[CHANNEL_ID]"
  conditions {
    display_name = "Worker container restarts condition"
    condition_threshold {
      filter     = "resource.type = \"k8s_container\" AND (resource.labels.cluster_name = \"CLUSTER_NAME\" AND resource.labels.container_name = monitoring.regex.full_match(\"airflow-worker|base\") AND resource.labels.pod_name = monitoring.regex.full_match(\"airflow-worker-.*|airflow-k8s-worker-.*\")) AND metric.type = \"kubernetes.io/container/restart_count\""

      duration   = "60s"
      comparison = "COMPARISON_GT"
      threshold_value = 1
      aggregations {
        alignment_period   = "86400s"
        per_series_aligner = "ALIGN_RATE"
      }
    }
  }
}

Prueba las políticas de alertas

En esta sección, se describe cómo probar las políticas de alertas creadas y cómo interpretar los resultados.

Sube un DAG de muestra

El DAG de muestra memory_consumption_dag.py que se proporciona en este instructivo imita el uso intensivo de la memoria del trabajador. El DAG contiene 4 tareas, cada una de las cuales escribe datos en una cadena de muestra y consume 380 MB de memoria. El DAG de muestra está programado para ejecutarse cada 2 minutos y comenzará a ejecutarse automáticamente una vez que lo subas a tu entorno de Composer.

Sube el siguiente DAG de muestra al entorno que creaste en los pasos anteriores:

from datetime import datetime
import sys
import time

from airflow import DAG
from airflow.operators.python import PythonOperator


def ram_function():
    data = ""
    start = time.time()
    for i in range(38):
        data += "a" * 10 * 1000**2
        time.sleep(0.2)
        print(f"{i}, {round(time.time() - start, 4)}, {sys.getsizeof(data) / (1000 ** 3)}")
    print(f"Size={sys.getsizeof(data) / (1000 ** 3)}GB")
    time.sleep(30 - (time.time() - start))
    print(f"Complete in {round(time.time() - start, 2)} seconds!")


with DAG(
    dag_id="memory_consumption_dag",
    start_date=datetime(2023, 1, 1, 1, 1, 1),
    schedule="1/2 * * * *",
    catchup=False,
) as dag:
    for i in range(4):
        PythonOperator(
            task_id=f"task_{i+1}",
            python_callable=ram_function,
            retries=0,
            dag=dag,
        )

Interpreta las alertas y las métricas en Monitoring

Espera unos 10 minutos después de que el DAG de muestra comience a ejecutarse y evalúa los resultados de la prueba:

Revisa tu buzón de correo electrónico para verificar que recibiste una notificación deGoogle Cloud Alerting con el asunto que comienza con [ALERT]. El contenido de este mensaje contiene los detalles del incidente de la política de alertas.
Haz clic en el botón Ver incidente en la notificación por correo electrónico. Se te redireccionará al Explorador de métricas. Revisa los detalles del incidente de alerta:

Figura 2. Detalles del incidente de alerta (haz clic para ampliar)

El gráfico de métricas de incidentes indica que las métricas que creaste superaron el umbral de 1, lo que significa que Airflow detectó y eliminó más de 1 tarea zombi.
En tu entorno de Cloud Composer, ve a la pestaña Monitoring, abre la sección DAG statistics y busca el gráfico Zombie tasks killed:

Figura 3. Gráfico de tareas zombi (haz clic para agrandar)

El gráfico indica que Airflow finalizó alrededor de 20 tareas zombis en los primeros 10 minutos de ejecutar el DAG de muestra.
Según las comparativas y las acciones correctivas, el motivo más común de las tareas zombi es la falta de memoria o CPU del trabajador. Identifica la causa raíz de las tareas zombis a través del análisis del uso de recursos de los trabajadores.

Abre la sección Trabajadores en el panel de Supervisión y revisa las métricas de uso de CPU y memoria del trabajador:

Figura 4: Métricas de uso de CPU y memoria del trabajador (haz clic para ampliar)

El gráfico Total workers CPU usage indica que el uso de CPU del trabajador fue inferior al 50% del límite total disponible en todo momento, por lo que la CPU disponible es suficiente. El gráfico Uso de memoria total de los trabajadores muestra que ejecutar el DAG de muestra hizo que se alcanzara el límite de memoria asignable, que equivale a casi el 75% del límite de memoria total que se muestra en el gráfico (GKE reserva el 25% de los primeros 4 GiB de memoria y 100 MiB adicionales de memoria en cada nodo para controlar la expulsión de pods).

Puedes concluir que los trabajadores carecen de los recursos de memoria para ejecutar el DAG de muestra correctamente.

Optimiza el entorno y evalúa su rendimiento

En función del análisis del uso de recursos de los trabajadores, debes asignar más memoria a los trabajadores para que todas las tareas de tu DAG se ejecuten correctamente.

En tu entorno de Composer, abre la pestaña DAGs, haz clic en el nombre del DAG de muestra (memory_consumption_dag) y, luego, en Pause DAG.
Asigna memoria adicional para los trabajadores:
1. En la pestaña Configuración de entorno, busca la configuración de Recursos > Cargas de trabajo y haz clic en Editar.
2. En el elemento Trabajador, aumenta el límite de Memoria. En este instructivo, usa 3.25 GB.
3. Guarda los cambios y espera unos minutos para que se reinicie el trabajador.
Abre la pestaña DAGs, haz clic en el nombre del DAG de muestra (memory_consumption_dag) y, luego, en Reanudar DAG.

Ve a Supervisión y verifica que no aparezcan tareas zombi nuevas después de actualizar los límites de recursos de los trabajadores:

**Figura 5:** Gráfico de tareas zombi después de cambiar el límite de memoria (haz clic para ampliar)

Resumen

En este instructivo, aprendiste sobre las métricas clave de estado y rendimiento a nivel del entorno, cómo configurar políticas de alertas para cada métrica y cómo interpretar cada métrica en acciones correctivas. Luego, ejecutaste un DAG de muestra, identificaste la causa raíz de los problemas de estado del entorno con la ayuda de alertas y gráficos de supervisión, y optimizaste tu entorno asignando más memoria a tus trabajadores. Sin embargo, se recomienda optimizar tus DAG para reducir el consumo de recursos de los trabajadores en primer lugar, ya que no es posible aumentar los recursos más allá de un umbral determinado.

Limpia

Para evitar que se apliquen cargos a tu Google Cloud cuenta por los recursos usados en este instructivo, borra el proyecto que contiene los recursos o conserva el proyecto y borra los recursos individuales.

Borra el proyecto

Precaución: Borrar un proyecto tiene las siguientes consecuencias:

Se borra todo en el proyecto. Si usaste un proyecto existente para las tareas de este documento, cuando lo borres, también se borrará cualquier otro trabajo que hayas realizado en el proyecto.
Se pierden los ID personalizados de proyectos. Cuando creaste este proyecto, es posible que hayas creado un ID del proyecto personalizado que desees utilizar en el futuro. Para conservar las URL que utilizan el ID del proyecto, como una URL appspot.com, borra los recursos seleccionados dentro del proyecto en lugar de borrar todo el proyecto.

Si planeas explorar varias infraestructuras, instructivos y guías de inicio rápido la reutilización de proyectos puede ayudarte a evitar exceder los límites de las cuotas del proyecto.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Borra los recursos individuales

Si planeas explorar varios instructivos y guías de inicio rápido, la reutilización de proyectos puede ayudarte a evitar exceder los límites de las cuotas del proyecto.

Console

Borra el entorno de Cloud Composer. También borrarás el bucket del entorno durante este procedimiento.
Borra cada una de las políticas de alertas que creaste en Cloud Monitoring.

Terraform

Asegúrate de que tu secuencia de comandos de Terraform no contenga entradas para los recursos que tu proyecto aún requiere. Por ejemplo, es posible que desees mantener algunas APIs habilitadas y los permisos de IAM asignados (si agregaste esas definiciones a tu secuencia de comandos de Terraform).
Ejecuta terraform destroy.
Borra manualmente el bucket del entorno. Cloud Composer no lo borra automáticamente. Puedes hacerlo desde la consola de Google Cloud o Google Cloud CLI.

Supervisa el estado y el rendimiento del entorno con métricas clave en el panel de supervisión

Introducción

Objetivos

Costos

Antes de comenzar

Crea y configura un proyecto

Habilita las API para tu proyecto.

Crea tu entorno de Cloud Composer

Explora las métricas clave del estado y el rendimiento a nivel del entorno

Conoce las comparativas y las posibles acciones correctivas para las métricas clave

Crea canales de notificaciones

Crea políticas de alertas

Console

Métrica de estado del entorno (DAG de supervisión de Airflow): Parámetros de configuración de la política de alertas

Métrica de estado de la base de datos: Parámetros de configuración de la política de alertas

Métrica de uso de CPU de la base de datos: parámetros de configuración de la política de alertas

Métrica de uso de CPU de la base de datos: parámetros de configuración de la política de alertas

Métrica de señales de monitoreo de funcionamiento del programador: Parámetros de configuración de la política de alertas

Métrica de procesos zombi eliminados: Parámetros de configuración de la política de alertas

Métrica de reinicios del contenedor de trabajadores: parámetros de configuración de la política de alertas

Terraform

Prueba las políticas de alertas

Sube un DAG de muestra

Interpreta las alertas y las métricas en Monitoring

Optimiza el entorno y evalúa su rendimiento

Resumen

Limpia

Borra el proyecto

Borra los recursos individuales

Console

Terraform

¿Qué sigue?