Supervisa el estado y el rendimiento del entorno con métricas clave en el panel de Monitoring

Cloud Composer 1 | Cloud Composer 2

En esta página, se describe cómo supervisar el estado y el rendimiento general del entorno de Cloud Composer con métricas clave en el panel de Monitoring.

Introducción

Este instructivo se centra en las métricas clave de supervisión de Cloud Composer que pueden proporcionar una buena descripción general del estado y el rendimiento a nivel del entorno.

Cloud Composer ofrece varias métricas que describen el estado general del entorno. Los lineamientos de supervisión de este instructivo se basan en las métricas expuestas en el panel de Monitoring de tu entorno de Cloud Composer.

En este instructivo, aprenderás sobre las métricas clave que sirven como indicadores principales de los problemas con el rendimiento y el estado de tu entorno, además de los lineamientos para interpretar cada métrica en acciones correctivas a fin de mantener el entorno en buen estado. También configurarás reglas de alerta para cada métrica, ejecutarás el DAG de ejemplo y usarás estas métricas y alertas a fin de optimizar el rendimiento de tu entorno.

Objetivos

Costos

En este instructivo, se usan los siguientes componentes facturables de Google Cloud:

Cuando finalices este instructivo, puedes borrar los recursos creados para evitar que se te siga facturando. Para obtener más detalles, consulta Realiza una limpieza.

Antes de comenzar

En esta sección, se describen las acciones que se requieren antes de comenzar el instructivo.

Crea y configura un proyecto

Para este instructivo, necesitas un proyecto de Google Cloud. Configura el proyecto de la siguiente manera:

  1. En la consola de Google Cloud, selecciona o crea un proyecto:

    Ir al Selector de proyectos

  2. Asegúrate de tener habilitada la facturación para tu proyecto. Descubre cómo verificar si la facturación está habilitada en un proyecto.

  3. Asegúrate de que el usuario de tu proyecto de Google Cloud tenga los siguientes roles para crear los recursos necesarios:

    • Administrador de objetos de almacenamiento y entorno (roles/composer.environmentAndStorageObjectAdmin)
    • Administrador de Compute (roles/compute.admin)
    • Editor de Monitoring (roles/monitoring.editor)

Habilita las API para tu proyecto.

Habilita la API de Cloud Composer.

Habilita la API

Crea tu entorno de Cloud Composer

Crea un entorno de Cloud Composer 2.

Como parte de este procedimiento, otorgas la función Extensión del agente de servicio de la API de Cloud Composer v2 (roles/composer.ServiceAgentV2Ext) a la cuenta del agente de servicio de Composer. Cloud Composer usa esta cuenta para realizar operaciones en tu proyecto de Google Cloud.

Explora las métricas clave para el estado y el rendimiento a nivel del entorno

En este instructivo, nos enfocamos en las métricas clave que pueden darte una buena descripción general del estado y el rendimiento generales del entorno.

El panel de Monitoring en la consola de Google Cloud contiene una variedad de métricas y gráficos que permiten supervisar tendencias en tu entorno y, además, identificar problemas con los componentes de Airflow y los recursos de Cloud Composer.

Cada entorno de Cloud Composer tiene su propio panel de Monitoring.

Familiarízate con las métricas clave que se encuentran a continuación y ubica cada métrica en el panel de Monitoring:

  1. En la consola de Google Cloud, ve a la página Entornos.

    Ir a Entornos

  2. En la lista de entornos, haz clic en el nombre de tu entorno. Se abrirá la página Detalles del entorno.

  3. Ve a la pestaña Supervisión.

  4. Selecciona la sección Descripción general, busca el elemento Descripción general del entorno en el panel y observa la métrica Estado del entorno (DAG de supervisión de Airflow).

    • En este cronograma, se muestra el estado del entorno de Cloud Composer. El color verde de la barra de estado del entorno indica que el entorno está en buen estado, mientras que el estado no en buen estado se indica con color rojo.

    • Cada pocos minutos, Cloud Composer ejecuta un DAG en funcionamiento llamado airflow_monitoring. Si la ejecución del DAG en funcionamiento finaliza correctamente, el estado es True. Si la ejecución del DAG en funcionamiento falla (por ejemplo, debido a la expulsión del Pod, la finalización del proceso externo o el mantenimiento), el estado es False.

  5. Selecciona la sección Base de datos SQL, ubica el elemento Estado de la base de datos en el panel y observa la métrica Estado de la base de datos.

    • En este cronograma se muestra el estado de la conexión a la instancia de Cloud SQL de tu entorno. La barra de estado verde de Database indica la conectividad, mientras que los errores para conectarse se indican con un color rojo.

    • El Pod de supervisión de Airflow hace ping a la base de datos de forma periódica e informa el estado como True si se puede establecer una conexión, o como False si no.

  6. En el elemento Estado de la base de datos, observa las métricas Uso de CPU de la base de datos y Uso de la memoria de la base de datos.

    • En el gráfico de uso de CPU de la base de datos, se indica el uso de núcleos de CPU por parte de las instancias de base de datos de Cloud SQL del entorno en comparación con el límite de CPU total disponible para la base de datos.

    • El gráfico de uso de memoria de la base de datos indica el uso de memoria por parte de las instancias de base de datos de Cloud SQL del entorno en comparación con el límite total de memoria disponible para la base de datos.

  7. Selecciona la sección Programadores, ubica el elemento Señal de monitoreo de funcionamiento del programador en el panel y observa la métrica Señal de monitoreo de funcionamiento del programador.

    • En este cronograma, se muestra el estado del programador de Airflow. Verifica las áreas rojas para identificar los problemas del programador de Airflow. Si tu entorno tiene más de un programador, el estado de la señal de monitoreo de funcionamiento se mantendrá en buen estado siempre que al menos uno de los programadores esté respondiendo.

    • El programador se considera en mal estado si la última señal de monitoreo de funcionamiento se recibió más de 30 segundos (valor predeterminado) antes de la hora actual.

  8. Selecciona la sección Estadísticas de DAG, ubica el elemento Tareas zombie finalizadas en el panel y observa la métrica Tareas zombi finalizada.

    • En este gráfico, se indica la cantidad de tareas zombi que se eliminaron en un período breve. Las tareas zombi suelen deberse a la finalización externa de los procesos de Airflow (como cuando se cierra el proceso de una tarea).

    • El programador de Airflow elimina las tareas zombi de forma periódica, lo que se refleja en este gráfico.

  9. Selecciona la sección Workers, ubica el elemento Worker container restarts en el panel y observa la métrica Reinicios del contenedor de trabajadores.

    • Un gráfico indica la cantidad total de reinicios de los contenedores de trabajadores individuales. Demasiados reinicios de contenedores pueden afectar la disponibilidad de tu servicio o de otros servicios posteriores que lo usen como dependencia.

Conocer las comparativas y las posibles medidas correctivas para métricas clave

En la siguiente lista, se describen los valores de comparativas que pueden indicar problemas y se proporcionan medidas correctivas que puedes tomar para solucionarlos.

  • Estado del entorno (DAG de supervisión de Airflow)

    • Tasa de éxito inferior al 90% en un período de 4 horas

    • Las fallas pueden significar expulsiones de Pods o cierres de trabajadores debido a que el entorno está sobrecargado o funciona mal. Las áreas rojas del cronograma del estado del entorno suelen correlacionarse con las áreas rojas de las otras barras de estado de los componentes individuales del entorno. Revisa otras métricas en el panel de Monitoring para identificar la causa raíz.

  • Estado de la base de datos

    • Tasa de éxito inferior al 95% en un período de 4 horas

    • Las fallas significan que hay problemas con la conectividad a la base de datos de Airflow, que podría ser el resultado de una falla o un tiempo de inactividad en la base de datos porque esta está sobrecargada (por ejemplo, debido a un uso elevado de CPU o memoria, o a una latencia mayor durante la conexión a la base de datos). En la mayoría de los casos, estos síntomas se deben a DAG subóptimos, como cuando estos usan muchas variables de entorno o Airflow definidas a nivel global. Identifica la causa raíz mediante la revisión de las métricas de uso de recursos de la base de datos de SQL. También puedes inspeccionar los registros del programador en busca de errores relacionados con la conectividad de la base de datos.

  • Uso de memoria y CPU de la base de datos

    • Más del 80% del uso promedio de CPU o memoria en un período de 12 horas

    • Es posible que la base de datos esté sobrecargada. Analiza la correlación entre las ejecuciones de DAG y los aumentos repentinos en el uso de CPU o memoria de la base de datos.

  • Señal de monitoreo de funcionamiento del programador

    • Tasa de éxito inferior al 90% en un período de 4 horas

    • Asigna más recursos al programador o aumenta la cantidad de programadores de 1 a 2 (recomendado).

  • Procesos zombi eliminados

    • Más de una tarea zombi cada 24 horas

    • El motivo más común de las tareas zombi es la escasez de recursos de CPU o memoria en el clúster de tu entorno. Revisa los gráficos de uso de recursos de trabajadores y asigna más recursos a tus trabajadores o aumenta el tiempo de espera de las tareas zombi para que el programador espere más tiempo antes de considerar una tarea como zombi.

  • Reinicios del contenedor de trabajadores

    • Más de un reinicio cada 24 horas

    • El motivo más común es la falta de memoria o almacenamiento de trabajadores. Observa el consumo de recursos de los trabajadores y asigna más memoria o almacenamiento a tus trabajadores. Si la falta de recursos no es el motivo, consulta Soluciona problemas de incidentes de reinicio de trabajadores y usa consultas de Logging para descubrir los motivos de los reinicios de trabajadores.

Cómo crear canales de notificaciones

Sigue las instrucciones que se describen en Crea un canal de notificaciones para crear un canal de notificaciones por correo electrónico.

Para obtener más información sobre los canales de notificaciones, consulta Cómo administrar canales de notificaciones.

Crea políticas de alertas

Crea políticas de alertas basadas en las comparativas proporcionadas en las secciones anteriores de este instructivo para supervisar de forma continua los valores de las métricas y recibir notificaciones cuando esas métricas infrinjan una condición.

Consola

Puedes configurar alertas para cada métrica que se presente en el panel de Monitoring. Para ello, haz clic en el ícono de campana en la esquina del elemento correspondiente:

Crea una alerta para una métrica que se muestra en el panel de supervisión
Figura 1: Crea una alerta para una métrica que se muestra en el panel de supervisión (haz clic para ampliar)
  1. Busca cada métrica que desees supervisar en el panel de Monitoring y haz clic en el ícono de campana en la esquina del elemento de la métrica. Se abrirá la página Crear política de alertas.

  2. En la sección Transforma los datos, sigue estos pasos:

    1. Configura la sección Dentro de cada serie temporal como se describe en la configuración de políticas de alertas para la métrica.

    2. Haz clic en Siguiente y, luego, configura la sección Configurar activador de alertas como se describe en la configuración de las políticas de alertas para la métrica.

  3. Haz clic en Siguiente.

  4. Configura las notificaciones. Expande el menú Canales de notificaciones y selecciona los canales de notificaciones que creaste en el paso anterior.

  5. Haz clic en OK.

  6. En la sección Nombre de la política de alertas, completa el campo Nombre de la política de alertas. Usa un nombre descriptivo para cada una de las métricas. Usa el valor “Asigna un nombre a la política de alertas” como se describe en la configuración de las políticas de alertas para la métrica.

  7. Haz clic en Siguiente.

  8. Revisa la política de alertas y haz clic en Crear política.

Métrica de estado del entorno (DAG de supervisión de Airflow): configuración de la política de alertas

  • Nombre de la métrica: Entorno de Cloud Composer - En buen estado
  • API: composer.googleapis.com/environment/healthy
  • Filtros:

    environment_name = [ENVIRONMENT_NAME]
    location = [CLUSTER_LOCATION]
    
  • Transformar los datos > Dentro de cada serie temporal:

    • Ventana progresiva: personalizada
    • Valor personalizado: 4
    • Unidades personalizadas: hora(s)
    • Función analítica progresiva: fracción verdadera
  • Configura el activador de alertas:

    • Tipos de condiciones: Umbral
    • Activador de alertas: Cualquier serie temporal es una infracción
    • Posición del umbral: Por debajo del umbral
    • Valor del umbral: 90
    • Nombre de la condición: Condición de estado del entorno
  • Configura las notificaciones y finaliza la alerta:

    • Asigna un nombre a la política de alertas: Airflow Environment Health

Métrica de estado de la base de datos: configuración de la política de alertas

  • Nombre de la métrica: Cloud Composer Environment - Database Healthy
  • API: composer.googleapis.com/environment/database_health
  • Filtros:

    environment_name = [ENVIRONMENT_NAME]
    location = [CLUSTER_LOCATION]
    
  • Transformar los datos > Dentro de cada serie temporal:

    • Ventana progresiva: personalizada
    • Valor personalizado: 4
    • Unidades personalizadas: hora(s)
    • Función analítica progresiva: fracción verdadera
  • Configura el activador de alertas:

    • Tipos de condiciones: Umbral
    • Activador de alertas: Cualquier serie temporal es una infracción
    • Posición del umbral: Por debajo del umbral
    • Valor del umbral: 95
    • Nombre de la condición: Condición de estado de la base de datos
  • Configura las notificaciones y finaliza la alerta:

    • Asigna un nombre a la política de alertas: Estado de la base de datos de Airflow

Métrica de uso de CPU de la base de datos: configuración de la política de alertas

en comparación con la configuración de memoria disponible para evitar la configuración innecesaria.
  • Nombre de la métrica: Entorno de Cloud Composer - Uso de CPU de la base de datos
  • API: composer.googleapis.com/environment/database/cpu/utilization
  • Filtros:

    environment_name = [ENVIRONMENT_NAME]
    location = [CLUSTER_LOCATION]
    
  • Transformar los datos > Dentro de cada serie temporal:

    • Ventana progresiva: personalizada
    • Valor personalizado: 12
    • Unidades personalizadas: hora(s)
    • Función analítica progresiva: media
  • Configura el activador de alertas:

    • Tipos de condiciones: Umbral
    • Activador de alertas: Cualquier serie temporal es una infracción
    • Posición del umbral: Por encima del umbral
    • Valor del umbral: 80
    • Nombre de la condición: Condición de uso de CPU de la base de datos
  • Configura las notificaciones y finaliza la alerta:

    • Asigna un nombre a la política de alertas: Uso de CPU de la base de datos de Airflow

Métrica de uso de CPU de la base de datos: configuración de la política de alertas

en comparación con la configuración de memoria disponible para evitar la configuración innecesaria.
  • Nombre de la métrica: Entorno de Cloud Composer - Uso de memoria de la base de datos
  • API: composer.googleapis.com/environment/database/memory/utilization
  • Filtros:

    environment_name = [ENVIRONMENT_NAME]
    location = [CLUSTER_LOCATION]
    
  • Transformar los datos > Dentro de cada serie temporal:

    • Ventana progresiva: personalizada
    • Valor personalizado: 12
    • Unidades personalizadas: hora(s)
    • Función analítica progresiva: media
  • Configura el activador de alertas:

    • Tipos de condiciones: Umbral
    • Activador de alertas: Cualquier serie temporal es una infracción
    • Posición del umbral: Por encima del umbral
    • Valor del umbral: 80
    • Nombre de la condición: Condición de uso de memoria de la base de datos
  • Configura las notificaciones y finaliza la alerta:

    • Asigna un nombre a la política de alertas: Uso de memoria de la base de datos de Airflow

Métrica de señal de monitoreo de funcionamiento del programador: configuración de la política de alertas

  • Nombre de la métrica: Entorno de Cloud Composer - Señales de monitoreo de funcionamiento del programador
  • API: composer.googleapis.com/environment/scheduler_Heartbeat_count
  • Filtros:

    environment_name = [ENVIRONMENT_NAME]
    location = [CLUSTER_LOCATION]
    
  • Transformar los datos > Dentro de cada serie temporal:

    • Ventana progresiva: personalizada
    • Valor personalizado: 4
    • Unidades personalizadas: hora(s)
    • Función analítica progresiva: count
  • Configura el activador de alertas:

    • Tipos de condiciones: Umbral
    • Activador de alertas: Cualquier serie temporal es una infracción
    • Posición del umbral: Por debajo del umbral
    • Valor del umbral: 216

      1. Puedes obtener este número si ejecutas una consulta que agregue el valor _scheduler_heartbeat_count_mean en el editor de consultas del Explorador de métricas.
    • Nombre de la condición: condición de señal de monitoreo de funcionamiento del programador

  • Configura las notificaciones y finaliza la alerta:

    • Asigne un nombre a la política de alertas: Señal de monitoreo de funcionamiento del programador de Airflow.

Métrica de tareas zombi finalizadas: configuración de la política de alertas

  • Nombre de la métrica: Entorno de Cloud Composer - Tareas zombie finalizadas
  • API: composer.googleapis.com/environment/zombie_task_killed_count
  • Filtros:

    environment_name = [ENVIRONMENT_NAME]
    location = [CLUSTER_LOCATION]
    
  • Transformar los datos > Dentro de cada serie temporal:

    • Ventana progresiva: 1 día
    • Función analítica progresiva: sum
  • Configura el activador de alertas:

    • Tipos de condiciones: Umbral
    • Activador de alertas: Cualquier serie temporal es una infracción
    • Posición del umbral: Por encima del umbral
    • Valor del umbral: 1
    • Nombre de la condición: Condición de tareas zombi
  • Configura las notificaciones y finaliza la alerta:

    • Asigna un nombre a la política de alertas: Airflow Zombie Tasks

Métrica de reinicios de contenedor de trabajadores: parámetros de configuración de la política de alertas

  • Nombre de la métrica: Entorno de Cloud Composer - Tareas zombie finalizadas
  • API: composer.googleapis.com/environment/zombie_task_killed_count
  • Filtros:

    environment_name = [ENVIRONMENT_NAME]
    location = [CLUSTER_LOCATION]
    
  • Transformar los datos > Dentro de cada serie temporal:

    • Ventana progresiva: 1 día
    • Función analítica progresiva: sum
  • Configura el activador de alertas:

    • Tipos de condiciones: Umbral
    • Activador de alertas: Cualquier serie temporal es una infracción
    • Posición del umbral: Por encima del umbral
    • Valor del umbral: 1
    • Nombre de la condición: Condición de tareas zombi
  • Configura las notificaciones y finaliza la alerta:

    • Asigna un nombre a la política de alertas: Airflow Zombie Tasks

Terraform

Ejecuta una secuencia de comandos de Terraform que cree un canal de notificaciones por correo electrónico y suba políticas de alertas para las métricas clave proporcionadas en este instructivo en función de sus respectivas comparativas:

  1. Guarda el archivo de ejemplo de Terraform en tu computadora local.
  2. Reemplaza lo siguiente:

    • PROJECT_ID: Es el ID del proyecto. Por ejemplo, example-project.
    • EMAIL_ADDRESS: Es la dirección de correo electrónico a la que se debe notificar en caso de que se active una alerta.
    • ENVIRONMENT_NAME: Es el nombre de tu entorno de Cloud Composer. Por ejemplo, example-composer-environment
    • CLUSTER_NAME: Es el nombre del clúster de tu entorno, que se puede encontrar en Configuración del entorno > Recursos > Clúster de GKE en la consola de Google Cloud.
resource "google_monitoring_notification_channel" "basic" {
  project      = "PROJECT_ID"
  display_name = "Test Notification Channel"
  type         = "email"
  labels = {
    email_address = "EMAIL_ADDRESS"
  }
  # force_delete = false
}

resource "google_monitoring_alert_policy" "environment_health_metric" {
  project      = "PROJECT_ID"
  display_name = "Airflow Environment Health"
  combiner     = "OR"
  notification_channels = [google_monitoring_notification_channel.basic.name] // To manually add a notification channel add it with the syntax "projects/[PROJECT_ID]/notificationChannels/[CHANNEL_ID]"
  conditions {
    display_name = "Environment health condition"
    condition_threshold {
      filter     = "resource.type = \"cloud_composer_environment\" AND metric.type=\"composer.googleapis.com/environment/healthy\" AND resource.label.environment_name=\"ENVIRONMENT_NAME\""
      duration   = "60s"
      comparison = "COMPARISON_LT"
      threshold_value = 0.9
      aggregations {
        alignment_period   = "14400s"
        per_series_aligner = "ALIGN_FRACTION_TRUE"
      }
    }
  }

}

resource "google_monitoring_alert_policy" "database_health_metric" {
  project      = "PROJECT_ID"
  display_name = "Airflow Database Health"
  combiner     = "OR"
  notification_channels = [google_monitoring_notification_channel.basic.name] // To manually add a notification channel add it with the syntax "projects/[PROJECT_ID]/notificationChannels/[CHANNEL_ID]"
  conditions {
    display_name = "Database health condition"
    condition_threshold {
      filter     = "resource.type = \"cloud_composer_environment\" AND metric.type=\"composer.googleapis.com/environment/database_health\" AND resource.label.environment_name=\"ENVIRONMENT_NAME\""
      duration   = "60s"
      comparison = "COMPARISON_LT"
      threshold_value = 0.95
      aggregations {
        alignment_period   = "14400s"
        per_series_aligner = "ALIGN_FRACTION_TRUE"
      }
    }
  }
}

resource "google_monitoring_alert_policy" "alert_database_cpu_usage" {
  project      = "PROJECT_ID"
  display_name = "Airflow Database CPU Usage"
  combiner     = "OR"
  notification_channels = [google_monitoring_notification_channel.basic.name] // To manually add a notification channel add it with the syntax "projects/[PROJECT_ID]/notificationChannels/[CHANNEL_ID]"
  conditions {
    display_name = "Database CPU usage condition"
    condition_threshold {
      filter     = "resource.type = \"cloud_composer_environment\" AND metric.type=\"composer.googleapis.com/environment/database/cpu/utilization\" AND resource.label.environment_name=\"ENVIRONMENT_NAME\""
      duration   = "60s"
      comparison = "COMPARISON_GT"
      threshold_value = 80
      aggregations {
        alignment_period   = "43200s"
        per_series_aligner = "ALIGN_MEAN"
      }
    }
  }
}

resource "google_monitoring_alert_policy" "alert_database_memory_usage" {
  project      = "PROJECT_ID"
  display_name = "Airflow Database Memory Usage"
  combiner     = "OR"
  notification_channels = [google_monitoring_notification_channel.basic.name] // To manually add a notification channel add it with the syntax "projects/[PROJECT_ID]/notificationChannels/[CHANNEL_ID]"
  conditions {
    display_name = "Database memory usage condition"
    condition_threshold {
      filter     = "resource.type = \"cloud_composer_environment\" AND metric.type=\"composer.googleapis.com/environment/database/memory/utilization\" AND resource.label.environment_name=\"ENVIRONMENT_NAME\""
      duration   = "60s"
      comparison = "COMPARISON_GT"
      threshold_value = 80
      aggregations {
        alignment_period   = "43200s"
        per_series_aligner = "ALIGN_MEAN"
      }
    }
  }
}

resource "google_monitoring_alert_policy" "alert_scheduler_heartbeat" {
  project      = "PROJECT_ID"
  display_name = "Airflow Scheduler Heartbeat"
  combiner     = "OR"
  notification_channels = [google_monitoring_notification_channel.basic.name] // To manually add a notification channel add it with the syntax "projects/[PROJECT_ID]/notificationChannels/[CHANNEL_ID]"
  conditions {
    display_name = "Scheduler heartbeat condition"
    condition_threshold {
      filter     = "resource.type = \"cloud_composer_environment\" AND metric.type=\"composer.googleapis.com/environment/scheduler_heartbeat_count\" AND resource.label.environment_name=\"ENVIRONMENT_NAME\""
      duration   = "60s"
      comparison = "COMPARISON_LT"
      threshold_value = 216 // Threshold is 90% of the average for composer.googleapis.com/environment/scheduler_heartbeat_count metric in an idle environment
      aggregations {
        alignment_period   = "14400s"
        per_series_aligner = "ALIGN_COUNT"
      }
    }
  }
}

resource "google_monitoring_alert_policy" "alert_zombie_task" {
  project      = "PROJECT_ID"
  display_name = "Airflow Zombie Tasks"
  combiner     = "OR"
  notification_channels = [google_monitoring_notification_channel.basic.name] // To manually add a notification channel add it with the syntax "projects/[PROJECT_ID]/notificationChannels/[CHANNEL_ID]"
  conditions {
    display_name = "Zombie tasks condition"
    condition_threshold {
      filter     = "resource.type = \"cloud_composer_environment\" AND metric.type=\"composer.googleapis.com/environment/zombie_task_killed_count\" AND  resource.label.environment_name=\"ENVIRONMENT_NAME\""
      duration   = "60s"
      comparison = "COMPARISON_GT"
      threshold_value = 1
      aggregations {
        alignment_period   = "86400s"
        per_series_aligner = "ALIGN_SUM"
      }
    }
  }
}

resource "google_monitoring_alert_policy" "alert_worker_restarts" {
  project      = "PROJECT_ID"
  display_name = "Airflow Worker Restarts"
  combiner     = "OR"
  notification_channels = [google_monitoring_notification_channel.basic.name] // To manually add a notification channel add it with the syntax "projects/[PROJECT_ID]/notificationChannels/[CHANNEL_ID]"
  conditions {
    display_name = "Worker container restarts condition"
    condition_threshold {
      filter     = "resource.type = \"k8s_container\" AND (resource.labels.cluster_name = \"CLUSTER_NAME\" AND resource.labels.container_name = monitoring.regex.full_match(\"airflow-worker|base\") AND resource.labels.pod_name = monitoring.regex.full_match(\"airflow-worker-.*|airflow-k8s-worker-.*\")) AND metric.type = \"kubernetes.io/container/restart_count\""

      duration   = "60s"
      comparison = "COMPARISON_GT"
      threshold_value = 1
      aggregations {
        alignment_period   = "86400s"
        per_series_aligner = "ALIGN_RATE"
      }
    }
  }
}

Prueba las políticas de alertas

En esta sección, se describe cómo probar las políticas de alertas creadas y cómo interpretar los resultados.

Sube un DAG de muestra

El DAG de muestra memory_consumption_dag.py que se proporciona en este instructivo imita el uso intensivo de la memoria del trabajador. El DAG contiene 4 tareas, cada una de las cuales escribe datos en una string de muestra y consume 380 MB de memoria. El DAG de muestra está programado para ejecutarse cada 2 minutos y comenzará a ejecutarse automáticamente una vez que lo subas a tu entorno de Composer.

Sube el siguiente DAG de muestra al entorno que creaste en los pasos anteriores:

from datetime import datetime
import sys
import time

from airflow import DAG
from airflow.operators.python import PythonOperator

def ram_function():
    data = ""
    start = time.time()
    for i in range(38):
        data += "a" * 10 * 1000**2
        time.sleep(0.2)
        print(f"{i}, {round(time.time() - start, 4)}, {sys.getsizeof(data) / (1000 ** 3)}")
    print(f"Size={sys.getsizeof(data) / (1000 ** 3)}GB")
    time.sleep(30 - (time.time() - start))
    print(f"Complete in {round(time.time() - start, 2)} seconds!")

with DAG(
    dag_id="memory_consumption_dag",
    start_date=datetime(2023, 1, 1, 1, 1, 1),
    schedule="1/2 * * * *",
    catchup=False,
) as dag:
    for i in range(4):
        PythonOperator(
            task_id=f"task_{i+1}",
            python_callable=ram_function,
            retries=0,
            dag=dag,
        )

Interpreta las alertas y las métricas en Monitoring

Espera unos 10 minutos después de que el DAG de muestra comience a ejecutarse y evalúa los resultados de la prueba:

  1. Revisa tu buzón de correo electrónico para verificar que recibiste una notificación de Alertas de Google Cloud con un asunto que comience con [ALERT]. El contenido de este mensaje incluye los detalles del incidente de la política de alertas.

  2. Haga clic en el botón Ver incidente en la notificación por correo electrónico. Se te redireccionará al Explorador de métricas. Revisa los detalles del incidente de alerta:

    Detalles del incidente de alerta
    Figura 2: Detalles del incidente de alerta (haz clic para ampliar)

    El gráfico de métricas de incidentes indica que las métricas que creaste superaron el umbral de 1, lo que significa que Airflow detectó y eliminó más de 1 tarea zombi.

  3. En tu entorno de Cloud Composer, ve a la pestaña Supervisión, abre la sección Estadísticas de DAG y busca el gráfico Tareas zombi finalizada:

    Gráfico de tareas zombi
    Figura 3: Gráfico de tareas zombi (haz clic para ampliar)

    El gráfico indica que Airflow finalizó alrededor de 20 tareas zombi en solo los primeros 10 minutos de la ejecución del DAG de muestra.

  4. Según las comparativas y las medidas correctivas, el motivo más común por el que se llevan a cabo estas tareas es la falta de CPU o memoria de trabajador. Identifica la causa raíz de las tareas zombis mediante el análisis del uso de recursos de trabajadores.

    Abre la sección Trabajadores en tu panel de Monitoring y revisa las métricas de uso de CPU y memoria de los trabajadores:

    Métricas de uso de memoria y CPU de los trabajadores
    Figura 4: Métricas de uso de memoria y CPU del trabajador (haz clic para ampliar)

    En el gráfico Total de trabajadores de CPU, se indica que el uso de CPU de los trabajadores estuvo por debajo del 50% del límite total disponible en todo momento, por lo que la CPU disponible es suficiente. En el gráfico de uso de memoria total de trabajadores, se muestra que ejecutar el DAG de muestra alcanzó el límite de memoria asignable, que equivale a casi el 75% del límite total de memoria que se muestra en el gráfico (GKE reserva el 25% de los primeros 4 GiB de memoria y 100 MiB de memoria adicionales en cada nodo para controlar la expulsión del Pod).

    Se puede concluir que los trabajadores carecen de los recursos de memoria para ejecutar el DAG de muestra de forma correcta.

Optimiza tu entorno y evalúa su rendimiento

Según el análisis del uso de recursos de trabajadores, debes asignar más memoria a tus trabajadores para que todas las tareas en tu DAG tengan éxito.

  1. En tu entorno de Composer, abre la pestaña DAGs, haz clic en el nombre del DAG de muestra (memory_consumption_dag) y, luego, en Pausar DAG.

  2. Asigna memoria de trabajador adicional:

    1. En la pestaña de configuración del entorno, busca la configuración Recursos > Cargas de trabajo y haz clic en Editar.

    2. En el elemento Worker, aumenta el límite de Memory. En este instructivo, usa 3.25 GB.

    3. Guarda los cambios y espera varios minutos para que el trabajador se reinicie.

  3. Abre la pestaña DAG, haz clic en el nombre del DAG de muestra (memory_consumption_dag) y, luego, en Unpause DAG.

Ve a Monitoring y verifica que no haya tareas zombi nuevas después de actualizar los límites de recursos de trabajadores:

Gráfico de tareas zombi después de cambiar el límite de memoria
Figura 5: Gráfico de tareas zombi después de que se cambia el límite de memoria (haz clic para ampliar)

Resumen

En este instructivo, aprendiste sobre las métricas clave de estado y rendimiento a nivel del entorno, cómo configurar políticas de alertas para cada métrica y cómo interpretar cada métrica en acciones correctivas. Luego, ejecutaste un DAG de muestra, identificaste la causa raíz de los problemas de estado del entorno con la ayuda de alertas y gráficos de Monitoring, y optimizaste tu entorno asignando más memoria a tus trabajadores. Sin embargo, se recomienda optimizar los DAG para reducir el consumo de recursos de los trabajadores en primer lugar, ya que no es posible aumentar los recursos más allá de un umbral determinado.

Limpia

Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos usados en este instructivo, borra el proyecto que contiene los recursos o conserva el proyecto y borra los recursos individuales.

Borra el proyecto

  1. En la consola de Google Cloud, ve a la página Administrar recursos.

    Ir a Administrar recursos

  2. En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
  3. En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.

Borra los recursos individuales

Si planeas explorar varios instructivos y guías de inicio rápido, la reutilización de proyectos puede ayudarte a evitar exceder los límites de las cuotas del proyecto.

Consola

  1. Borra el entorno de Cloud Composer. También debes borrar el bucket del entorno durante este procedimiento.
  2. Borra cada una de las políticas de alertas que creaste en Cloud Monitoring.

Terraform

  1. Asegúrate de que la secuencia de comandos de Terraform no contenga entradas para los recursos que tu proyecto aún necesita. Por ejemplo, es posible que quieras mantener algunas APIs habilitadas y seguir asignando permisos de IAM (si agregaste esas definiciones a la secuencia de comandos de Terraform).
  2. Ejecuta terraform destroy.
  3. Borra el bucket del entorno de forma manual. Cloud Composer no lo borra automáticamente. Puedes hacerlo desde la consola de Google Cloud o Google Cloud CLI.

¿Qué sigue?