Recuperación ante desastres con instantáneas de entorno

Cloud Composer 3 | Cloud Composer 2 | Cloud Composer 1

En esta página, se describe cómo usar las instantáneas de entorno para la recuperación ante desastres.

Definiciones

En esta guía, se usan las siguientes definiciones:

  • Un desastre es un evento en el que Cloud Composer o algún otro componente esencial para el funcionamiento de tu entorno no está disponible. Este evento requiere una conmutación por error a una región y entornos de Cloud Composer diferentes. La causa de un desastre puede ser natural o antrópica, lo que incluye el tiempo de inactividad de las regiones de Google Cloud y las interrupciones en tu propia infraestructura.
  • La recuperación ante desastres (DR), en el contexto de Cloud Composer, es un proceso para restablecer el funcionamiento del entorno después de un desastre. El proceso implica recrear el entorno, posiblemente en otra región. Para obtener más información sobre la recuperación ante desastres, consulta la Guía de planificación para la recuperación ante desastres.
  • El entorno principal es un entorno de Cloud Composer para el que deseas habilitar una función de DR.
  • Un entorno de conmutación por error es un entorno de Cloud Composer designado para asumir las actividades del entorno principal.
  • La situación de DR activa es una variante de la recuperación ante desastres, en la que se usa un entorno de conmutación por error en espera, que se crea antes de que ocurra un desastre.
  • La situación de DR en frío es una variante de la recuperación ante desastres, en la que se crea un entorno de conmutación por error después de que ocurre un desastre.
  • La recuperación ante desastres entre regiones es una variante de la recuperación ante desastres en caliente o en frío en la que el entorno principal y el de conmutación por error se encuentran en diferentes regiones.

Acerca del procedimiento de recuperación ante desastres

El procedimiento de recuperación ante desastres resuelve el problema cuando tu entorno principal deja de funcionar (se daña o no se puede acceder a él) debido a un desastre.

En este procedimiento, se supone que tu entorno principal no se corregirá en su lugar para abordar el desastre. En su lugar, creas un segundo entorno (con resguardo) en paralelo. Este entorno funciona en lugar del principal. En una etapa posterior, puedes decidir volver al entorno principal o seguir usando el entorno de conmutación por error.

Debido a que el procedimiento usa un entorno de conmutación por error, se introducirán cambios cuando cambies del entorno principal. Entre los cambios entre el entorno principal y el de conmutación por error, se incluyen los siguientes (la lista no es exhaustiva):

  • La URL del servidor web será diferente. Esto cambia la dirección de la IU de Airflow y el extremo de la API de REST de Airflow.

  • La URL del bucket del entorno será diferente.

  • Es posible que debas ajustar la configuración de red y permisos de acceso.

Si usas la situación de DR activa, conoces los valores del servidor web, las direcciones del bucket del entorno y la configuración de red con anticipación.

Antes de comenzar

  • La base de datos de Airflow debe tener menos de 20 GB de datos para crear instantáneas.

  • La cantidad total de objetos en las carpetas /dags, /plugins y /data del bucket del entorno debe ser inferior a 100,000 para crear instantáneas.

  • Si usas el mecanismo XCom para transferir archivos, asegúrate de usarlo de acuerdo con los lineamientos de Airflow. La transferencia de archivos grandes o una gran cantidad de archivos con XCom afecta el rendimiento de la base de datos de Airflow y puede provocar fallas cuando se cargan instantáneas o se actualiza el entorno. Considera usar alternativas como Cloud Storage para transferir grandes volúmenes de datos.

Descripción general de la preparación

Ambas situaciones de DR incluyen los siguientes pasos de preparación:

  1. Crea un entorno de conmutación por error.

    • En el caso de la DR tibia, mantienes este entorno disponible.
    • En el caso de la DR fría, creas este entorno solo para probar tu procedimiento de recuperación ante desastres. Después de completar la preparación, borrarás este entorno y lo volverás a crear después de que ocurra un desastre.
  2. Crea un bucket para las instantáneas.

    • El bucket debe estar disponible en la región de DR. Para la DR entre regiones, el bucket de instantáneas debe ser multirregional o estar ubicado en una región diferente del entorno principal.

    • Verifica que los DAG puedan acceder a los recursos regionales.

  3. Configura el mantenimiento de la base de datos.

  4. Configura instantáneas programadas.

  5. Prueba el procedimiento de recuperación ante desastres.

Descripción general de la recuperación ante desastres

Después de un desastre, haz lo siguiente:

  1. (Solo DR en frío) Crea un entorno de conmutación por error.
  2. Si es posible, detén el entorno principal para que no ejecute DAG.
  3. Carga una instantánea del bucket de instantáneas al entorno de resguardo.
  4. Si es necesario, ajusta la configuración del entorno de conmutación por error.
  5. Decide qué hacer con el entorno principal.

Pasos de preparación

Sigue los pasos que se describen a continuación para configurar la recuperación ante desastres de tu entorno.

Crea un entorno de conmutación por error

Crea un entorno que actúe como entorno de conmutación por error.

Usa los siguientes lineamientos:

  • Tu entorno principal y de conmutación por error deben usar la misma versión y compilación de Airflow.

  • En el caso de la DR activa, asegúrate de actualizar y mejorar ambos entornos de forma sincronizada. Por ejemplo, si actualizas el entorno principal a una compilación posterior de Airflow o instalas paquetes de PyPI, tu entorno de conmutación por error también debe tener estos cambios.

  • Te recomendamos que crees el entorno de conmutación por error en una región diferente del entorno principal. Como resultado, se puede cubrir una gama más amplia de posibles situaciones catastróficas, como un desastre que afecta la disponibilidad de toda la región.

  • Te recomendamos que uses Terraform para crear entornos principales y de resguardo, de modo que ambos tengan una configuración coherente. Asegúrate de que las definiciones de Terraform para los entornos principal y de conmutación por error estén sincronizadas.

  • Se recomienda que la configuración del entorno de conmutación por error (como el tamaño del entorno, la cantidad de programadores y los permisos de IAM) se ajuste a la configuración del entorno principal. Los permisos de IAM de ambos entornos deben brindar acceso adecuado a los usuarios y las instantáneas.

Verifica la disponibilidad de los recursos

Los DAG pueden operar en recursos externos, y el acceso a esos recursos puede depender de la configuración del entorno (como los permisos otorgados a la cuenta de servicio, la configuración de red o el proyecto del entorno). Asegúrate de que esos recursos estén disponibles para el entorno de conmutación por error.

Un entorno puede interactuar con algunos recursos externos a través de conexiones almacenadas en Airflow. Verifica si estos recursos deben ajustarse en el entorno de conmutación por error en comparación con el entorno principal.

Crea un bucket de almacenamiento para instantáneas

Crea un bucket de almacenamiento nuevo para las instantáneas del entorno. No uses buckets de entorno para la recuperación ante desastres, ya que la configuración de la política de retención y el ciclo de vida se aplica a nivel del bucket.

Asegúrate de que este bucket de almacenamiento tenga permisos de IAM, una política de retención y una configuración de ciclo de vida configurada de manera que evite la eliminación accidental o el acceso no autorizado. Para obtener más información sobre cómo configurar un bucket para las instantáneas, consulta Configura instantáneas programadas.

Puedes hacer lo siguiente:

  • Crea un bucket en una región diferente.
  • Crea un bucket multirregional.

Configura el mantenimiento de la base de datos

Configura la limpieza de la base de datos para mantener la base de datos de Airflow pequeña y dentro del límite de tamaño. De esta manera, el proceso de guardar y cargar instantáneas será más rápido. La base de datos de Airflow debe tener menos de 20 GB de datos para crear instantáneas.

Configura instantáneas programadas

Configura instantáneas programadas para el entorno principal.

Las instantáneas solo se pueden crear en un entorno en buen estado, por lo que se deben guardar antes de que ocurra el desastre.

Para obtener más información sobre cómo funcionan las instantáneas, consulta Cómo guardar y cargar instantáneas de entorno. Consulta la sección Cómo guardar una instantánea de un entorno de la documentación para obtener información sobre dónde encontrar las instantáneas guardadas.

(Opcional) Configura la supervisión de las operaciones de instantáneas programadas

En el caso de las instantáneas programadas con una frecuencia de, al menos, una vez cada 12 horas, puedes usar Cloud Monitoring para recibir alertas cuando no se crea una instantánea automáticamente.

Para programas de menor frecuencia, usa Google Cloud CLI para verificar los resultados de las operaciones de instantáneas. Consulta Cómo verificar las operaciones de guardado de instantáneas.

  1. En la consola de Google Cloud, ve a la página Monitoring.

    Ir a Monitoring

  2. En el panel de navegación de Monitoring, selecciona  Alertas.
  3. Si aún no creas canales de notificaciones y deseas recibir notificaciones, haz clic en Edit Notification Channels y agrega tus canales de notificaciones. Regresa a la página Alertas después de agregar tus canales.
  4. En la página Alertas, elige Crear política.
  5. Para elegir la métrica, expande el menú Seleccionar una métrica y, luego, haz lo siguiente:
    1. Para limitar el menú a las entradas relevantes, ingresa Composer Snapshot en la barra de filtros. Si no hay resultados después de que filtres el menú, inhabilita el botón de activación Show only active resources & metrics.
    2. En Tipo de recurso, selecciona Cloud Composer Environment.
    3. En Categoría de métrica, selecciona Entorno.
    4. En Métrica, selecciona Recuento de creación de instantáneas.
    5. Selecciona Apply (Apply).
  6. Haz clic en Agregar filtro y usa los menús desplegables para agregar los siguientes filtros:
    Filtro Comparador Valor
    Etiqueta de recursos > environment_name = El nombre del entorno en el que deseas supervisar las instantáneas programadas.
    Etiqueta de supervisión > resultado = SUCCEEDED
  7. En la sección Transforma los datos, establece los siguientes atributos:
    • En Ventana progresiva, selecciona la ventana de supervisión para esta alerta. Este valor afecta la configuración del umbral en el siguiente paso.

      Valor recomendado para la supervisión de instantáneas programadas: 1 día.

    • En Función de ventana progresiva, selecciona delta.
  8. Haz clic en Siguiente.
  9. La configuración de la página Configure alert trigger determina cuándo se activa la alerta. Completa esta página con la configuración de la siguiente tabla.
    Campo Valor
    Condition type Threshold
    Alert trigger Any time series violates
    Threshold position Below threshold
    Threshold value Es la cantidad de instantáneas programadas que esperas que se guarden dentro del período configurado como ventana continua para la alerta.

    Calcula este valor con la siguiente fórmula:

    (rolling window in hours / schedule frequency in hours) - 1

    Nota: La deducción de 1 horas en la fórmula se hace para tener en cuenta los diferentes tiempos de finalización de las instantáneas. Esto ayuda a evitar que se generen falsos positivos si la instantánea más reciente aún se está ejecutando durante una verificación de supervisión.

    Ejemplo:
    Si usas la ventana continua recomendada de 1 día y la frecuencia de programación es de una vez cada 2 horas, establece este valor en 11 (según el cálculo: 24 / 2 - 1 = 11).

    Si tu programación se ejecuta correctamente, en cualquier período de 24 horas deberías tener al menos 11 instantáneas. De lo contrario, significa que una operación de instantánea no se completó correctamente y Cloud Monitoring activa esta alerta.

    Condition name Es el nombre personalizado que le asignaste a la condición.
  10. Haz clic en Siguiente.
  11. Para agregar notificaciones a tu política de alertas, haz clic en Canales de notificaciones (opcional). En el diálogo, elige uno o más canales de notificaciones del menú y, luego, haz clic en Aceptar.
  12. Opcional: Actualiza la Duración del cierre automático de incidentes. Este campo determina cuándo Monitoring cierra los incidentes ante la ausencia de datos de métricas.
  13. Opcional: Haz clic en Documentación y, luego, agrega la información que deseas incluir en un mensaje de notificación.
  14. Haz clic en Nombre de la alerta y, luego, ingresa un nombre para la política de alertas.
  15. Haz clic en Crear política.
Para obtener más información, consulta Políticas de alertas.

Prueba tu procedimiento de recuperación ante desastres

Asegúrate de probar el procedimiento de recuperación ante desastres después de configurarlo y, luego, de forma periódica. Esto te permite abordar posibles problemas que podrían afectar el proceso real de recuperación ante desastres.

En el caso de la DR en frío, puedes borrar el entorno de conmutación por error después de terminar de probar el procedimiento de recuperación ante desastres.

Verifica las operaciones de guardar instantáneas

Puedes usar Google Cloud CLI para recuperar la lista de operaciones de guardado de instantáneas y verificar si tus instantáneas están listas para situaciones de recuperación ante desastres.

Este método es útil si guardas instantáneas con menos frecuencia que al menos una vez cada 12 horas. Para verificar las instantáneas que se guardan con más frecuencia, es mejor configurar las alertas de Cloud Monitoring. Consulta Configura la supervisión de las operaciones de instantáneas programadas.

gcloud

Muestra todas tus operaciones de instantáneas para un entorno específico. Para obtener la referencia completa del comando, consulta gcloud composer operations list.

gcloud composer operations list \
    --locations LOCATION \
    --filter="metadata.operationType=SAVE_SNAPSHOT AND 
    metadata.resource=projects/PROJECT_ID/locations/LOCATION/environments/ENVIRONMENT_ID"
    --format yaml

Reemplaza lo siguiente:

  • LOCATIONS por la lista de identificadores de región donde se encuentra el entorno
  • PROJECT_ID con el identificador del proyecto en el que se encuentra el entorno
  • ENVIRONMENT_ID con el identificador del entorno en el que deseas verificar las operaciones de instantáneas

Ejemplo:

gcloud composer operations list \
    --locations us-central1 \
    --filter="metadata.operationType=SAVE_SNAPSHOT AND 
    metadata.resource=projects/my-project/locations/us-central1/environments/my-environment"
    --format yaml

Después de un desastre

Sigue los pasos que se describen a continuación después de un desastre para recuperar tu entorno principal.

(Solo DR en frío) Crea un entorno de conmutación por error

Sigue las instrucciones que se indican en la sección Crea un entorno de conmutación por error.

Detén el entorno principal para que no ejecute DAG

Si es posible, evita que el entorno principal ejecute DAG:

  • Si aún se puede acceder al entorno principal, detén todos los DAG.
  • Si se puede acceder al bucket del entorno principal, mueve todos los DAG del bucket del entorno o a una carpeta fuera de /dags en el bucket del entorno principal.

Carga una instantánea en el entorno de conmutación por error

Carga una instantánea del entorno principal en el entorno de conmutación por error.

Una vez que se carga la instantánea en el entorno de conmutación por error, se programan y ejecutan tareas como si el entorno principal no hubiera ejecutado nada después de crear una instantánea. Sin embargo, es posible que el entorno principal ya haya ejecutado algunas de esas tareas. El entorno de conmutación por error no tiene ningún medio para reconocer qué tareas se ejecutaron después de crear la instantánea y antes de un desastre. Como resultado, es posible que algunas tareas se ejecuten dos veces (en el entorno principal y en el de conmutación por error). Recomendamos que todas las tareas sean idempotentes y que las instantáneas programadas se creen cada dos horas.

(Si es necesario) Ajusta la configuración del entorno de conmutación por error.

En algunos casos, es posible que desees cambiar la configuración del entorno de resguardo después de cargar la instantánea del entorno principal en él.

Por ejemplo, en una situación de DR en frío, es posible que debas usar un conjunto diferente de variables de entorno de Airflow en el entorno de conmutación por error. Como otro ejemplo, en una situación de DR activa, es posible que debas otorgar permisos a los usuarios en la IU de Airflow para que puedan acceder al entorno de conmutación por error.

Puedes realizar estos cambios de forma manual o preparar una secuencia de comandos de shell con comandos que cambien la configuración del entorno de conmutación por error ejecutando comandos gcloud composer environment update.

Decide qué hacer con el entorno principal

Algunos desastres pueden ocurrir porque no se puede acceder al entorno principal, pero aún está en funcionamiento o no funciona correctamente. Por ejemplo, no puedes acceder al entorno principal a través de la red debido a una falla de infraestructura. Como otro ejemplo, el entorno funciona con algunos errores o con una capacidad reducida, pero aún se ejecutan algunos DAG.

Si el entorno original sigue ejecutándose, es posible que genere costos directamente relacionados con Cloud Composer o con otros servicios a los que se accede a través de los DAG, aunque se haya creado un entorno nuevo como reemplazo. Este entorno aún puede ejecutar algunos DAG. Como resultado, es posible que algunas operaciones se ejecuten dos veces: en el entorno principal que aún se está ejecutando y en el entorno de conmutación por error después de cargar la instantánea.

Si el entorno principal existe, pero no funciona correctamente

Se puede borrar el entorno principal si se recuperaron todos los datos relevantes. Por ejemplo, es posible que desees recuperar datos que no se incluyen en las instantáneas del entorno, como la configuración de red o el contenido del bucket del entorno fuera de las carpetas /dags y /plugins.

Si el entorno principal vuelve a estar accesible y en buen estado

Si el entorno principal solo era inaccesible de forma temporal y vuelve a estar disponible y en buen estado, puedes elegir uno de los siguientes enfoques:

  • Sigue usando el entorno de conmutación por error.
  • Regresa al entorno principal.

Para seguir usando el entorno de conmutación por error, haz lo siguiente:

  1. Si el entorno principal aún ejecuta DAG, deténlos lo antes posible.
  2. Asegúrate de que se recuperen todos los datos relevantes y, luego, borra el entorno principal.
  3. Repite los pasos de preparación de la DR para el entorno de conmutación por error, como configurar las instantáneas programadas.

Para volver al entorno principal, haz lo siguiente:

  1. Pausa todos los DAG en el entorno de conmutación por error.
  2. Espera a que se completen todas las ejecuciones de DAG en el entorno de conmutación por error o deténlas.
  3. Guarda una instantánea del entorno de conmutación por error.
  4. Carga esta instantánea en el entorno principal.
  5. Reanuda los DAG en el entorno principal.
  6. Si es necesario, borra el entorno de conmutación por error.

¿Qué sigue?