Acerca de la replicación de disco síncrona


El Persistent Disk regional y la alta disponibilidad balanceada de Hyperdisk son opciones de almacenamiento que te permiten implementar servicios de alta disponibilidad en Compute Engine. El Persistent Disk regional y la alta disponibilidad balanceada de Hyperdisk replican de forma síncrona los datos entre dos zonas de la misma región y garantizan la alta disponibilidad para los datos de disco hasta una falla zonal.

Los volúmenes de Persistent Disk regional y la alta disponibilidad balanceada de Hyperdisk están diseñados para cargas de trabajo que requieren un objetivo de punto de recuperación (RPO) y un objetivo de tiempo de recuperación (RTO) más bajos. Para obtener más información sobre RPO y RTO, consulta Conceptos básicos del plan de recuperación ante desastres.

Persistent Disk regional y alta disponibilidad balanceada de Hyperdisk están diseñados para funcionar con grupos de instancias administrados regionales.

En este documento, se proporciona una descripción general de cómo compilar servicios de alta disponibilidad condiscos persistentes regionales y volúmenes de alta disponibilidad balanceada de Hyperdisk.

Cuando decidas usar el Persistent Disk regional o la alta disponibilidad balanceada de Hyperdisk, asegúrate de comparar las diferentes opciones para aumentar la disponibilidad del servicio y el costo, el rendimiento y la resiliencia de arquitecturas de servicios diferentes.

Acerca de la replicación de disco síncrona

Un volumen de Persistent Disk regional o alta disponibilidad balanceada de Hyperdisk (versión preliminar), también conocido como disco replicado, tiene una zona principal y una secundaria dentro de su región en la que almacena los datos del disco:

  • La zona principal es la misma zona en la que se encuentra la instancia de procesamiento a la que conectas el disco.
  • La zona secundaria es una zona alternativa de tu elección dentro de la misma región.

Compute Engine mantiene réplicas de tu disco en ambas zonas. Cuando escribes datos en tu disco, Compute Engine replica de forma síncrona esos datos en las réplicas de disco en ambas zonas para garantizar la alta disponibilidad. Los datos de cada réplica zonal se distribuyen en varias máquinas físicas dentro de la zona para garantizar la durabilidad. Las réplicas zonales garantizan que los datos del disco permanezcan disponibles y proporcionan protección contra interrupciones temporales en una de las zonas de discos.

Estado de la réplica para réplicas zonales

El estado de la réplica del disco para Persistent Disk regional o alta disponibilidad balanceada de Hyperdisk (versión preliminar) te muestra el estado de una réplica zonal en comparación con el contenido del disco. Las réplicas zonales de tus discos se encuentran en uno de los siguientes estados de réplica de disco en todo momento:

  • Sincronizada: la réplica está disponible, recibe de forma síncrona todas las escrituras realizadas en el disco y está actualizada con todos los datos en el disco.
  • Actualizándose: La réplica está disponible, pero se actualiza con los datos del disco de la otra réplica.
  • Sin sincronizar: La réplica no está disponible temporalmente y no está sincronizada con los datos del disco.

Para obtener información sobre cómo verificar y hacer un seguimiento de los estados de las réplicas de tus réplicas zonales, consulta Supervisa los estados de las réplicas de disco.

Estados de replicación para discos replicados de forma síncrona

Según el estado de las réplicas zonales individuales, el volumen de Persistent Disk regional o disponibilidad balanceada de Hyperdisk (versión preliminar) puede estar en uno de los siguientes estados de replicación:

  • Replicación completa: Las réplicas en ambas zonas están disponibles y se sincronizan con los datos del disco más recientes.
  • Actualizándose: Tus réplicas zonales están disponibles, pero una de las réplicas zonales se pone al día con los datos del disco más reciente.
  • Degradada: Una de las réplicas zonales tiene el estado out of sync debido a una falla o una interrupción.

Si el estado de replicación del disco es catching up o degraded, una de las réplicas zonales no se actualizará con todos los datos. Cualquier interrupción durante este tiempo en la zona de la réplica en buen estado da como resultado una falta de disponibilidad del disco hasta que se restablezca la zona de réplica en buen estado.

Cuando el volumen de Persistent Disk regional o alta disponibilidad balanceada de Hyperdisk se actualiza, Google Cloud comienza a reparar la réplica zonal que está en el estado Actualizándose. Google recomienda que esperes a que la réplica zonal afectada se actualice con los datos del disco, momento en el que su estado cambiará a Synced. Luego, cuando la réplica zonal cambia al estado sincronizado, el estado del disco replicado vuelve al estado Fully replicated.

Si el disco replicado tiene un estado de catching up o degraded durante un período prolongado y no cumple con los requisitos de RPO de tu organización, te recomendamos que tomes instantáneas de la réplica principal de cualquiera de las siguientes maneras:

  • Habilita las instantáneas programadas.
  • Crea una instantánea manual de tudisco persistente regional o disco de alta disponibilidad balanceada de Hyperdisk.

Después de crear una instantánea, puedes crear un nuevo disco Persistent Disk regional o alta disponibilidad balanceada de Hyperdisk con esa instantánea como fuente. Esto restablece la instantánea en el disco nuevo. El disco nuevo también comienza en un estado completamente replicado con replicación de datos en buen estado.

Para obtener información sobre cómo verificar el estado de replicación de tu disco Persistent Disk regional o alta disponibilidad balanceada de Hyperdisk, consulta Determina el estado de replicación de los discos.

Punto de control de recuperación de réplicas

Un punto de control de recuperación de réplica es un atributo de disco que representa el punto temporal crash-consistent más reciente de un disco completamente replicado. Compute Engine crea y mantiene de forma automática un solo punto de control de recuperación de réplica para cada disco replicado. Cuando un disco se replica por completo, Compute Engine continúa actualizando su punto de control aproximadamente cada 10 minutos para garantizar que el punto de control permanezca actualizado. Cuando el estado de replicación del disco es degraded, Compute Engine te permite crear una instantánea estándar desde el punto de control de recuperación de la réplica de ese disco. La instantánea estándar resultante captura los datos de la versión más reciente coherente frente a fallas del disco completamente replicado.

En raras ocasiones, cuando tu disco se degrada, la réplica zonal que se sincroniza con los datos del disco más reciente también puede fallar antes de que la réplica desincronizada se actualice. No podrás forzar la conexión del disco a las instancias de procesamiento de ninguna zona. El disco replicado deja de estar disponible y debes migrar los datos a un disco nuevo. En esas situaciones, si no tienes ninguna instantánea estándar disponible para tu disco, es posible que puedas recuperar los datos del disco desde la réplica incompleta mediante una instantánea estándar creada a partir de una instantánea estándar. punto de control de recuperación de réplicas.

Compute Engine crea automáticamente puntos de control de recuperación de réplica para cada disco Persistent Disk regional o alta disponibilidad balanceada de Hyperdisk (versión preliminar) activado. No se generan cargos adicionales por la creación de estos puntos de control. Sin embargo, se generan cargos de almacenamiento aplicables por la creación de instantáneas e instancias de procesamiento cuando usas estos puntos de control para migrar tu disco replicado a zonas que funcionen.

Obtén más información para recuperar tus datos de disco replicados con un punto de control de recuperación de réplicas.

Conmutación por error de disco replicado

Si se produce una interrupción en una zona, esta se vuelve inaccesible y la instancia de procesamiento de esa zona no puede realizar operaciones de lectura o escritura en su disco. Para permitir que la instancia siga realizando operaciones de lectura y escritura en el disco replicado, Compute Engine permite la migración de datos del disco a la otra zona en la que el disco tiene una réplica. Este proceso se denomina failover.

El proceso de conmutación por error implica desconectar la réplica zonal de la instancia en la zona afectada y, luego, conectar la réplica zonal a una instancia nueva en la zona secundaria. Compute Engine replica de forma síncrona los datos en tu disco en la zona secundaria para garantizar una conmutación por error rápida en caso de que falle una sola réplica.

Conmutación por error por el plano de control regional específico de la aplicación

El plano de control regional específico de la aplicación no es un servicio de Google Cloud. Cuando diseñas arquitecturas de servicios de HA, debes compilar tu propio plano de control regional específico de la aplicación. Este plano de control de la aplicación decide qué instancia debe tener el disco replicado conectado y qué instancia es la instancia principal actual.

Cuando se detecta una falla en la instancia o base de datos principal del disco replicado, el plano de control regional específico de la aplicación de la arquitectura de servicio de alta disponibilidad puede iniciar la conmutación por error automáticamente a la instancia en espera en la zona secundaria. Durante la conmutación por error, el plano de control regional específico de la aplicación vuelve a conectar el disco replicado a la instancia en espera en la zona secundaria. Luego, Compute Engine dirige todo el tráfico a esa VM en función de los indicadores de la verificación de estado.

La latencia general de la conmutación por error, que excluye el tiempo de detección de fallas, es la suma de las siguientes latencias:

  • Menos de 1 minuto para conectar un disco replicado a una instancia en espera
  • Tiempo necesario para la inicialización de la aplicación y la recuperación ante fallas

Para obtener más información, consulta Comprende el plano de control regional específico de la aplicación.

En la página Componentes básicos para la recuperación ante desastres, se describen los componentes disponibles en la actualidad en Compute Engine.

Conmutación por error por conexión forzada

Uno de los beneficios del Persistent Disk regional y la alta disponibilidad balanceada de Hyperdisk (versión preliminar) es que, en el caso improbable de una interrupción zonal, puedes conmutar por error de forma manual tu carga de trabajo a otra zona. Cuando la zona original tiene una interrupción, no puedes completar la operación de desconexión del disco hasta que se restablezca esa réplica zonal. En esta situación, es posible que debas conectar la réplica zonal secundaria a una instancia de procesamiento nueva sin desconectar la réplica zonal principal de tu instancia principal. Este proceso se denomina conexión forzada.

Cuando tu instancia de procesamiento en la zona principal deja de estar disponible, puedes forzar la conexión del disco a una instancia en la zona secundaria. Para llevar a cabo esta tarea, debes realizar una de las siguientes acciones:

  • Iniciar otra instancia de procesamiento en la misma zona que el disco replicado cuya conexión estás forzando
  • Mantener una instancia de procesamiento en espera activa en esa zona. Una instancia de espera activa es una instancia en ejecución que es idéntica a la de la zona principal. Las dos instancias tienen los mismos datos.

Compute Engine ejecuta la operación de conexión forzada en menos de un minuto. El objetivo de tiempo de recuperación (RTO) total no solo depende de la conmutación por error del almacenamiento (la conexión forzada del volumen del disco replicado), sino también de otros factores, incluidos los siguientes:

  • Si primero debes crear una instancia secundaria
  • La cantidad de tiempo que le toma al sistema de archivos subyacente detectar un disco conectado en caliente
  • El tiempo de recuperación de las aplicaciones correspondientes

Para obtener más información sobre cómo conmutar por error tu instancia de procesamiento mediante la conexión forzada, consulta Cómo conmutar por error tu disco replicado con force-attach.

El Persistent Disk regional y la alta disponibilidad balanceada de Hyperdisk favorecen la disponibilidad de la carga de trabajo, lo que significa que hay compensaciones para la protección de datos en el caso improbable de que ambas réplicas de disco dejen de estar disponibles al mismo tiempo. Para obtener más información, consulta Administra fallas de discos replicados.

Limitaciones

En las siguientes secciones, se enumeran las limitaciones que se aplican aPersistent Disk regional y alta disponibilidad balanceada de Hyperdisk (Versión preliminar).

Limitaciones generales para los discos replicados

  • Solo puedes conectar el disco persistente regional a las VM que usan E2, N1, N2 y tipos de máquina N2D.
  • Puedes adjuntar alta disponibilidad balanceada de Hyperdisk solo a los tipos de máquinas compatibles.
  • No puedes crear un Persistent Disk regional a partir de una imagen ni de un disco que se creó a partir de una imagen.
  • Cuando usas el modo de solo lectura, puedes conectar un disco persistente regional balanceado a un máximo de 10 instancias de VM.
  • El tamaño mínimo de un Persistent Disk estándar regional es de 200 GiB.
  • Solo puedes aumentar el tamaño de un disco persistente regional o un volumen de alta disponibilidad balanceada de Hyperdisk. No puedes disminuir su tamaño.
  • Los volúmenes de Persistent Disk regionales y alta disponibilidad balanceada de Hyperdisk tienen características de rendimiento diferentes a las de sus discos zonales correspondientes. Para obtener más información, consulta Rendimiento del almacenamiento en bloque.
  • Si creas un disco replicado mediante la clonación de un disco zonal, las dos réplicas zonales no están completamente sincronizadas en el momento de la creación. Después de la creación, puedes usar la clonación de disco regional en promedio en 3 minutos. Sin embargo, es posible que debas esperar decenas de minutos antes de que el disco alcance un estado completamente replicado y el objetivo de punto de recuperación (RPO) esté cerca de cero. Obtén información para verificar si tu disco replicado está replicado por completo.

Limitaciones de los puntos de control de recuperación de réplicas

  • Un punto de control de recuperación de réplica es parte de los metadatos del dispositivo y no muestra ningún dato del disco por sí mismo. Solo puedes usar el punto de control como un mecanismo para crear una instantánea del disco degradado. Después de crear la instantánea mediante el punto de control, puedes usar la instantánea para restablecer tus datos.
  • Puedes crear instantáneas desde un punto de control de recuperación de réplicas solo cuando tu disco está degradado.
  • Compute Engine actualiza el punto de control de la réplica de recuperación de tu disco solo cuando este se replica por completo.
  • Compute Engine solo mantiene un punto de control de recuperación de réplica para un disco y solo mantiene la versión más reciente de ese punto de control.
  • No puedes ver las marcas de tiempo de creación y actualización exactas de un punto de control de recuperación de réplicas.
  • Puedes crear una instantánea desde tu punto de control de recuperación de réplicas solo con la API de Compute Engine.

¿Qué sigue?