À propos de la réplication synchrone des disques

.
Les disques Persistent Disk régionaux et Hyperdisk équilibrés à haute disponibilité sont des options de stockage qui vous permettent d'implémenter des services à haute disponibilité dans Compute Engine. Les disques Persistent Disk régionaux et Hyperdisk équilibrés à haute disponibilité répliquent les données de manière synchrone entre deux zones de la même région et garantissent la haute disponibilité pour les données du disque jusqu'à une défaillance zonale.

Les volumes Persistent Disk régionaux et Hyperdisk équilibrés à haute disponibilité sont conçus pour des charges de travail nécessitant un objectif de point de récupération (RPO) et un objectif de temps de récupération (RTO) inférieurs. Pour en savoir plus sur le RPO et le RTO, consultez la page Principes de base d'un plan de reprise après sinistre.

Les volumesPersistent Disk régionaux et Hyperdisk équilibrés à haute disponibilité sont conçus pour fonctionner avec des groupes d'instances gérés régionaux.

Ce document explique comment créer des services à haute disponibilité avec des volumesPersistent Disk régionaux et Hyperdisk équilibrés à haute disponibilité.

Lorsque vous décidez d'utiliser un disque persistant régional ou Hyperdisk équilibré à haute disponibilité, veillez à comparer les différentes options permettant d'augmenter la disponibilité du service et le coût, les performances et la résilience de différentes architectures de services.

À propos de la réplication de disque synchrone

Un volume de disque persistant régional ou Hyperdisk équilibré à haute disponibilité (Bêta), également appelé disque répliqué, possède une zone principale et une zone secondaire dans sa région où sont stockées les données du disque :

  • La zone principale est la même que celle où se trouve l'instance de calcul à laquelle vous associez le disque.
  • La zone secondaire est une zone de votre choix dans la même région.

Compute Engine gère des instances répliquées de votre disque dans ces deux zones. Lorsque vous écrivez des données sur votre disque, Compute Engine les réplique de manière synchrone sur les instances répliquées des deux zones afin de garantir la haute disponibilité. Les données de chaque instance répliquée zonale sont réparties sur plusieurs machines physiques dans la zone pour assurer leur durabilité. Les instances répliquées zonales garantissent que les données du disque restent disponibles et offrent une protection contre les interruptions temporaires de l'une des zones du disque.

État de l'instance répliquée pour les instances répliquées zonales

L'état de l'instance répliquée du disque pour la haute disponibilité du disque persistant régional ou du disque Hyperdisk équilibré (bêta) indique l'état d'une instance répliquée zonale par rapport au contenu du disque. Les instances répliquées zonales de vos disques se trouvent en permanence dans l'un des états d'instance répliquée suivants :

  • Synchronisée : l'instance répliquée est disponible, reçoit de manière synchrone toutes les écritures effectuées sur le disque et est à jour avec toutes les données du disque.
  • En cours de récupération : l'instance répliquée est disponible, mais récupère les données sur le disque de l'autre instance répliquée.
  • Désynchronisée : l'instance répliquée est temporairement indisponible et désynchronisée des données du disque.

Pour savoir comment vérifier et suivre les états de vos instances répliquées zonales, consultez la page Surveiller les états des instances répliquées des disques.

États de réplication des disques répliqués de manière synchrone

Selon l'état des instances répliquées zonales individuelles, votre disque persistant régional ou votre disque Hyperdisk équilibré à haute disponibilité (Bêta) peut se trouver dans l'un des états de réplication suivants :

  • Entièrement répliqué : les instances répliquées des deux zones sont disponibles et sont synchronisées avec les données les plus récentes du disque.
  • Récupération : Vos instances répliquées zonales sont disponibles, mais l'une d'entre elles récupère les dernières données de disque.
  • Dégradé : l'une des instances répliquées zonales possède l'état out of sync en raison d'une défaillance ou d'une panne.

Si l'état de la réplication du disque est catching up ou degraded, l'une des instances répliquées zonales n'est pas mise à jour avec toutes les données. Une panne pendant cette période dans la zone de l'instance répliquée opérationnelle entraîne l'indisponibilité du disque jusqu'à ce que la zone d'instance répliquée opérationnelle soit restaurée.

Lorsque votre volume de disque persistant régional ou Hyperdisk équilibré à haute disponibilité effectue une récupération, Google Cloud commence à réparer l'instance répliquée zonale en cours de récupération. Nous vous recommandons d'attendre que l'instance répliquée zonale concernée récupère les données sur le disque, auquel cas son état passe à Synced. Une fois que l'instance répliquée zonale passe à l'état synchronisé, l'état du disque répliqué revient à l'état Fully replicated.

Si le disque répliqué affiche l'état catching up ou degraded pendant une période prolongée et ne répond pas aux exigences RPO de votre organisation, nous vous recommandons de prendre des instantanés de l'instance répliquée principale via l'une des méthodes suivantes :

  • Activer les instantanés programmés.
  • Créer un instantané manuel de votredisque persistant régional ou Hyperdisk équilibré à haute disponibilité.

Après avoir créé un instantané, vous pouvez créer un nouveaudisque persistant régional ou Hyperdisk équilibré à haute disponibilité en utilisant cet instantané comme source. Cette action restaure l'instantané sur le nouveau disque. Votre nouveau disque commence également dans un état entièrement répliqué avec une réplication de données opérationnelle.

Pour savoir comment vérifier l'état de réplication de votre Persistent Disk régional Disque Hyperdisk équilibré à haute disponibilité, consultez la page Déterminer l'état de réplication des disques.

Point de contrôle de récupération d'instance répliquée

Un point de contrôle de récupération d'instance répliquée est un attribut de disque qui représente le plus récent moment cohérent avec le plantage d'un disque entièrement répliqué. Compute Engine crée et gère automatiquement un point de contrôle de récupération unique pour chaque disque répliqué. Lorsqu'un disque est entièrement répliqué, Compute Engine continue d'actualiser son point de contrôle toutes les 10 minutes pour garantir que celui-ci reste à jour. Lorsque l'état de la réplication du disque est degraded, Compute Engine vous permet de créer un instantané standard à partir du point de contrôle de récupération de l'instance répliquée de ce disque. L'instantané standard obtenu capture les données de la version la plus récente du disque entièrement répliqué cohérent avec le plantage.

Dans de rares cas, lorsque votre disque est dégradé, l'instance répliquée zonale synchronisée avec les dernières données de disque peut également échouer avant que l'instance répliquée non synchronisée ne la rattrape. Vous ne pouvez pas forcer l'association du disque sur les instances de calcul dans l'une des zones. Votre disque répliqué devient indisponible et vous devez transférer les données vers un nouveau disque. Dans de tels scénarios, si vous ne disposez d'aucun instantané standard existant pour votre disque, vous pouvez peut-être récupérer vos données de disque à partir de l'instance répliquée incomplète à l'aide d'un instantané standard créé à partir du point de contrôle de récupération de l'instance répliquée.

Compute Engine crée automatiquement des points de contrôle de récupération d'instance répliquée pour chaque disque Persistent Disk régional ou Hyperdisk équilibré à haute disponibilité (Bêta) installé. La création de ces points de contrôle n'entraîne aucuns frais supplémentaires. Toutefois, des frais de stockage s'appliquent pour la création d'instantanés et d'instances de calcul lorsque vous utilisez ces points de contrôle pour migrer votre disque répliqué vers des zones fonctionnelles.

Découvrez comment récupérer vos données de disque répliquées à l'aide d'un point de contrôle de récupération d'instance répliquée.

Basculement du disque répliqué

En cas de panne dans une zone, celle-ci devient inaccessible, et l'instance de calcul de cette zone ne peut plus effectuer d'opérations de lecture ou d'écriture sur son disque. Pour permettre à l'instance de continuer à effectuer des opérations de lecture et d'écriture sur le disque répliqué, Compute Engine autorise la migration des données du disque vers l'autre zone où le disque dispose d'une instance répliquée. Ce processus est appelé basculement.

Le processus de basculement implique de dissocier l'instance répliquée zonale de l'instance dans la zone affectée, puis d'associer l'instance répliquée zonale à une nouvelle instance de la zone secondaire. Compute Engine réplique de manière synchrone les données de votre disque vers la zone secondaire afin d'assurer un basculement rapide en cas de défaillance d'une seule instance répliquée.

Basculement par plan de contrôle régional propre à l'application

Le plan de contrôle régional propre à l'application n'est pas un service Google Cloud. Lorsque vous concevez des architectures de services à haute disponibilité, vous devez créer votre plan de contrôle régional propre à l'application. Ce plan de contrôle d'application décide quelle instance doit être associée au disque répliqué et quelle instance constitue l'instance principale actuelle.

Lorsqu'une panne est détectée dans l'instance principale ou la base de données du disque répliqué, le plan de contrôle régional propre à l'application de votre architecture de service à haute disponibilité peut initier automatiquement le basculement vers l'instance de secours dans la zone secondaire. Pendant le basculement, le plan de contrôle régional propre à l'application réassocie le disque répliqué à l'instance de secours dans la zone secondaire. Compute Engine dirige ensuite tout le trafic vers cette instance en fonction des signaux de vérification de l'état.

La latence de basculement globale, temps de détection des pannes exclu, est égale à la somme des latences suivantes :

  • Moins d'une minute pour associer un disque répliqué à une instance de secours
  • Temps nécessaire à l'initialisation de l'application et à la reprise après un plantage

Pour plus d'informations, consultez la section Comprendre le plan de contrôle régional propre à l'application.

La page Structure de la reprise après sinistre présente les composants actuellement disponibles dans Compute Engine.

Basculement par association forcée

L'un des avantages des disques persistants régionaux et Hyperdisk équilibrés à haute disponibilité (bêta) est que dans le cas peu probable d'une panne zonale, vous pouvez faire basculer manuellement votre charge de travail vers une autre zone. Lorsque la zone d'origine subit une panne, vous ne pouvez pas terminer l'opération de dissociation du disque tant que cette instance répliquée zonale n'est pas restaurée. Dans ce scénario, vous devrez peut-être associer l'instance répliquée zonale secondaire à une nouvelle instance de calcul sans dissocier l'instance répliquée zonale principale de votre instance principale. Ce processus est appelé association forcée.

Lorsque votre instance de calcul dans la zone principale devient indisponible, vous pouvez forcer l'association du disque à une instance de la zone secondaire. Pour ce faire, vous devez effectuer l'une des opérations suivantes :

  • Démarrer une autre instance de calcul dans la zone où se trouve le disque répliqué dont vous forcez l'association.
  • Garder une instance de calcul de secours à chaud (hot-standby) dans cette zone. Une instance de secours à chaud (hot standby) est une instance en cours d'exécution qui est identique à celle de la zone principale. Les deux instances disposent des mêmes données.

Compute Engine exécute l'opération d'association forcée en moins d'une minute. L'objectif de temps de récupération (RTO, Recovery Time Objective) total dépend non seulement du basculement de l'espace de stockage (l'association forcée du disque répliqué), mais également d'autres facteurs, dont les suivants :

  • La nécessité ou non de créer une instance secondaire au préalable
  • La durée nécessaire au système de fichiers sous-jacent pour détecter un disque associé à chaud
  • Le temps de récupération des applications correspondantes

Pour en savoir plus sur le basculement de votre instance de calcul par association forcée, consultez la section Effectuer le basculement du disque répliqué à l'aide de force-attach.

Le disque persistant régional et le disque Hyperdisk équilibré à haute disponibilité favorisent la disponibilité des charges de travail, ce qui signifie qu'il existe des compromis pour la protection des données dans le cas peu probable où les deux instances répliquées du disque sont indisponibles en même temps. Pour en savoir plus, consultez la page Gérer les défaillances des disques répliqués.

Limites

Les sections suivantes répertorient les limites qui s'appliquentau disque persistant régional et au disque Hyperdisk équilibré à haute disponibilité (Bêta).

Limites générales pour les disques répliqués

  • Vous ne pouvez associer un disque persistant régional qu'aux VM qui utilisent les types de machines E2, N1, N2 et N2D.
  • Vous ne pouvez associer les disques Hyperdisk équilibrés à haute disponibilité Balanced qu'aux types de machines compatibles.
  • Vous ne pouvez pas créer de disque persistant régional à partir d'une image ou d'un disque créé à partir d'une image.
  • Lorsque vous utilisez le mode lecture seule, vous pouvez associer un disque persistant avec équilibrage à un maximum de 10 instances de VM.
  • La taille minimale d'un disque persistant standard régional est de 200 Gio.
  • Vous ne pouvez qu'augmenter la taille d'un volume de disque persistant régional ouHyperdisk équilibré à haute disponibilité ; vous ne pouvez pas la réduire.
  • Les volumes Persistent Disk régionaux et Hyperdisk équilibrés à haute disponibilité ont des caractéristiques de performances différentes de celles des disques zonaux correspondants. Pour en savoir plus, consultez la page Performances des options de stockage de blocs.
  • Si vous créez un disque répliqué en clonant un disque zonal, les deux instances dupliquées zonales ne sont pas entièrement synchronisées au moment de la création. Une fois créé, vous pouvez utiliser le clone de disque régional dans un délai moyen de trois minutes. Toutefois, vous devrez peut-être attendre quelques dizaines de minutes avant que le disque n'atteigne un état entièrement répliqué et que l'objectif de point de récupération (RPO, Recovery Point Objective) soit proche de zéro. Apprenez à vérifier si votre disque répliqué est entièrement répliqué.

Limites applicables aux points de contrôle de récupération d'instance répliquée

  • Un point de contrôle de récupération d'instance répliquée fait partie des métadonnées de l'appareil et n'affiche aucune donnée de disque. Vous ne pouvez utiliser le point de contrôle que comme mécanisme de création d'un instantané de votre disque dégradé. Après avoir créé l'instantané à l'aide du point de contrôle, vous pouvez l'utiliser pour restaurer vos données.
  • Vous ne pouvez créer des instantanés à partir d'un point de contrôle de récupération d'instance répliquée que lorsque votre disque est dégradé.
  • Compute Engine actualise le point de contrôle de récupération de votre disque uniquement lorsque celui-ci est entièrement répliqué.
  • Compute Engine ne gère qu'un seul point de contrôle de récupération d'instance répliquée pour un disque et ne conserve que la dernière version de ce point de contrôle.
  • Vous ne pouvez pas afficher les horodatages de création et d'actualisation exacts d'un point de contrôle de récupération d'instance répliquée.
  • Vous ne pouvez créer un instantané à partir de votre point de contrôle de récupération d'instance répliquée qu'à l'aide de l'API Compute Engine.

Étape suivante