Réplication

Cette page décrit la façon dont les données sont répliquées dans Spanner, les différents types d'instances dupliquées Spanner et leurs rôles respectifs dans les opérations de lecture et d'écriture, ainsi que les avantages de la réplication.

Présentation

Spanner réplique automatiquement au niveau octet. Tel que décrit dans le cours Cycle de vie des lectures et écritures Spanner, il tire parti de cette dans le système de fichiers sous-jacent sur lequel il repose. Spanner écrit les modifications apportées aux bases de données dans des fichiers stockés au sein de ce système de fichiers, qui se charge de répliquer ces fichiers ainsi que de les récupérer en cas de défaillance d'une machine ou d'un disque.

Même si le système de fichiers distribué sous-jacent utilisé par Spanner fournit déjà une réplication au niveau de l'octet, Spanner réplique les données pour offrir les avantages supplémentaires qu'elles procurent en termes de disponibilité des données et leur localité géographique. De manière générale, toutes les données de Spanner sont organisées en lignes. Spanner crée plusieurs copies, ou instances dupliquées, de ces lignes, puis les stocke dans différentes zones géographiques. Spanner utilise une réplication synchrone basée sur Paxos dans lequel les instances répliquées de vote votent à chaque opération d'écriture avant la validation de l'écriture. Cette propriété des algorithmes globalement synchrones la réplication vous permet de lire les données les plus récentes Instance répliquée Spanner en lecture/écriture ou en lecture seule.

Spanner crée des instances répliquées de chaque fraction de base de données. Une fractionnement contient une plage de lignes contiguës, où les lignes sont triées par clé primaire. Toutes les données d'un fractionnement sont physiquement stockées ensemble dans l'instance répliquée. Spanner diffuse chaque instance répliquée en cas de défaillance indépendante dans la zone. Pour en savoir plus, consultez la présentation des schémas.

Le stockage et la réplication d'un ensemble de partitions sont assurés via Paxos. Au sein de chaque jeu d'instances dupliquées Paxos, une instance dupliquée est élue pour agir en tant qu'instance dupliquée principale. Instances répliquées principales gérer les écritures, tandis que les instances répliquées en lecture/écriture ou en lecture seule peuvent diffuser une requête de lecture sans communiquer avec le responsable. Si une lecture forte est demandée, l'instance principale est généralement consultée pour s'assurer que l'instance répliquée en lecture seule a a reçu toutes les mutations récentes. Surveiller le taux de changement et la quantité de données répliquée de votre instance répliquée principale vers l'instance répliquée interrégionale répliquées de votre configuration d'instance, consultez la page Surveiller la réplication de données.

Avantages de la réplication Spanner

Les avantages de la réplication Spanner sont les suivants:

  • Disponibilité des données : l'existence d'un plus grand nombre de copies de vos données garantit une disponibilité accrue de celles-ci vis-à-vis des clients qui ont besoin de les lire. De plus, Spanner reste en mesure de diffuser des écritures même si certaines instances dupliquées ne sont pas disponibles, car il suffit d'une majorité des instances dupliquées ayant la capacité de voter pour valider une écriture.

  • Localité géographique : la possibilité offerte par Spanner de placer des données dans différentes régions et différents continents garantit une plus grande proximité géographique des données (et par conséquent un accès plus rapide) pour les utilisateurs et les services qui en ont besoin.

  • Expérience de base de données unique: Spanner peut fournir de base de données unique grâce à sa réplication synchrone et une cohérence forte à l'échelle mondiale.

  • Développement d'applications simplifié: Spanner étant conforme à la norme ACID et offre une cohérence forte à l'échelle mondiale, les développeurs travaillant avec Spanner n'ont pas besoin d'ajouter de logique pour gérer la cohérence à terme, ce qui rend l'application et la maintenance qui en découlent.

Types d'instances dupliquées

Spanner propose trois types d'instances répliquées: les instances répliquées en lecture/écriture, instances répliquées en lecture seule et instances dupliquées témoins. Les régions et les topologies de réplication qui constituent les configurations d'instance de base sont fixes :

Vous pouvez créer des configurations d'instance personnalisées et ajouter des instances dupliquées en lecture seule pour les configurations d'instance régionales et multirégionales.

Le tableau suivant récapitule les types d'instances dupliquées Spanner et leurs propriétés :

Type d'instance dupliquée Peut voter Peut devenir l'instance dupliquée principale Peut diffuser des lectures Vous pouvez configurer le réplica manuellement.
Lecture/écriture Oui Oui oui non
Lecture seule Non Non oui oui*
Témoin Oui non Non non

* Pour en savoir plus, découvrez comment créer une instance avec une configuration d'instance personnalisée.

Instances dupliquées en lecture/écriture

Les instances dupliquées en lecture/écriture prennent en charge les lectures et les écritures. Ces instances dupliquées :

  • conservent une copie complète de vos données ;
  • diffusent des opérations de lecture ;
  • peuvent participer aux votes de validation d'écriture ;
  • peuvent participer à l'élection de l'instance dupliquée principale ;
  • sont éligibles au rôle d'instance dupliquée principale ;
  • sont le seul type de réplication utilisé dans les instances régionales ;

Instances dupliquées en lecture seule

Les instances répliquées en lecture seule n'acceptent que les lectures, mais pas les écritures. Ces instances répliquées voter pour les dirigeants ou pour commettre des écritures, ce qui vous permet d'adapter votre lecture sans augmenter la taille du quorum nécessaire pour les écritures. Les instances dupliquées en lecture seule :

  • conservent une copie complète de vos données, qui sont répliquées à partir de l'instance dupliquée en lecture/écriture principale ;
  • Ne participez pas au vote pour valider les écritures. il s'ensuit que l'emplacement des instances dupliquées en lecture seule n'a aucune incidence sur la latence d'écriture ;
  • ne sont pas éligibles au rôle d'instance dupliquée principale.
  • diffusent des opérations de lecture ;
  • S'il s'agit de l'instance répliquée la plus proche de votre application, l'instance répliquée en lecture seule peut fournissent généralement des lectures non actualisées sans nécessiter d'aller-retour vers la région principale. en supposant que l'obsolescence est d'au moins 15 secondes. Vous pouvez également d'utiliser les lectures dirigées pour acheminer les transactions en lecture seule et les lectures uniques d'un type d'instance répliquée spécifique ou d'une région dans une configuration d'instance multirégionale. Pour en savoir plus, consultez Lectures dirigées.

    Les lectures fortes peuvent nécessiter un aller-retour auprès de l'instance dupliquée principale. L'aller-retour sert uniquement à négocier le code temporel, et non à expédier les données réelles du responsable. La négociation de l'horodatage est une opération du processeur optimisée au niveau de l'instance principale, et généralement, les données sont déjà en route. Cette communication est gérée automatiquement par le système.

    Pour en savoir plus sur les lectures obsolètes et persistantes, consultez la section Dans les lectures.

Instances dupliquées en lecture seule facultatives

Vous pouvez créer une configuration d'instance régionale ou multirégionale personnalisée et ajouter des instances dupliquées en lecture seule facultatives pour faire évoluer les lectures et prendre en charge les lectures obsolètes à faible latence. Vous pouvez ajouter les zones listées sous Région facultative en tant qu'instance répliquée en lecture seule facultative. Si l'emplacement de l'instance répliquée en lecture seule que vous avez choisi ne s'affiche pas, vous pouvez demander une nouvelle région d'instance répliquée en lecture seule facultative.

Toutes les instances répliquées en lecture seule facultatives sont soumises à des coûts de capacité de calcul, de stockage et de réplication. De plus, l'ajout d'instances répliquées en lecture seule à une configuration d'instance personnalisée ne modifie pas les contrats de niveau de service Spanner de la configuration de l'instance. Si vous choisissez d'ajouter une instance dupliquée en lecture seule sur un continent différent de celui de la région principale, nous vous recommandons d'ajouter au moins deux instances dupliquées en lecture seule. Cela permet de maintenir une faible latence de lecture si l'un des réplicas en lecture seule devient indisponible.

Nous vous recommandons de tester les charges de travail liées aux performances dans des instances hors production la configuration de l'instance personnalisée. Vous pouvez consulter Tableau de bord du benchmark de latence et de débit interrégionaux pour obtenir des données sur la latence interrégionale médiane. Par exemple, si vous créez un d'instance avec la configuration de base multirégionale eur6 et instance répliquée facultative en lecture seule dans us-east1, la latence de lecture forte attendue pour un client dans us-east1 est d'environ 100 millisecondes en raison du délai aller-retour vers dans la région principale de europe-west4. Les lectures obsolètes avec une obsolescence suffisante n'entraînent pas de trajet aller-retour et sont donc beaucoup plus rapides. Vous pouvez également utiliser les insights sur les verrouillages et les insights sur les transactions pour identifier les transactions qui entraînent des latences élevées.

Pour savoir comment ajouter des réplicas en lecture seule facultatifs, consultez la section Créer une configuration d'instance personnalisée.

Instances répliquées témoins

Les instances répliquées témoins ne prennent pas en charge les lectures, mais participent au vote pour valider les opérations d'écriture. Ces instances dupliquées permettent d'obtenir plus facilement les quorums d'écriture, sans mobiliser les ressources de stockage et de calcul dont des instances dupliquées en lecture/écriture auraient besoin pour stocker une copie complète des données et diffuser les lectures. Les instances dupliquées témoins :

  • sont utilisés dans les instances birégionales et multirégionales ;
  • ne conservent pas une copie complète des données ;
  • Ne diffusez pas les lectures.
  • participent aux votes de validation d'écriture ;
  • Ils participent à l'élection des responsables, mais ne sont pas éligibles à ce rôle. d'une instance répliquée.

Rôle des instances répliquées dans les opérations d'écriture et de lecture

Cette section décrit le rôle des instances dupliquées dans les opérations d'écriture et de lecture de Spanner, ce qui permet de comprendre pourquoi Spanner utilise des instances dupliquées témoins dans les configurations birégionales et multirégionales.

Dans les opérations d'écriture

Les requêtes d'écriture des clients sont toujours traitées en premier lieu par l'instance dupliquée principale, même s'il existe une instance dupliquée non principale plus proche du client, ou si l'instance dupliquée principale est géographiquement distante du client. Si vous utilisez une configuration d'instance birégionale ou multirégionale et que votre application cliente se trouve dans une région non principale, Spanner utilise le routage optimisé vers la région responsable pour acheminer dynamiquement les transactions en lecture-écriture afin de réduire la latence dans votre base de données. Pour en savoir plus, consultez la section Routage basé sur les leaders.

L'instance dupliquée principale enregistre l'écriture entrante et la transmet, en parallèle, aux autres instances dupliquées ayant la capacité de voter sur cette écriture. Chaque instance dupliquée éligible effectue son écriture, puis répond à l'instance dupliquée principale en indiquant si elle vote pour ou contre la validation de l'écriture. L'écriture est validée lorsqu'une majorité des votes les instances répliquées (ou le quorum d'écriture) acceptent de valider l'écriture. En arrière-plan, toutes les instances dupliquées restantes (non témoins) enregistrent l'écriture. Si une instance dupliquée en lecture/écriture ou en lecture seule accuse un retard dans l'enregistrement des écritures, elle peut se procurer les données manquantes auprès d'une autre instance dupliquée afin de disposer d'une copie complète et à jour des données.

Dans les opérations de lecture

Les requêtes de lecture des clients peuvent être exécutées sur l'instance dupliquée principale ou nécessiter une communication avec celle-ci, selon le mode de simultanéité spécifié dans la requête de lecture.

  • Les lectures qui font partie d'une transaction en lecture/écriture sont diffusées à partir de l'instance dupliquée principale, car c'est cette dernière qui conserve les verrous nécessaires pour appliquer la sérialisabilité.

  • Les méthodes de lecture unique (effectuée en dehors du contexte d'une transaction) et les lectures effectuées dans le cadre d'une transaction en lecture seule peuvent nécessiter une communication avec l'instance dupliquée principale, selon le mode de simultanéité spécifié pour la lecture. Pour en savoir plus sur les modes de simultanéité, consultez la section Types de lectures.

    • Les requêtes de lecture forte peuvent être présentées à n'importe quelle instance dupliquée en lecture/écriture ou en lecture seule. Si la requête est transmise à une instance dupliquée non principale, cette dernière doit communiquer avec l'instance dupliquée principale pour effectuer la lecture.

    • Les requêtes de lecture non actualisée sont présentées à la plus proche des instances dupliquées en lecture seule ou en lecture/écriture disponibles et actualisées par rapport à l'horodatage de la requête. Il peut s'agir l'instance répliquée principale si celle-ci est l'instance répliquée la plus proche du client a émis la requête de lecture.

Surveiller la réplication des données

Vous pouvez surveiller la fréquence de changement et la quantité de données répliquées votre instance répliquée principale vers les instances répliquées interrégionales de votre instance configuration. La fréquence de changement est exprimée en octets par seconde et la quantité de données est exprimée en octets. Pour ce faire, utilisez la documentation Octets répliqués interrégionaux. (instance/cross_region_replicated_bytes_count) est une métrique de surveillance.

Pour afficher cette métrique dans la console Google Cloud, procédez comme suit :

  1. Dans Google Cloud Console, accédez à Monitoring.

    Accéder à Monitoring

  2. Dans le menu de navigation, sélectionnez Explorateur de métriques.

  3. Dans le champ Métrique, cliquez sur le menu déroulant Sélectionner une métrique.

  4. Dans le champ Filtrer par nom de ressource ou de métrique, sélectionnez Instance Cloud Spanner > Instance > Octets répliqués interrégionaux puis cliquez sur Appliquer.

    Cette métrique n'est disponible sous Métriques actives que si une activité de réplication interrégionale est effectuée dans votre instance. Sinon, il apparaît sous Métriques inactives : Par défaut, l'interface utilisateur filtre et n'affiche que les campagnes métriques. Décochez la case Active pour afficher les métriques actives et inactives.

    Le graphique indique le taux de variation (en octets par seconde) des données répliquées dans toutes les instances Spanner au cours de la période spécifiée.

  5. Facultatif: pour afficher la quantité de données (en octets) répliquées au lieu de la fréquence de changement:

    1. Dans le champ Agrégation, cliquez sur la liste déroulante Somme, puis sélectionnez Configurez l'aligneur.
    2. Dans le champ Fonction d'alignement, cliquez sur le menu déroulant Taux, puis sélectionnez Delta.
    3. Sélectionnez Table ou Les deux comme type de tableau au lieu de "Graphique".

      La table indique la quantité de données (en octets) répliquées dans la période spécifiée.

  6. Facultatif: Pour afficher l'utilisation d'une instance ou d'un attribut particulier, procédez comme suit:

    1. Utilisez le champ Filtre pour ajouter des filtres, tels qu'un ID d'instance, une base de données l'ID, la région source, la région de destination ou un tag.
    2. Cliquez sur Ajouter un filtre pour ajouter plusieurs filtres.

Pour afficher la liste complète des métriques Google Cloud, consultez Métriques Google Cloud.

Étape suivante