Réplication

Cette page décrit comment les données sont répliquées dans Spanner, les différents types d'instances répliquées Spanner et leurs rôles en lecture et en écriture, ainsi que les avantages de la réplication.

Présentation

Spanner effectue automatiquement la réplication au niveau des octets. Comme décrit dans la section Déroulement des opérations de lecture et d'écriture Spanner, il tire parti de cette fonctionnalité dans le système de fichiers sous-jacent sur lequel il repose. Spanner écrit les mutations de base de données dans les fichiers de ce système de fichiers. Le système de fichiers se charge de répliquer et de récupérer les fichiers en cas de défaillance d'une machine ou d'un disque.

Même si le système de fichiers distribué sous-jacent sur lequel repose Spanner fournit déjà une réplication au niveau de l'octet, Spanner réplique également les données pour offrir les avantages supplémentaires de disponibilité et de localité géographique des données. De manière générale, toutes les données dans Spanner sont organisées en lignes. Spanner crée plusieurs copies (ou "instances dupliquées") de ces lignes, puis les stocke dans différentes zones géographiques. Spanner utilise un schéma de réplication synchrone basé sur Paxos, dans lequel les instances répliquées de vote émettent un vote sur chaque requête d'écriture avant que l'écriture ne soit validée. Cette propriété de réplication globalement synchrone vous permet de lire les données les plus récentes à partir de n'importe quelle instance répliquée Spanner en lecture/écriture ou en lecture seule.

Spanner crée des instances répliquées de chaque partition de base de données. Une division contient une plage de lignes contiguës, où les lignes sont classées par clé primaire. Toutes les données d'une division sont physiquement stockées ensemble dans l'instance dupliquée, et Spanner diffuse chaque instance répliquée depuis une zone de défaillance indépendante. Pour en savoir plus, consultez À propos des schémas.

Le stockage et la réplication d'un ensemble de partitions sont assurés via Paxos. Au sein de chaque jeu d'instances dupliquées Paxos, une instance dupliquée est élue pour agir en tant qu'instance dupliquée principale. Les instances dupliquées principales sont responsables du traitement des écritures, alors que toute instance dupliquée en lecture/écriture ou en lecture seule peut diffuser une requête de lecture sans communiquer avec l'instance dupliquée principale (toutefois, si une lecture forte est demandée, l'instance dupliquée principale est généralement consultée afin de garantir que l'instance dupliquée en lecture seule a reçu toutes les modifications récentes).

Avantages de la réplication Spanner

La réplication Spanner présente les avantages suivants:

Disponibilité des données : l'existence d'un plus grand nombre de copies de vos données garantit une disponibilité accrue de celles-ci vis-à-vis des clients qui ont besoin de les lire. En outre, Spanner peut toujours diffuser des écritures même si certaines instances répliquées sont indisponibles, car seule une majorité d'instances répliquées votant sont nécessaires pour effectuer un commit d'écriture.
Localité géographique: la possibilité de placer des données dans différentes régions et différents continents avec Spanner permet aux utilisateurs et aux services qui en ont besoin d'accéder plus rapidement aux données géographiquement plus proches.
Expérience de base de données unique: Spanner peut fournir une expérience de base de données unique grâce à sa réplication synchrone et à sa cohérence forte à l'échelle mondiale.
Développement d'applications simplifié: Spanner est conforme à la norme ACID et offre une cohérence forte à l'échelle mondiale. Les développeurs qui l'utilisent n'ont donc pas besoin d'ajouter de logique supplémentaire dans leurs applications pour gérer la cohérence à terme, ce qui accélère et facilite le développement et la maintenance des applications.

Types d'instances dupliquées

Spanner propose trois types d'instances répliquées: les instances répliquées en lecture/écriture, les instances répliquées en lecture seule et les instances dupliquées témoins. Les régions et les topologies de réplication qui constituent les configurations d'instances de base sont fixes. Les configurations d'instances régionales de base n'utilisent que des instances répliquées en lecture/écriture, tandis que les configurations d'instances multirégionales de base combinent les trois types d'instances répliquées. Vous pouvez créer des configurations d'instance personnalisées et ajouter d'autres instances répliquées en lecture seule pour les configurations d'instances régionales et multirégionales.

Le tableau suivant récapitule les types d'instances répliquées Spanner et leurs propriétés :

Type d'instance dupliquée	Peut voter	Peut devenir l'instance dupliquée principale	Peut diffuser des lectures	Possibilité de configurer une instance répliquée manuellement
Lecture/écriture	Oui	oui	oui	0
Lecture seule	0	non	oui	oui^*
Témoin	oui	Non	non	0

^* Pour en savoir plus, découvrez comment créer une instance avec une configuration d'instance personnalisée.

Instances répliquées en lecture/écriture

Les instances dupliquées en lecture/écriture prennent en charge les lectures et les écritures. Ces instances dupliquées :

conservent une copie complète de vos données ;
diffusent des opérations de lecture ;
peuvent participer aux votes de validation d'écriture ;
peuvent participer à l'élection de l'instance dupliquée principale ;
sont éligibles au rôle d'instance dupliquée principale ;
sont le seul type utilisé dans les instances régionales.

Instances dupliquées en lecture seule

Les instances répliquées en lecture seule ne prennent en charge que les lectures, mais pas les écritures. Ces instances répliquées ne votent pas pour les variantes optimales ni pour la validation des écritures. Elles vous permettent donc d'adapter votre capacité de lecture sans augmenter le quorum nécessaire pour les écritures. Les instances dupliquées en lecture seule :

conserver une copie complète de vos données, qui est répliquée à partir d'instances répliquées en lecture/écriture ;
diffusent des opérations de lecture ;
Ne participez pas au vote pour valider les écritures. il s'ensuit que l'emplacement des instances dupliquées en lecture seule n'a aucune incidence sur la latence d'écriture ;
S'il s'agit de l'instance répliquée la plus proche de votre application, l'instance répliquée en lecture seule peut généralement diffuser des lectures non actualisées sans nécessiter d'aller-retour vers la région principale par défaut, en supposant que l'obsolescence est d'au moins 15 secondes. Vous pouvez également utiliser des lectures dirigées pour acheminer les transactions en lecture seule et les lectures uniques vers un type d'instance répliquée ou une région spécifique dans une configuration d'instance multirégionale. Pour en savoir plus, consultez Lectures dirigées.

Les lectures fortes peuvent nécessiter un aller-retour vers l'instance répliquée principale. L'aller-retour sert uniquement à négocier l'horodatage, et non à envoyer les données réelles du responsable. La négociation d'horodatage est une opération efficace pour le processeur au niveau de la variante optimale et, généralement, les données sont déjà en route. Cette communication est gérée automatiquement par le système.

Pour en savoir plus sur les lectures non actualisées et fortes, consultez la section Dans les lectures.
ne sont pas éligibles au rôle d'instance dupliquée principale.

Vous pouvez créer une configuration d'instance régionale ou multirégionale personnalisée et ajouter des instances répliquées en lecture seule facultatives pour effectuer le scaling des lectures et permettre les lectures non actualisées à faible latence. Vous pouvez ajouter des emplacements répertoriés sous Région facultative en tant qu'instance répliquée facultative en lecture seule. Si vous ne voyez pas l'emplacement choisi pour l'instance répliquée en lecture seule, vous pouvez demander une nouvelle région d'instance répliquée facultative en lecture seule. Notez que vous ne pouvez pas modifier la topologie de réplication des configurations d'instance de base, qui sont fixes.

Toutes les instances répliquées facultatives en lecture seule sont soumises à des coûts de capacité de calcul et de stockage. De plus, l'ajout d'instances répliquées en lecture seule à une configuration d'instance personnalisée ne modifie pas les contrats de niveau de service Spanner de la configuration de l'instance. Si vous choisissez d'ajouter une instance répliquée en lecture seule à un continent qui se trouve sur un autre continent que celui de la région principale, nous vous recommandons d'ajouter au moins deux instances répliquées en lecture seule. Cela permet de maintenir une faible latence en lecture au cas où l'une des instances répliquées en lecture seule deviendrait indisponible.

Lorsque vous ajoutez une ou plusieurs instances répliquées en lecture seule, l'instance répliquée principale connaît une charge de réplication plus importante, ce qui peut affecter les performances. Nous vous recommandons de commencer par tester les charges de travail de performances dans des instances hors production dans la configuration d'instance personnalisée. Vous pouvez consulter le tableau de bord d'analyse comparative du débit et de la latence interrégionale pour obtenir les données de latence interrégionale médiane. Par exemple, si vous créez une configuration d'instance personnalisée avec la configuration de base multirégionale eur6 et une instance répliquée en lecture seule facultative dans us-east1, la forte latence de lecture attendue pour un client dans us-east1 est d'environ 100 millisecondes en raison du délai aller-retour vers la région principale de europe-west4. Les lectures obsolètes ayant une obsolescence suffisante n'entraînent pas d'aller-retour et sont donc beaucoup plus rapides. Vous pouvez également utiliser la métrique Latence par type de transaction pour afficher les données de latence des transactions en lecture/écriture et en lecture seule.

Pour obtenir des instructions, consultez Créer une configuration d'instance personnalisée.

Instances répliquées témoins

Les instances répliquées témoins ne prennent pas en charge les lectures, mais participent au vote visant à valider les écritures. Ces instances dupliquées permettent d'obtenir plus facilement les quorums d'écriture, sans mobiliser les ressources de stockage et de calcul dont des instances dupliquées en lecture/écriture auraient besoin pour stocker une copie complète des données et diffuser les lectures. Les instances dupliquées témoins :

ne sont utilisées que dans des instances multirégionales ;
Ne conservez pas une copie complète des données.
Ne pas diffuser les lectures.
participent aux votes de validation d'écriture ;
participent à l'élection de l'instance dupliquée principale, mais ne sont pas éligibles à ce rôle.

Rôle des instances répliquées dans les opérations d'écriture et de lecture

Cette section décrit le rôle des instances répliquées dans les opérations d'écriture et de lecture Spanner, ce qui est utile pour comprendre pourquoi Spanner utilise des instances répliquées témoins dans les configurations multirégionales.

Dans les opérations d'écriture

Les requêtes d'écriture des clients sont toujours traitées en premier sur l'instance répliquée principale, même s'il existe une instance répliquée non principale plus proche du client ou si celle-ci est géographiquement éloignée du client. Si vous utilisez une configuration d'instance multirégionale et que votre application cliente est située dans une région non principale, Spanner utilise un routage compatible avec la région principale pour acheminer les transactions en lecture/écriture de manière dynamique afin de réduire la latence dans votre base de données. Pour en savoir plus, consultez la section Routage avec responsable.

L'instance dupliquée principale enregistre l'écriture entrante et la transmet, en parallèle, aux autres instances dupliquées ayant la capacité de voter sur cette écriture. Chaque instance dupliquée éligible effectue son écriture, puis répond à l'instance dupliquée principale en indiquant si elle vote pour ou contre la validation de l'écriture. L'écriture est validée lorsque la majorité des instances dupliquées ayant la capacité de voter (ou "quorum d'écriture") acceptent de valider l'écriture. En arrière-plan, toutes les instances dupliquées restantes (non témoins) enregistrent l'écriture. Si une instance dupliquée en lecture/écriture ou en lecture seule accuse un retard dans l'enregistrement des écritures, elle peut se procurer les données manquantes auprès d'une autre instance dupliquée afin de disposer d'une copie complète et à jour des données.

Dans les opérations de lecture

Les requêtes de lecture des clients peuvent être exécutées sur l'instance dupliquée principale ou nécessiter une communication avec celle-ci, selon le mode de simultanéité spécifié dans la requête de lecture.

Les lectures qui font partie d'une transaction en lecture/écriture sont diffusées à partir de l'instance dupliquée principale, car c'est cette dernière qui conserve les verrous nécessaires pour appliquer la sérialisabilité.
Les méthodes de lecture unique (effectuée en dehors du contexte d'une transaction) et les lectures effectuées dans le cadre d'une transaction en lecture seule peuvent nécessiter une communication avec l'instance dupliquée principale, selon le mode de simultanéité spécifié pour la lecture. (Pour en savoir plus sur les modes de simultanéité, consultez la section Types de lectures.)
- Les requêtes de lecture forte peuvent être présentées à n'importe quelle instance dupliquée en lecture/écriture ou en lecture seule. Si la requête est transmise à une instance dupliquée non principale, cette dernière doit communiquer avec l'instance dupliquée principale pour effectuer la lecture.
- Les requêtes de lecture obsolètes sont dirigées vers l'instance répliquée disponible en lecture seule ou en lecture/écriture la plus proche, qui correspond à l'horodatage de la requête. Il peut s'agir de l'instance répliquée principale si elle est l'instance répliquée la plus proche du client qui a émis la requête de lecture.

Annexe : Pourquoi des instances dupliquées en lecture seule et des instances dupliquées témoins ?

Les configurations multirégionales de base combinent des instances répliquées en lecture/écriture, en lecture seule et témoins, tandis que les configurations régionales de base n'utilisent que des instances répliquées en lecture/écriture. Cette différence s'explique par les rôles différents des instances répliquées dans les opérations d'écriture et de lecture. Pour les écritures, Spanner a besoin qu'une majorité d'instances répliquées participant au vote s'accordent sur un commit afin de valider une mutation. En d'autres termes, chaque écriture dans une base de données Spanner nécessite une communication entre les instances répliquées qui votent. Afin de minimiser la latence engendrée par cette communication, il est souhaitable d'utiliser le plus petit nombre possible d'instances dupliquées appelées à voter, et de placer celles-ci le plus près possible les unes des autres. C'est pourquoi les configurations régionales de base contiennent exactement trois instances répliquées en lecture/écriture, chacune dans sa propre zone de disponibilité, contenant une copie complète de vos données et pouvant voter. Si une instance répliquée échoue, les deux autres peuvent toujours former un quorum d'écriture. Étant donné que les instances répliquées de cette configuration se trouvent dans la même région géographique, les latences réseau sont minimes.

Les configurations multirégionales de base contiennent par conception davantage d'instances répliquées, et celles-ci se trouvent dans des centres de données différents (afin que les clients puissent lire rapidement leurs données à partir d'un plus grand nombre d'emplacements). Quelles seraient les caractéristiques optimales pour ces instances dupliquées supplémentaires ? Une première possibilité serait d'utiliser exclusivement des instances dupliquées en lecture/écriture, mais cela n'est pas souhaitable, car l'ajout d'instances dupliquées en lecture/écriture à une configuration augmente le quorum d'écriture (d'où une augmentation potentielle des latences réseau due au nombre accru d'instances dupliquées communiquant entre elles, surtout si ces dernières sont réparties dans différentes zones géographiques). Cette approche augmenterait également la quantité de stockage requise (dans la mesure où chaque instance dupliquée en lecture/écriture contient une copie complète des données). Au lieu d'utiliser davantage d'instances répliquées en lecture/écriture, les configurations multirégionales de base contiennent deux types supplémentaires d'instances dupliquées qui ont moins de responsabilités que les instances répliquées en lecture/écriture.

Les instances répliquées en lecture seule ne votent pas pour élire les instances dupliquées principales ni pour valider les écritures. Elles vous permettent donc de faire évoluer votre capacité de lecture sans augmenter le quorum nécessaire pour les écritures.
Les instances répliquées témoins votent pour élire les instances dupliquées principales et pour valider les écritures, mais elles ne stockent pas de copie complète des données, elles ne peuvent pas devenir les instances dupliquées principales et ne peuvent pas diffuser de lectures. Elles facilitent ainsi l'obtention de quorums d'écriture sans mobiliser les ressources de stockage et de calcul dont des instances dupliquées en lecture/écriture auraient besoin pour stocker une copie complète des données et diffuser des lectures.