Cette page a été traduite par l'API Cloud Translation.

Bonnes pratiques liées à la conception de schémas

L'architecture distribuée de Spanner vous permet de concevoir votre schéma de manière à éviter les hotspots : des situations où trop de requêtes sont envoyées au même serveur, ce qui sature les ressources du serveur et peut entraîner des latences élevées.

Cette page décrit les bonnes pratiques relatives à la conception de vos schémas afin d'éviter les hotspots. Pour éviter les hotspots, vous pouvez ajuster la conception du schéma afin de permettre à Spanner de fractionner et de distribuer les données sur plusieurs serveurs. La distribution des données sur plusieurs serveurs permet à votre base de données Spanner de fonctionner efficacement, en particulier lors de l'insertion groupée de données.

Choisissez une clé primaire en évitant de créer des hotspots.

Comme indiqué dans la section Schéma et modèle de données, vous devez faire attention lorsque vous choisissez une clé primaire dans la conception du schéma afin de ne pas créer de hotspots par inadvertance dans votre base de données. Les points d'accès peuvent être engendrés par une colonne dont la valeur change de façon monotone en tant que premier élément de clé, car dans ce cas, toutes les insertions se produisent à la fin de votre espace clé. Ce phénomène n'est pas souhaitable, car Spanner utilise des plages de clés pour répartir les données entre les serveurs. Cela signifie que toutes vos insertions sont dirigées vers un seul serveur qui finit par faire tout le travail.

Par exemple, supposons que vous souhaitiez conserver une colonne d'horodatage du dernier accès sur des lignes de la table UserAccessLogs. La définition de table suivante utilise une clé primaire basée sur un horodatage comme premier élément de clé. Nous ne recommandons pas cette approche si le taux d'insertion dans la table est élevé :

GoogleSQL

CREATE TABLE UserAccessLogs (
  LastAccess TIMESTAMP NOT NULL,
  UserId STRING(1024),
  ...
) PRIMARY KEY (LastAccess, UserId);

PostgreSQL

CREATE TABLE useraccesslogs (
  lastaccess timestamptz NOT NULL,
  userid text,
  ...
PRIMARY KEY (lastaccess, userid)
);

Le problème est le suivant : les lignes sont écrites dans cette table dans l'ordre d'horodatage de dernier accès, et comme les horodatages de dernier accès ne cessent d'augmenter, ils sont toujours écrits à la fin de la table. La création du point d'accès est due au fait qu'un seul serveur Spanner reçoit toutes les écritures, ce qui le surcharge.

Le schéma ci-dessous illustre ce problème :

Table UserAccessLog classée par horodatage avec le hotspot correspondant

La table UserAccessLogs précédente comprend cinq exemples de lignes de données, qui représentent cinq utilisateurs différents effectuant une action d'utilisateur quelconque à environ une milliseconde d'intervalle. Le schéma indique également l'ordre d'insertion des lignes par Spanner (les flèches étiquetées indiquent l'ordre des écritures pour chaque ligne). Les insertions étant classées par horodatage et la valeur de l'horodatage ne cessant d'augmenter, Spanner ajoute toujours les insertions à la fin de la table et les dirige vers la même division. (Comme indiqué dans la section Schéma et modèle de données, une division est un ensemble de lignes provenant d'une ou de plusieurs tables liées que Spanner stocke par ordre de clé de ligne.)

Cela pose problème, car Spanner attribue des tâches à différents serveurs sous forme d'unités de divisions. Le serveur affecté à cette division finit par gérer toutes les requêtes d'insertion. À mesure que la fréquence des événements d'accès utilisateur augmente, la fréquence des requêtes d'insertion adressées au serveur correspondant augmente aussi. Le serveur risque alors de se transformer en hotspot et ressemble à l'encadré rouge de l'image précédente. Dans cette illustration simplifiée, chaque serveur traite une division au maximum, mais Spanner peut attribuer plusieurs divisions à chaque serveur.

Lorsque Spanner ajoute des lignes à la table, la division augmente, puis de nouvelles divisions sont créées si nécessaire. Pour en savoir plus sur la création de fractionnements, consultez Fractionnement basé sur la charge. Spanner ajoute les nouvelles lignes suivantes à cette nouvelle division, et le serveur qui lui est attribué devient le nouveau hotspot potentiel.

En présence de hotspots, vous remarquerez peut-être que les insertions prennent du temps et que d'autres tâches sur le même serveur ralentissent. La modification de l'ordre de la colonne LastAccess par ordre croissant ne résout pas ce problème, car toutes les écritures sont insérées en haut de la table, et toutes les insertions sont donc envoyées à un seul serveur.

Bonne pratique de conception de schéma n° 1 : Ne choisissez pas une colonne dont la valeur augmente ou diminue de façon linéaire en tant que premier élément clé d'une table à taux d'écriture élevé.

Utiliser un identifiant unique universel (UUID)

Vous pouvez utiliser un identifiant unique universel (UUID) défini par la RFC 4122 en tant que clé primaire. Nous vous recommandons d'utiliser la version 4 de l'UUID, car elle utilise des valeurs aléatoires dans la séquence de bits. Nous ne recommandons pas les UUID de version 1, car ils stockent l'horodatage dans les bits de poids fort.

Il existe plusieurs façons de stocker l'UUID en tant que clé primaire :

Dans une colonne STRING(36)
Dans une paire de colonnes INT64
Dans une colonne BYTES(16)

Pour une colonne STRING(36), vous pouvez utiliser la fonction Spanner GENERATE_UUID() (GoogleSQL ou PostgreSQL) comme valeur par défaut de la colonne pour que Spanner génère automatiquement des valeurs UUID.

Par exemple, pour le tableau suivant :

GoogleSQL

CREATE TABLE UserAccessLogs (
  LogEntryId STRING(36) NOT NULL,
  LastAccess TIMESTAMP NOT NULL,
  UserId STRING(1024),
  ...
) PRIMARY KEY (LogEntryId, LastAccess, UserId);

PostgreSQL

CREATE TABLE useraccesslogs (
  logentryid VARCHAR(36) NOT NULL,
  lastaccess timestamptz NOT NULL,
  userid text,
  ...
PRIMARY KEY (lastaccess, userid)
);

Vous pouvez insérer GENERATE_UUID() pour générer les valeurs LogEntryId. GENERATE_UUID() génère une valeur STRING. La colonne LogEntryId doit donc utiliser le type STRING pour GoogleSQL ou le type text pour PostgreSQL.

GoogleSQL

INSERT INTO
  UserAccessLogs (LogEntryId, LastAccess, UserId)
VALUES
  (GENERATE_UUID(), '2016-01-25 10:10:10.555555-05:00', 'TomSmith');

PostgreSQL

INSERT INTO
  useraccesslogs (logentryid, lastaccess, userid)
VALUES
  (spanner.generate_uuid(),'2016-01-25 10:10:10.555555-05:00', 'TomSmith');

L'utilisation d'UUID présente néanmoins quelques inconvénients :

Ils sont plutôt volumineux et utilisent 16 octets, voire plus. Les autres options de clés primaires ne consomment pas autant d'espace de stockage.
Ils n'indiquent aucune information sur l'enregistrement. Par exemple, contrairement à l'UUID, la clé primaire de SingerId et AlbumId revêt une signification inhérente.
Vous perdez les données de localité des enregistrements liés. C'est la raison pour laquelle l'utilisation d'un UUID élimine les hotspots.

Inverser les bits des valeurs séquentielles

Vous devez vous assurer que les clés primaires numériques (INT64 dans GoogleSQL ou bigint dans PostgreSQL) n'augmentent ni ne diminuent de manière séquentielle. Les clés primaires séquentielles peuvent entraîner des hotspots à grande échelle. Pour éviter ce problème, vous pouvez inverser les bits des valeurs séquentielles, en veillant à répartir les valeurs de clé primaire de manière uniforme dans l'espace de clés.

Spanner est compatible avec les séquences par bit inversé, qui génèrent des valeurs entières uniques par bit inversé. Vous pouvez utiliser une séquence dans le premier (ou le seul) composant d'une clé primaire pour éviter les problèmes de points chauds. Pour en savoir plus, consultez Séquence inversée par bits.

Permuter l'ordre des clés

Une manière de répartir les écritures sur l'espace clé de manière plus uniforme consiste à permuter l'ordre des clés de sorte que la colonne contenant la valeur monotone ne constitue pas le premier élément de clé :

GoogleSQL

CREATE TABLE UserAccessLogs (
UserId     INT64 NOT NULL,
LastAccess TIMESTAMP NOT NULL,
...
) PRIMARY KEY (UserId, LastAccess);

PostgreSQL

CREATE TABLE useraccesslogs (
userid bigint NOT NULL,
lastaccess TIMESTAMPTZ NOT NULL,
...
PRIMARY KEY (UserId, LastAccess)
);

Dans ce schéma modifié, les insertions sont désormais triées en priorité par UserId, plutôt que par horodatage de dernier accès chronologique. Ce schéma répartit les écritures entre différentes divisions, car il est peu probable qu'un seul utilisateur produise des milliers d'événements par seconde.

L'image suivante montre les cinq lignes de la table UserAccessLogs que Spanner classe par UserId plutôt que par horodatage d'accès :

Table UserAccessLogs classée par ID d'utilisateur avec un débit d'écriture équilibré

Ici, Spanner peut diviser les données UserAccessLogs en trois partitions, chacune contenant environ un millier de lignes de valeurs UserId ordonnées. Même si les événements utilisateur se sont produits à environ une milliseconde d'intervalle, chaque événement a été déclenché par un utilisateur différent. Par conséquent, l'ordre des insertions est beaucoup moins susceptible de créer un hotspot que l'ordre des horodatages. Pour en savoir plus sur la création de divisions, consultez Répartition basée sur la charge.

Consultez également les bonnes pratiques associées au classement des clés par horodatage.

Hacher la clé unique et répartir les écritures sur des segments logiques

Une autre technique courante de répartition de la charge sur plusieurs serveurs consiste à créer une colonne contenant le hachage de la clé unique réelle, puis à utiliser la colonne de hachage (ou la colonne de hachage et les colonnes de clé unique) comme clé primaire. Ce procédé permet d'éviter la création de hotspots, car les nouvelles lignes sont réparties sur l'espace clé de manière plus uniforme.

La valeur de hachage peut vous permettre de créer des segments logiques, ou partitions, dans votre base de données. Dans une base de données physiquement segmentée, les lignes sont réparties sur plusieurs serveurs de base de données. Dans une base de données segmentée de manière logique, les données de la table définissent les segments. Par exemple, pour répartir les écritures dans la table UserAccessLogs sur N segments logiques, vous pouvez ajouter une colonne de clé ShardId en début de table :

GoogleSQL

CREATE TABLE UserAccessLogs (
ShardId     INT64 NOT NULL,
LastAccess  TIMESTAMP NOT NULL,
UserId      INT64 NOT NULL,
...
) PRIMARY KEY (ShardId, LastAccess, UserId);

PostgreSQL

CREATE TABLE useraccesslogs (
shardid bigint NOT NULL,
lastaccess TIMESTAMPTZ NOT NULL,
userid bigint NOT NULL,
...
PRIMARY KEY (shardid, lastaccess, userid)
);

Pour calculer la valeur ShardId, hachez une combinaison des colonnes de clé primaire, puis calculez le modulo N du hachage. Exemple :

GoogleSQL

ShardId = hash(LastAccess and UserId) % N

La fonction de hachage et la combinaison de colonnes que vous choisissez déterminent la répartition de vos lignes dans l'espace de clés. Spanner crée ensuite des divisions de lignes pour optimiser les performances.

Le schéma suivant montre comment l'utilisation d'un hachage pour créer trois segments logiques permet de répartir le débit d'écriture de manière plus uniforme entre les serveurs :

Table UserAccessLogs triée par ShardId avec débit d'écriture équilibré

Ici, la table UserAccessLogs est classée par ShardId, cette valeur étant calculée comme une fonction de hachage des colonnes de clé. Les cinq lignes UserAccessLogs sont divisées en trois segments logiques, chacun d'entre eux appartenant à une division différente. Les insertions sont réparties uniformément entre les divisions, ce qui équilibre le débit d'écriture entre les trois serveurs qui gèrent les divisions.

Spanner vous permet également de créer une fonction de hachage dans une colonne générée.

Pour ce faire dans GoogleSQL, utilisez la fonction FARM_FINGERPRINT au moment de l'écriture, comme indiqué dans l'exemple suivant :

GoogleSQL

CREATE TABLE UserAccessLogs (
ShardId INT64 NOT NULL
AS (MOD(FARM_FINGERPRINT(CAST(LastAccess AS STRING)), 2048)) STORED,
LastAccess TIMESTAMP NOT NULL,
UserId    INT64 NOT NULL,
) PRIMARY KEY (ShardId, LastAccess, UserId);

La fonction de hachage que vous choisissez déterminera la qualité de la répartition de vos insertions sur la plage de clés. Bien qu'un hachage de chiffrement ne soit pas nécessaire, il peut s'avérer utile. Lorsque vous choisissez une fonction de hachage, vous devez prendre en compte les facteurs suivants :

Éviter les points d'accès. Une fonction qui génère davantage de valeurs de hachage a tendance à réduire les hotspots.
Efficacité de la lecture. Moins il y a de valeurs de hachage à analyser, plus les lectures de l'ensemble des valeurs de hachage sont rapides.
Nombre de nœuds.

Utiliser l'ordre décroissant pour les clés basées sur l'horodatage

Si vous disposez d'une table pour l'historique qui utilise le code temporel comme clé, envisagez de classer la colonne de clé par ordre décroissant si l'un des scénarios suivants s'applique à votre situation :

Vous souhaitez lire l'historique le plus récent, vous utilisez une table entrelacée pour l'historique et vous lisez la ligne parente : Dans ce cas, une colonne d'horodatage DESC permet de stocker les dernières entrées d'historique à côté de la ligne parente. Sinon, la lecture de la ligne parente et de son historique récent nécessitera une recherche intermédiaire afin d'ignorer l'historique plus ancien.
Vous lisez des entrées séquentielles dans l'ordre chronologique inverse et ne savez pas exactement combien d'entrées vous devez parcourir : vous pouvez par exemple exécuter une requête SQL avec une valeur LIMIT pour obtenir les N événements les plus récents, ou planifier l'annulation de la lecture une fois que vous avez lu un certain nombre de lignes. Dans les deux cas, vous souhaiterez commencer par les entrées les plus récentes et lire séquentiellement les plus anciennes jusqu'à ce que votre condition soit remplie. Spanner s'avère plus efficace pour cette tâche lorsqu'il exploite des clés d'horodatage stockées dans l'ordre décroissant.

Ajoutez le mot clé DESC pour classer les clés d'horodatage dans l'ordre décroissant. Exemple :

GoogleSQL

CREATE TABLE UserAccessLogs (
UserId     INT64 NOT NULL,
LastAccess TIMESTAMP NOT NULL,
...
) PRIMARY KEY (UserId, LastAccess DESC);

Bonne pratique de conception de schéma n° 2 : L'ordre décroissant ou croissant dépend des requêtes des utilisateurs (par exemple, les plus récents en haut ou les plus anciens en haut).

Quand utiliser un index entrelacé

Comme pour l'exemple de clé primaire à éviter, il est également déconseillé de créer des index non entrelacés sur des colonnes dont les valeurs augmentent ou diminuent de manière monotone, même s'il ne s'agit pas de colonnes de clé primaire.

Par exemple, imaginons que vous définissiez la table suivante, dans laquelle LastAccess correspond à une colonne de clé non primaire :

GoogleSQL

CREATE TABLE Users (
UserId     INT64 NOT NULL,
LastAccess TIMESTAMP,
...
) PRIMARY KEY (UserId);

PostgreSQL

CREATE TABLE Users (
userid     bigint NOT NULL,
lastaccess TIMESTAMPTZ,
...
PRIMARY KEY (userid)
);

Cela peut paraître utile de définir un index sur la colonne LastAccess pour interroger rapidement la base de données sur les accès d'utilisateur "depuis la période X", comme ceci :

GoogleSQL

CREATE NULL_FILTERED INDEX UsersByLastAccess ON Users(LastAccess);

PostgreSQL

CREATE INDEX usersbylastaccess ON users(lastaccess)
WHERE lastaccess IS NOT NULL;

Cette action aboutit néanmoins au même problème que celui décrit dans la bonne pratique précédente, car Spanner implémente les index sous forme de tables en arrière-plan, et la table d'index qui en résulte utilise une colonne dont la valeur augmente de façon linéaire en tant que premier élément de clé.

Vous pouvez créer un index entrelacé où les lignes du dernier accès sont entrelacées sous la ligne utilisateur correspondante. En effet, il est peu probable qu'une ligne parente unique génère des milliers d'événements par seconde.

GoogleSQL

CREATE NULL_FILTERED INDEX UsersByLastAccess
ON Users(UserId, LastAccess),
INTERLEAVE IN Users;

PostgreSQL

CREATE INDEX usersbylastaccess ON users(userid, lastaccess)
WHERE lastaccess IS NOT NULL,
INTERLEAVE IN Users;

Bonne pratique de conception de schéma n° 3 : Ne créez pas d'index non entrelacé sur une colonne à taux d'écriture élevé dont la valeur augmente ou diminue de façon linéaire. Utilisez un index entrelacé ou des techniques semblables à celles que vous utiliseriez pour la conception de la clé primaire de la table de base lorsque vous concevez des colonnes d'index (par exemple, ajoutez "shardId").

Étapes suivantes

Consultez des exemples de conception de schémas.
Découvrez le chargement groupé de données.