Métriques de surveillance acceptées

Cette page répertorie les métriques Cloud Monitoring disponibles pour Memorystore pour Valkey et décrit ce que chacune mesure.

Métriques Cloud Monitoring

Nom de la métrique Description
memorystore.googleapis.com/instance/clients/average_connected_clients Nombre moyen actuel de connexions client sur tous les nœuds de l'instance.
memorystore.googleapis.com/instance/clients/maximum_connected_clients Nombre maximal actuel de connexions client pour un seul nœud de l'instance.
memorystore.googleapis.com/instance/clients/maximum_connection_duration Durée maximale d'une connexion client pour un seul nœud de l'instance.
memorystore.googleapis.com/instance/clients/total_connected_clients Nombre actuel de connexions client à l'instance.
memorystore.googleapis.com/instance/stats/total_connections_received_count Nombre total de connexions client au niveau de l'instance créées au cours de la dernière minute.
memorystore.googleapis.com/instance/stats/total_rejected_connections_count Nombre de connexions refusées en raison de la limite maxclients.
memorystore.googleapis.com/instance/commandstats/total_usec_count Temps total consommé par commande.
memorystore.googleapis.com/instance/commandstats/total_calls_count Nombre total d'appels de cette commande en une minute.
memorystore.googleapis.com/instance/cpu/average_utilization Utilisation moyenne du processeur sur tous les nœuds de l'instance, comprise entre 0,0 et 1,0.
memorystore.googleapis.com/instance/cpu/maximum_utilization Utilisation maximale du processeur pour un seul nœud de l'instance de 0,0 à 1,0.
memorystore.googleapis.com/instance/stats/average_expired_keys Nombre moyen d'événements d'expiration de clé pour les nœuds principaux de l'instance.
memorystore.googleapis.com/instance/stats/maximum_expired_keys Nombre maximal d'événements d'expiration de clé pour un seul nœud de l'instance pour le nœud principal.
memorystore.googleapis.com/instance/stats/total_expired_keys_count Nombre total d'événements d'expiration de clé sur les principals de tous les nœuds de l'instance.
memorystore.googleapis.com/instance/stats/average_evicted_keys Nombre moyen de clés évincées en raison de la capacité de mémoire sur les principals de tous les nœuds de l'instance.
memorystore.googleapis.com/instance/stats/maximum_evicted_keys Nombre maximal de clés évincées pour un seul nœud de l'instance en raison de la capacité de mémoire de la principale.
memorystore.googleapis.com/instance/stats/total_evicted_keys_count Nombre de clés évincées en raison de la capacité de mémoire sur les principals de tous les nœuds de l'instance.
memorystore.googleapis.com/instance/keyspace/total_keys Nombre de clés stockées dans l'instance.
memorystore.googleapis.com/instance/stats/average_keyspace_hits Nombre moyen de recherches réussies de clés sur tous les nœuds de l'instance.
memorystore.googleapis.com/instance/stats/maximum_keyspace_hits Nombre maximal de recherches de clés réussies pour un seul nœud de l'instance.
memorystore.googleapis.com/instance/stats/total_keyspace_hits_count Nombre de clés ayant abouti pour l'instance.
memorystore.googleapis.com/instance/stats/average_keyspace_misses Nombre moyen de recherches de clés ayant échoué sur tous les nœuds de l'instance.
memorystore.googleapis.com/instance/stats/maximum_keyspace_misses Nombre maximal de recherches de clés ayant échoué pour un seul nœud de l'instance.
memorystore.googleapis.com/instance/stats/total_keyspace_misses_count Nombre total de recherches de clés ayant échoué pour l'instance.
memorystore.googleapis.com/instance/memory/average_utilization Utilisation moyenne de la mémoire sur tous les nœuds de l'instance. La valeur est comprise entre 0,0 et 1,0.
memorystore.googleapis.com/instance/memory/maximum_utilization Utilisation maximale de la mémoire pour un seul nœud de l'instance de 0,0 à 1,0.
memorystore.googleapis.com/instance/memory/total_used_memory Utilisation totale de la mémoire de l'instance.
memorystore.googleapis.com/instance/memory/size Taille de la mémoire de l'instance.
memorystore.googleapis.com/instance/replication/average_ack_lag Délai de réplication moyen (en secondes) des réplicas sur tous les nœuds de l'instance.

Le délai de réplication (en secondes) indique le retard des réplicas par rapport aux instances principales.
memorystore.googleapis.com/instance/replication/maximum_ack_lag Délai de confirmation de réplication maximal (en secondes) pour un seul réplica dans l'instance.

Le délai de confirmation de réplication (en secondes) indique dans quelle mesure les confirmations de réplication sont en retard par rapport aux instances principales.
memorystore.googleapis.com/instance/replication/average_offset_diff La différence de décalage de confirmation de la réplication moyenne (en octets) sur tous les nœuds de l'instance.

La différence de décalage de confirmation de la réplication correspond au nombre d'octets qui n'ont pas été répliqués entre les instances répliquées et leurs instances principales.
memorystore.googleapis.com/instance/replication/maximum_offset_diff Différence de décalage de réplication maximale (en octets) pour un seul nœud de l'instance.

La différence de décalage de réplication correspond au nombre d'octets qui n'ont pas été répliqués entre une instance dupliquée et ses instances principales.
memorystore.googleapis.com/instance/stats/total_net_input_bytes_count Nombre d'octets réseau entrants reçus par les points de terminaison de l'instance.
memorystore.googleapis.com/instance/stats/total_net_output_bytes_count Nombre d'octets réseau sortants envoyés depuis les points de terminaison de l'instance.

Métriques de persistance

Cette section liste les métriques de persistance et fournit des exemples de cas d'utilisation pour ces métriques.

Métriques de persistance RDB

Nom de la métrique Description
memorystore.googleapis.com/instance/persistence/load_count Nombre cumulé de chargements depuis le fichier de dump sur l'instance (AOF ou RDB).
memorystore.googleapis.com/instance/persistence/rdb_saves_count Cette métrique indique le nombre cumulé de fois où votre instance a effectué un instantané RDB (également appelé enregistrement). Cette métrique comporte un champ status_code. Pour vérifier si un instantané a échoué, vous pouvez filtrer le champ status_code en fonction de l'erreur suivante: 3 - INTERNAL_ERROR
memorystore.googleapis.com/instance/persistence/rdb_last_success_ages Cette métrique indique l'âge d'un instantané de distribution pour tous les nœuds de l'instance. Idéalement, vous souhaitez que la distribution présente des valeurs avec un temps de latence inférieur (ou égal) à la fréquence d'instantané.
memorystore.googleapis.com/instance/persistence/rejected_writes_count Nombre cumulé de commandes d'écriture refusées dans l'instance en raison de l'échec de la persistance.

Métriques de persistance AOF

Nom de la métrique Description
memorystore.googleapis.com/instance/persistence/aof_fsync_lags Cette métrique indique la répartition du délai (de l'écriture de données à la synchronisation avec stockage durable) pour tous les nœuds de l'instance. Il n'est émis que pour les instances avec "appendfsync="toutes les secondes". Dans l'idéal, la distribution doit comporter des valeurs dont le temps de latence (ou le même temps) est inférieur à la fréquence de synchronisation AOF.
memorystore.googleapis.com/instance/persistence/aof_rewrite_count Cette métrique indique le nombre cumulé de fois où un nœud a déclenché une réécriture AOF pour votre instance. Cette métrique comporte un champ status_code. Pour vérifier si les réécritures AOF échouent, vous pouvez filtrer le champ status_code en fonction de l'erreur suivante: 3 - INTERNAL_ERROR

Exemples de cas d'utilisation des métriques de persistance

Vérifier si les opérations d'écriture AOF entraînent une latence et une pression sur la mémoire

Supposons que vous détectez une latence ou une utilisation accrue de la mémoire sur votre instance. Dans ce cas, vous pouvez vérifier si l'utilisation supplémentaire est liée à la persistance AOF.

Comme vous savez que les opérations de réécriture AOF peuvent déclencher des pics de charge temporaires, vous pouvez inspecter la métrique aof_rewrites_count qui vous indique le nombre cumulé de réécritures AOF tout au long de la durée de vie de l'instance. Supposons que cette métrique vous indique que les augmentations du nombre de réécritures correspondent à une augmentation de la latence. Dans ce cas, vous pouvez résoudre le problème en réduisant le taux d'écriture ou en augmentant le nombre de segments pour réduire la fréquence des réécritures.

Vérifier si les opérations d'enregistrement RDB entraînent de la latence et une pression sur la mémoire

Supposons que vous détectez une latence ou une utilisation accrue de la mémoire sur votre instance. Dans ce cas, vous pouvez vérifier si l'utilisation supplémentaire est liée à la persistance RDB.

Comme vous savez que les opérations d'enregistrement RDB peuvent déclencher des pics de charge temporaires, vous pouvez inspecter la métrique rdb_saves_count, qui indique le nombre cumulé d'enregistrements RDB au cours de la durée de vie de l'instance. Supposons que cette métrique vous indique que les incréments du nombre d'enregistrements RDB correspondent à une augmentation de la latence. Dans ce cas, vous pouvez réduire l'intervalle d'instantanés de la base de données relationnelle pour réduire la fréquence des réécritures. Vous pouvez également effectuer un scaling horizontal de l'instance pour réduire les niveaux de charge de référence.

Interpréter les métriques de Memorystore pour Valkey

Comme indiqué dans la liste ci-dessus, de nombreuses métriques partagent trois catégories : moyenne, maximale et totale.

Pour Memorystore pour Valkey, nous fournissons des variations moyennes et maximales de la même métrique afin que vous puissiez les utiliser toutes les deux pour identifier les hotspotting pour chaque catégorie de statistiques.

La valeur totale de la métrique est indépendante et fournit des insights distincts. sans lien avec l'objectif de hotspotting des valeurs moyenne et maximale.

Comprendre les métriques moyenne et maximale

Supposons que vous compariez les valeurs average_keyspace_hits et maximum_keyspace_hits de votre instance. À mesure que l'écart entre les deux métriques s'accroît, une différence plus élevée indique un plus grand nombre de points chauds d'appels dans votre instance. Idéalement, vous devriez obtenir une valeur proche de average_keyspace_hits ou maximum_keyspace_hits, car cela signifie que les requêtes sont réparties plus uniformément dans votre instance.

Ce principe s'applique à toutes les métriques dont les valeurs moyenne et maximale variantes d'une même métrique.

Exemple de zone cliquable

Si vous comparez average_keyspace_hits et maximum_keyspace_hits pour l'ensemble de segments de votre instance, la comparaison de ces valeurs indique l'endroit où le hotspotting se produit. Par exemple, supposons que les segments d'une instance à six segments aient les éléments suivants : nombre d'appels:

  • Segments 1 à 2 succès
  • Segment 2 : 2 hits
  • Segment 3 : 2 hits
  • Segment 4 : 2 hits
  • Segment 5 – 2 succès
  • Partition 6 : 8 hits

Dans cet exemple, average_keyspace_hits renvoie une valeur de 3 et maximum_keyspace_hits renvoie 8, ce qui indique que le fragment 6 est chaud.