Métricas de supervisión admitidas

En esta página, se enumeran las métricas de Cloud Monitoring disponibles para Memorystore para Valkey y se describe lo que mide cada métrica.

Métricas de Cloud Monitoring

Nombre de la métrica Descripción
memorystore.googleapis.com/instance/clients/average_connected_clients Es la cantidad actual promedio de conexiones de cliente en todos los nodos de la instancia.
memorystore.googleapis.com/instance/clients/maximum_connected_clients Es la cantidad máxima actual de conexiones de cliente para un solo nodo en la instancia.
memorystore.googleapis.com/instance/clients/maximum_connection_duration Es la duración máxima de una conexión de cliente para un solo nodo en la instancia.
memorystore.googleapis.com/instance/clients/total_connected_clients Es la cantidad actual de conexiones de cliente a la instancia.
memorystore.googleapis.com/instance/stats/total_connections_received_count Es el recuento de las conexiones de cliente totales a nivel de la instancia creadas en el último minuto.
memorystore.googleapis.com/instance/stats/total_rejected_connections_count Cantidad de conexiones rechazadas debido al límite de maxclients.
memorystore.googleapis.com/instance/commandstats/total_usec_count Es el tiempo total consumido por comando.
memorystore.googleapis.com/instance/commandstats/total_calls_count Cantidad total de llamadas para este comando en un minuto.
memorystore.googleapis.com/instance/cpu/average_utilization Es el uso medio de CPU en todos los nodos de la instancia, de 0.0 a 1.0.
memorystore.googleapis.com/instance/cpu/maximum_utilization Es el uso máximo de CPU de un solo nodo en la instancia, de 0.0 a 1.0.
memorystore.googleapis.com/instance/stats/average_expired_keys Es la cantidad promedio de eventos de vencimiento de claves para los principales de todos los nodos de la instancia.
memorystore.googleapis.com/instance/stats/maximum_expired_keys Es la cantidad máxima de eventos de vencimiento de claves para un solo nodo en la instancia del principal.
memorystore.googleapis.com/instance/stats/total_expired_keys_count Cantidad total de eventos de vencimiento de claves en los principales de todos los nodos de la instancia.
memorystore.googleapis.com/instance/stats/average_evicted_keys Es la cantidad promedio de claves expulsadas debido a la capacidad de memoria en los principales de todos los nodos de la instancia.
memorystore.googleapis.com/instance/stats/maximum_evicted_keys Es la cantidad máxima de claves expulsadas para un solo nodo en la instancia debido a la capacidad de memoria para el principal.
memorystore.googleapis.com/instance/stats/total_evicted_keys_count Cantidad de claves expulsadas debido a la capacidad de memoria en los principales de todos los nodos de la instancia.
memorystore.googleapis.com/instance/keyspace/total_keys Cantidad de claves almacenadas en la instancia.
memorystore.googleapis.com/instance/stats/average_keyspace_hits Es la cantidad promedio de búsquedas de claves correctas en todos los nodos de la instancia.
memorystore.googleapis.com/instance/stats/maximum_keyspace_hits Es la cantidad máxima de búsquedas de claves correctas para un solo nodo en la instancia.
memorystore.googleapis.com/instance/stats/total_keyspace_hits_count Cantidad de búsquedas correctas de claves para la instancia.
memorystore.googleapis.com/instance/stats/average_keyspace_misses Es la cantidad promedio de búsquedas de claves fallidas en todos los nodos de la instancia.
memorystore.googleapis.com/instance/stats/maximum_keyspace_misses Es la cantidad máxima de búsquedas de claves con errores para un solo nodo en la instancia.
memorystore.googleapis.com/instance/stats/total_keyspace_misses_count Cantidad total de búsquedas de claves fallidas para la instancia.
memorystore.googleapis.com/instance/memory/average_utilization Es el uso medio de la memoria en todos los nodos de la instancia. El valor está entre 0.0 y 1.0.
memorystore.googleapis.com/instance/memory/maximum_utilization Es el uso máximo de memoria de un solo nodo en la instancia, de 0.0 a 1.0.
memorystore.googleapis.com/instance/memory/total_used_memory Es el uso total de memoria de la instancia.
memorystore.googleapis.com/instance/memory/size Es el tamaño de la memoria de la instancia.
memorystore.googleapis.com/instance/replication/average_ack_lag Es el retraso de replicación promedio (en segundos) de las réplicas en todos los nodos de la instancia.

El retraso de replicación (en segundos) indica qué tan lejos están las réplicas de las instancias principales.
memorystore.googleapis.com/instance/replication/maximum_ack_lag Es el retraso máximo de confirmación de replicación (en segundos) para una sola réplica en la instancia.

El retraso de confirmación de replicación (en segundos) indica qué tan lejos están los acuse de recibos de replicación de las instancias principales.
memorystore.googleapis.com/instance/replication/average_offset_diff Es la diferencia promedio de la compensación de acuse de recibo de replicación (en bytes) en todos los nodos de la instancia.

La diferencia de compensación de acuse de recibo de replicación indica la cantidad de bytes que no se replicaron entre las réplicas y sus principales.
memorystore.googleapis.com/instance/replication/maximum_offset_diff Es la diferencia máxima de compensación de replicación (en bytes) para un solo nodo en la instancia.

La diferencia de compensación de replicación indica la cantidad de bytes que no se replicaron entre una réplica y sus instancias principales.
memorystore.googleapis.com/instance/stats/total_net_input_bytes_count Es el recuento de bytes de red entrantes que reciben los extremos de la instancia.
memorystore.googleapis.com/instance/stats/total_net_output_bytes_count Es el recuento de bytes de red salientes que se envían desde los extremos de la instancia.

Métricas de persistencia

En esta sección, se enumeran las métricas de persistencia y se proporcionan casos de uso de muestra para las métricas de persistencia.

Métricas de persistencia de la RDB

Nombre de la métrica Descripción
memorystore.googleapis.com/instance/persistence/load_count Es el recuento acumulativo de cargas del archivo de volcado en toda la instancia (AOF o RDB).
memorystore.googleapis.com/instance/persistence/rdb_saves_count Esta métrica muestra la cantidad acumulada de veces que tu instancia tomó una instantánea de la RDB (también conocida como guardado). Esta métrica tiene un campo status_code. Para verificar si una instantánea falló, puedes filtrar el campo status_code en busca del siguiente error: 3 - INTERNAL_ERROR
memorystore.googleapis.com/instance/persistence/rdb_last_success_ages Esta métrica muestra la edad de un resumen de distribución para todos los nodos de la instancia. Lo ideal es que la distribución tenga valores con menos tiempo de retraso (o el mismo tiempo) que la frecuencia de instantáneas.
memorystore.googleapis.com/instance/persistence/rejected_writes_count Es el recuento acumulativo de los comandos de escritura denegados en la instancia debido a que no se pudieron conservar.

Métricas de persistencia de AOF

Nombre de la métrica Descripción
memorystore.googleapis.com/instance/persistence/aof_fsync_lags Esta métrica muestra una distribución del retraso (de la escritura de datos a la sincronización del almacenamiento duradero) para todos los nodos de la instancia. Solo se emite para instancias con appendfsync=everysec. Lo ideal es que la distribución tenga valores con menos tiempo de retraso (o el mismo tiempo) que la frecuencia de sincronización de AOF.
memorystore.googleapis.com/instance/persistence/aof_rewrite_count Esta métrica muestra la cantidad acumulada de veces que un nodo activó una reescritura de AOF en tu instancia. Esta métrica tiene un campo status_code. Para verificar si las reescrituras de AOF fallan, puedes filtrar el campo status_code en busca del siguiente error: 3 - INTERNAL_ERROR

Ejemplos de casos de uso para las métricas de persistencia

Cómo verificar si las operaciones de escritura de AOF causan latencia y presión en la memoria

Supongamos que detectas un aumento en la latencia o el uso de memoria de tu instancia. En este caso, te recomendamos que verifiques si el uso adicional está relacionado con la persistencia de AOF.

Como sabes que las operaciones de reescritura de AOF pueden activar picos de carga transitorios, puedes inspeccionar la métrica aof_rewrites_count, que te brinda el recuento acumulativo de las reescrituras de AOF durante el ciclo de vida de la instancia. Supongamos que esta métrica te muestra que los incrementos en el recuento de reescrituras corresponden a aumentos de latencia. En esta circunstancia, puedes reducir la tasa de escritura o aumentar el recuento de fragmentos para reducir la frecuencia de las reescrituras y solucionar el problema.

Verifica si las operaciones de guardado de la RDB causan latencia y presión en la memoria

Supongamos que detectas un aumento en la latencia o el uso de memoria de tu instancia. En este caso, te recomendamos que verifiques si el uso adicional está relacionado con la persistencia de RDB.

Como sabes que las operaciones de guardado de la RDB pueden activar picos de carga transitorios, puedes inspeccionar la métrica rdb_saves_count, que proporciona el recuento acumulativo de las operaciones de guardado de la RDB durante la vida útil de la instancia. Supongamos que esta métrica te muestra que los incrementos en el recuento de ahorros de RDB corresponden a aumentos de latencia. En esta circunstancia, puedes reducir el intervalo de instantáneas de la RDB para disminuir la frecuencia de las reescrituras. También puedes escalar la instancia para reducir los niveles de carga del modelo de referencia.

Cómo interpretar las métricas de Memorystore para Valkey

Como se ve en la lista anterior, muchas de las métricas comparten tres categorías: promedio, máximo y total.

En el caso de Memorystore para Valkey, proporcionamos variaciones promedio y máximas de la misma métrica para que puedas usarlas para identificar los hotspots de esa familia de métricas.

El valor total de la métrica es independiente y proporciona estadísticas independientes que no están relacionadas con el propósito de los hotspots de promedio y máximo.

Información sobre las métricas promedio y máximas

Supongamos que comparas los valores average_keyspace_hits y maximum_keyspace_hits de tu instancia. A medida que aumenta la diferencia entre las dos métricas, una mayor diferencia indica que hay más puntos calientes de hits en tu instancia. Idealmente, deberías tener un valor cercano entre average_keyspace_hits y maximum_keyspace_hits, ya que esto significa que los hits se distribuyen de forma más uniforme en tu instancia.

Este principio se aplica a todas las métricas que tienen las variaciones promedio y máximas de la misma métrica.

Ejemplo de punto de acceso

Si comparas average_keyspace_hits y maximum_keyspace_hits para todos los fragmentos de tu instancia, la comparación de estos valores indica dónde se produce el hotspot. Por ejemplo, supongamos que los fragmentos de una instancia de 6 fragmentos tienen la siguiente cantidad de hits:

  • Fragmento 1: Entre 1 y 2 hits
  • Fragmento 2: 2 hits
  • Fragmento 3: 2 hits
  • Fragmento 4: 2 hits
  • Fragmento 5: 2 hits
  • Entre 6 y 8 hits del fragmento

En este ejemplo, average_keyspace_hits muestra un valor de 3 y maximum_keyspace_hits muestra 8, lo que indica que el fragmento 6 está activo.