Métricas de supervisión admitidas

En esta página, se enumeran las métricas de Cloud Monitoring disponibles para Memorystore para Redis Cluster y se describe lo que mide cada métrica.

Métricas de Cloud Monitoring

Métricas a nivel del clúster

Estas métricas proporcionan una descripción general del estado y el rendimiento generales del clúster. Son útiles para comprender la capacidad y la utilización generales del clúster, así como para identificar posibles cuellos de botella o áreas de mejora.

Nombre de la métrica Descripción
redis.googleapis.com/cluster/clients/average_connected_clients Es la cantidad media actual de conexiones de clientes en todo el clúster.
redis.googleapis.com/cluster/clients/maximum_connected_clients Es la cantidad máxima actual de conexiones de cliente en todo el clúster.
redis.googleapis.com/cluster/clients/total_connected_clients Es la cantidad actual de conexiones de clientes al clúster.
redis.googleapis.com/cluster/stats/total_connections_received_count Es el recuento de las conexiones totales de clientes a nivel del clúster creadas en el último minuto.
redis.googleapis.com/cluster/stats/cluster/stats/total_rejected_connections_count Cantidad de conexiones rechazadas debido al límite de maxclients.
redis.googleapis.com/cluster/commandstats/total_usec_count Es el tiempo total consumido por comando.
redis.googleapis.com/cluster/commandstats/total_calls_count Es la cantidad total de llamadas para este comando en un minuto.
redis.googleapis.com/cluster/cpu/average_utilization Uso medio de CPU para el clúster, de 0.0 a 1.0.
redis.googleapis.com/cluster/cpu/maximum_utilization

Uso máximo de CPU para el clúster, de 0.0 a 1.0.

Asegúrate de que el uso de CPU no supere los 0.8 s para el nodo principal y los 0.5 s para cada réplica designada como réplica de lectura. Para obtener más información, consulta las prácticas recomendadas para el uso de la CPU.

redis.googleapis.com/cluster/stats/average_expired_keys Es la cantidad media de eventos de vencimiento de claves para los principales.
redis.googleapis.com/cluster/stats/maximum_expired_keys Es la cantidad máxima de eventos de vencimiento de claves para los elementos principales.
redis.googleapis.com/cluster/stats/total_expired_keys_count Es la cantidad total de eventos de vencimiento de claves para los elementos principales.
redis.googleapis.com/cluster/stats/average_evicted_keys Es la cantidad promedio de claves expulsadas debido a la capacidad de memoria para los servidores principales.
redis.googleapis.com/cluster/stats/maximum_evicted_keys Cantidad máxima de claves expulsadas debido a la capacidad de memoria en los servidores principales
redis.googleapis.com/cluster/stats/total_evicted_keys_count Cantidad de claves expulsadas debido a la capacidad de memoria en los servidores principales.
redis.googleapis.com/cluster/keyspace/total_keys Cantidad de claves almacenadas en el clúster.
redis.googleapis.com/cluster/stats/average_keyspace_hits Es la cantidad media de búsquedas exitosas de claves en todo el clúster.
redis.googleapis.com/cluster/stats/maximum_keyspace_hits Es la cantidad máxima de búsquedas exitosas de claves en todo el clúster.
redis.googleapis.com/cluster/stats/total_keyspace_hits_count Cantidad de búsquedas de claves correctas en el clúster.
redis.googleapis.com/cluster/stats/average_keyspace_misses Es la cantidad promedio de búsquedas de claves con errores en el clúster.
redis.googleapis.com/cluster/stats/maximum_keyspace_misses Es la cantidad máxima de búsquedas de claves con errores en el clúster.
redis.googleapis.com/cluster/stats/total_keyspace_misses_count Es la cantidad total de búsquedas de claves con errores en todo el clúster.
redis.googleapis.com/cluster/memory/average_utilization Uso promedio de la memoria en el clúster, de 0.0 a 1.0.
redis.googleapis.com/cluster/memory/maximum_utilization Uso máximo de memoria en todo el clúster, de 0.0 a 1.0.
redis.googleapis.com/cluster/memory/total_used_memory Es el uso total de memoria del clúster.
redis.googleapis.com/cluster/memory/size Es el tamaño de la memoria del clúster.
redis.googleapis.com/cluster/replication/average_ack_lag Es el retraso promedio de confirmación (en segundos) de las réplicas en todo el clúster.

El retraso de confirmación es un cuello de botella en el nodo principal de un clúster. Este cuello de botella se debe a sus réplicas, que no pueden seguir el ritmo de la información que les envía el nodo principal. Cuando esto sucede, el nodo principal debe esperar la confirmación de que las réplicas recibieron la información. Esto podría ralentizar las confirmaciones de transacciones y afectar el rendimiento del nodo principal.
redis.googleapis.com/cluster/replication/maximum_ack_lag Es el retraso máximo de confirmación (en segundos) de las réplicas en todo el clúster.
redis.googleapis.com/cluster/replication/average_offset_diff Es la diferencia media en la compensación de confirmación de replicación (en bytes) en todo el clúster.

La diferencia en la compensación de confirmación de replicación indica la cantidad de bytes que no se replicaron entre las réplicas y sus instancias principales.
redis.googleapis.com/cluster/replication/maximum_offset_diff Es la diferencia máxima en la compensación de la replicación (en bytes) en todo el clúster.

La diferencia en la compensación de la replicación significa la cantidad de bytes que no se replicaron entre las réplicas y sus elementos principales.
redis.googleapis.com/cluster/stats/total_net_input_bytes_count Es el recuento de bytes de red entrantes que reciben los extremos del clúster.
redis.googleapis.com/cluster/stats/total_net_output_bytes_count Es el recuento de bytes de red salientes enviados desde los extremos del clúster.

Métricas a nivel del nodo

Estas métricas ofrecen estadísticas detalladas sobre el estado y el rendimiento de los nodos individuales dentro del clúster. Son útiles para solucionar problemas con nodos específicos y optimizar su rendimiento.

Nombre de la métrica Descripción
redis.googleapis.com/cluster/node/clients/connected_clients Cantidad de clientes conectados al nodo del clúster.
redis.googleapis.com/cluster/node/clients/blocked_clients Cantidad de conexiones de clientes bloqueadas por el nodo del clúster.
redis.googleapis.com/cluster/node/server/uptime Mide el tiempo de actividad del nodo del clúster.
redis.googleapis.com/cluster/node/stats/connections_received_count Es el recuento de las conexiones totales de clientes creadas en el último minuto en el nodo del clúster.
redis.googleapis.com/cluster/node/stats/rejected_connections_count Cantidad de conexiones rechazadas debido al límite de maxclients por el nodo del clúster.
redis.googleapis.com/cluster/node/commandstats/usec_count Es el tiempo total consumido por comando en el nodo del clúster.
redis.googleapis.com/cluster/node/commandstats/calls_count Es la cantidad total de llamadas para este comando en el nodo del clúster en un minuto.
redis.googleapis.com/cluster/node/cpu/utilization Es el uso de CPU del nodo del clúster, de 0.0 a 1.0.
redis.googleapis.com/cluster/node/stats/expired_keys_count Es la cantidad total de eventos de vencimiento en el nodo del clúster.
redis.googleapis.com/cluster/node/stats/evicted_keys_count Es la cantidad total de claves desalojadas por el nodo del clúster.
redis.googleapis.com/cluster/node/keyspace/total_keys Cantidad de claves almacenadas en el nodo del clúster.
redis.googleapis.com/cluster/node/stats/keyspace_hits_count Cantidad de búsquedas exitosas de claves en el nodo del clúster.
redis.googleapis.com/cluster/node/stats/keyspace_misses_count Cantidad de búsquedas de claves con errores en el nodo del clúster.
redis.googleapis.com/cluster/node/memory/utilization Es el uso de memoria dentro del nodo del clúster, de 0.0 a 1.0.
redis.googleapis.com/cluster/node/memory/usage Es el uso total de memoria del nodo del clúster.
redis.googleapis.com/cluster/node/stats/net_input_bytes_count Es el recuento de bytes de red entrantes que recibió el nodo del clúster.
redis.googleapis.com/cluster/node/stats/net_output_bytes_count Es el recuento de bytes de red salientes enviados desde el nodo del clúster.
redis.googleapis.com/cluster/node/replication/offset Mide los bytes de desfase de replicación del nodo del clúster.
redis.googleapis.com/cluster/node/server/healthy Determina si un nodo del clúster está disponible y funciona correctamente. Esta métrica está en vista previa.

Métricas de replicación entre regiones

En esta sección, se enumeran las métricas que se usan para la replicación entre regiones.

Nombre de la métrica Descripción
redis.googleapis.com/cluster/cross_cluster_replication/secondary_replication_links Esta métrica muestra la cantidad de vínculos de fragmentos entre los clústeres principal y secundario. Dentro de un grupo de replicación entre regiones (CRR), un clúster principal informa la cantidad de vínculos de replicación de CRR que tiene con los clústeres secundarios del grupo. Para cada clúster secundario, se espera que este número sea igual a la cantidad de fragmentos. Si, de forma inesperada, la cantidad cae por debajo de la cantidad de fragmentos, esto identifica la cantidad de fragmentos en los que se detuvo la replicación entre el replicador y el seguidor. En un estado ideal, esta métrica debería tener el mismo número que el recuento de fragmentos del clúster principal.
redis.googleapis.com/cluster/cross_cluster_replication/secondary_maximum_replication_offset_diff Es la diferencia máxima de compensación de replicación entre los fragmentos principales y los secundarios.
redis.googleapis.com/cluster/cross_cluster_replication/secondary_average_replication_offset_diff Es la diferencia promedio en la compensación de la replicación entre las particiones principales y las secundarias.

Métricas de copias de seguridad

En esta sección, se enumeran las métricas de copia de seguridad y de importación.

Métricas a nivel del clúster

Nombre de la métrica Descripción
redis.googleapis.com/cluster/backup/last_backup_start_time Es la hora de inicio de la última operación de copia de seguridad.
redis.googleapis.com/cluster/backup/last_backup_status Es el estado de la última operación de copia de seguridad. Los estados son 1 (correcto) y 0 (error).
redis.googleapis.com/cluster/backup/last_backup_duration Duración de la última operación de copia de seguridad (en milisegundos).
redis.googleapis.com/cluster/backup/last_backup_size Tamaño de la última copia de seguridad (en bytes).
redis.googleapis.com/cluster/import/last_import_start_time Es la hora de inicio de la última operación de importación.
redis.googleapis.com/cluster/import/last_import_duration Es la duración de la última operación de importación(en milisegundos).

Métricas de persistencia

En esta sección, se enumeran las métricas de persistencia y se proporcionan ejemplos de casos de uso para estas métricas.

Métricas de persistencia de RDB

Métricas a nivel del clúster

Nombre de la métrica Descripción
redis.googleapis.com/cluster/persistence/rdb_saves_count Esta métrica muestra la cantidad acumulada de veces que tu clúster tomó una instantánea de RDB (también conocida como save). Esta métrica tiene un campo status_code. Para verificar si falló una instantánea, puedes filtrar el campo status_code para el siguiente error: 3 - INTERNAL_ERROR
redis.googleapis.com/cluster/persistence/rdb_save_ages Esta métrica muestra la antigüedad de la instantánea de distribución para todos los nodos del clúster. Lo ideal es que la distribución tenga valores con menos tiempo de rezago (o el mismo tiempo) que la frecuencia de tus instantáneas.

Métricas a nivel del nodo

Nombre de la métrica Descripción
redis.googleapis.com/cluster/node/persistence/rdb_bgsave_in_progress Esta métrica muestra si actualmente se está ejecutando un BGSAVE de RDB en el nodo del clúster. VERDADERO significa que está en curso.
redis.googleapis.com/cluster/node/persistence/rdb_last_bgsave_status Esta métrica muestra el éxito del último BGSAVE en el nodo del clúster. TRUE significa éxito. Si no se produjo ningún bgrewrite, es posible que el valor se establezca como TRUE de forma predeterminada.
redis.googleapis.com/cluster/node/persistence/rdb_saves_count Esta métrica muestra la cantidad acumulada de guardados de RDB ejecutados en el nodo del clúster.
redis.googleapis.com/cluster/node/persistence/rdb_last_save_age Esta métrica muestra el tiempo en segundos desde la última instantánea exitosa.
redis.googleapis.com/cluster/node/persistence/rdb_next_save_time_until Esta métrica muestra el tiempo en segundos que falta para la próxima instantánea.
redis.googleapis.com/cluster/node/persistence/current_save_keys_total Esta métrica muestra la cantidad de claves en la operación de guardado de RDB actual que se ejecuta en el nodo del clúster.

Métricas de persistencia del AOF

Métricas a nivel del clúster

Nombre de la métrica Descripción
redis.googleapis.com/cluster/persistence/aof_fsync_lags Esta métrica muestra una distribución del retraso (desde la escritura de datos hasta la sincronización del almacenamiento duradero) para todos los nodos del clúster. Solo se emite para clústeres con appendfsync=everysec. Lo ideal es que la distribución tenga valores con menos tiempo de rezago (o el mismo tiempo) que tu frecuencia de sincronización de AOF.
redis.googleapis.com/cluster/persistence/aof_rewrite_count Esta métrica muestra la cantidad acumulada de veces que un nodo activó una reescritura de AOF para tu clúster. Esta métrica tiene un campo status_code. Para verificar si las reescrituras de AOF fallan, puedes filtrar el campo status_code para el siguiente error: 3 - INTERNAL_ERROR

Métricas a nivel del nodo

Nombre de la métrica Descripción
redis.googleapis.com/cluster/node/persistence/aof_last_write_status Esta métrica muestra el éxito de la escritura de AOF más reciente en el nodo del clúster. TRUE significa éxito. Si no se produjo ninguna escritura, el valor puede establecerse como TRUE de forma predeterminada.
redis.googleapis.com/cluster/node/persistence/aof_last_bgrewrite_status Esta métrica muestra el éxito de la última operación bgrewrite del AOF en el nodo del clúster. TRUE significa éxito. Si no se produjo ningún bgrewrite, es posible que el valor se establezca como TRUE de forma predeterminada.
redis.googleapis.com/cluster/node/persistence/aof_fsync_lag Esta métrica muestra el retraso del AOF entre la memoria y el almacén persistente en el nodo del clúster. Solo se aplica a los clústeres habilitados para AOF donde appendfsync=EVERYSEC
redis.googleapis.com/cluster/node/persistence/aof_rewrites_count Esta métrica muestra el recuento de reescrituras del AOF en el nodo del clúster. Para verificar si las reescrituras de AOF fallan, puedes filtrar el campo status_code para el siguiente error: 3 - INTERNAL_ERROR
redis.googleapis.com/cluster/node/persistence/aof_fsync_errors_count Esta métrica muestra el recuento de errores de llamadas a fsync() de AOF y solo se aplica a los clústeres habilitados para AOF en los que appendfsync=EVERYSEC|ALWAYS.

Métricas de persistencia comunes

Son métricas que se aplican a los mecanismos de persistencia AOF y RDB.

Métricas a nivel del nodo

Nombre de la métrica Descripción
redis.googleapis.com/cluster/node/persistence/auto_restore_count Esta métrica muestra el recuento de restablecimientos desde el archivo de volcado (AOF o RDB).

Ejemplos de casos de uso para las métricas de persistencia

Cómo verificar si las operaciones de escritura del AOF causan latencia y presión en la memoria

Supongamos que detectas un aumento en la latencia o el uso de memoria en tu clúster o en el nodo dentro del clúster. En este caso, te recomendamos que verifiques si el uso adicional está relacionado con la persistencia de AOF.

Como sabes que las operaciones de reescritura de AOF pueden activar aumentos repentinos de carga transitorios, puedes inspeccionar la métrica aof_rewrites_count, que te proporciona el recuento acumulativo de las reescrituras de AOF durante la vida útil del clúster o del nodo dentro del clúster. Supongamos que esta métrica muestra que los incrementos en el recuento de reescrituras corresponden a aumentos en la latencia. En esta circunstancia, podrías solucionar el problema reduciendo la tasa de escritura o aumentando el recuento de fragmentos para reducir la frecuencia de las reescrituras.

Cómo verificar si las operaciones de guardado de RDB causan latencia y presión en la memoria

Supongamos que detectas un aumento en la latencia o el uso de memoria en tu clúster o en el nodo dentro del clúster. En este caso, es posible que desees verificar si el uso adicional está relacionado con la persistencia de la RDB.

Como sabes que las operaciones de guardado de RDB pueden activar aumentos repentinos de carga transitorios, puedes inspeccionar la métrica rdb_saves_count, que proporciona el recuento acumulativo de los guardados de RDB durante la vida útil del clúster o el nodo dentro del clúster. Supongamos que esta métrica te muestra que los incrementos en el recuento de guardados de la RDB corresponden a aumentos de latencia. En este caso, puedes reducir el intervalo de instantáneas de RDB para disminuir la frecuencia de las reescrituras. También puedes aumentar la escala horizontal del clúster para reducir los niveles de carga de referencia.

Cómo interpretar las métricas de Memorystore for Redis Cluster

Como se puede ver en la lista anterior, muchas de las métricas comparten tres categorías: promedio, máximo y total.

En el caso de Memorystore para Redis Cluster, proporcionamos variaciones del promedio y el máximo de la misma métrica para que puedas usarlas ambas y, así, identificar los puntos calientes de esa familia de métricas.

El valor total de la métrica es independiente y proporciona estadísticas separadas que no se relacionan con el propósito de identificación de puntos críticos de promedio y máximo.

Información sobre las métricas de promedio y máximo

Supongamos que comparas los valores average_keyspace_hits y maximum_keyspace_hits de tu clúster. A medida que crece la diferencia entre las dos métricas, una diferencia mayor indica más puntos calientes de hits en tu instancia. Lo ideal sería que tuvieras un valor cercano entre average_keyspace_hits y maximum_keyspace_hits, ya que esto significa que los clics se distribuyen de manera más uniforme en tu instancia.

Este principio se aplica a todas las métricas que tienen las variaciones de promedio y máximo de la misma métrica.

Ejemplo de Hotspotting

Si comparas average_keyspace_hits y maximum_keyspace_hits para todos los fragmentos de tu clúster, la comparación de estos valores indica dónde se produce el hot spotting. Por ejemplo, supongamos que las particiones de un clúster de 6 particiones tienen la siguiente cantidad de hits:

  • Fragmento 1: De 2 a 3 golpes
  • Fragmento 2: 2 hits
  • Fragmento 3: 2 hits
  • Fragmento 4: 2 hits
  • Fragmento 5: 2 hits
  • Fragmento de 6 a 8 golpes

En este ejemplo, average_keyspace_hits devuelve un valor de 3 y maximum_keyspace_hits devuelve 8, lo que indica que el fragmento 6 está activo.

Proporcionamos métricas a nivel del nodo que puedes usar para identificar los puntos críticos del clúster.