En esta página, se enumeran las métricas de Cloud Monitoring disponibles para Memorystore para Redis Cluster y se describe lo que mide cada métrica.
Métricas de Cloud Monitoring
Métricas a nivel del clúster
Estas métricas proporcionan una descripción general del estado y el rendimiento generales del clúster. Son útiles para comprender la capacidad y la utilización generales del clúster, así como para identificar posibles cuellos de botella o áreas de mejora.
Nombre de la métrica | Descripción |
---|---|
redis.googleapis.com/cluster/clients/average_connected_clients |
Es la cantidad media actual de conexiones de clientes en todo el clúster. |
redis.googleapis.com/cluster/clients/maximum_connected_clients |
Es la cantidad máxima actual de conexiones de cliente en todo el clúster. |
redis.googleapis.com/cluster/clients/total_connected_clients |
Es la cantidad actual de conexiones de clientes al clúster. |
redis.googleapis.com/cluster/stats/total_connections_received_count |
Es el recuento de las conexiones totales de clientes a nivel del clúster creadas en el último minuto. |
redis.googleapis.com/cluster/stats/cluster/stats/total_rejected_connections_count |
Cantidad de conexiones rechazadas debido al límite de maxclients. |
redis.googleapis.com/cluster/commandstats/total_usec_count |
Es el tiempo total consumido por comando. |
redis.googleapis.com/cluster/commandstats/total_calls_count |
Es la cantidad total de llamadas para este comando en un minuto. |
redis.googleapis.com/cluster/cpu/average_utilization |
Uso medio de CPU para el clúster, de 0.0 a 1.0. |
redis.googleapis.com/cluster/cpu/maximum_utilization |
Uso máximo de CPU para el clúster, de 0.0 a 1.0. Asegúrate de que el uso de CPU no supere los 0.8 s para el nodo principal y los 0.5 s para cada réplica designada como réplica de lectura. Para obtener más información, consulta las prácticas recomendadas para el uso de la CPU. |
redis.googleapis.com/cluster/stats/average_expired_keys |
Es la cantidad media de eventos de vencimiento de claves para los principales. |
redis.googleapis.com/cluster/stats/maximum_expired_keys |
Es la cantidad máxima de eventos de vencimiento de claves para los elementos principales. |
redis.googleapis.com/cluster/stats/total_expired_keys_count |
Es la cantidad total de eventos de vencimiento de claves para los elementos principales. |
redis.googleapis.com/cluster/stats/average_evicted_keys |
Es la cantidad promedio de claves expulsadas debido a la capacidad de memoria para los servidores principales. |
redis.googleapis.com/cluster/stats/maximum_evicted_keys |
Cantidad máxima de claves expulsadas debido a la capacidad de memoria en los servidores principales |
redis.googleapis.com/cluster/stats/total_evicted_keys_count |
Cantidad de claves expulsadas debido a la capacidad de memoria en los servidores principales. |
redis.googleapis.com/cluster/keyspace/total_keys |
Cantidad de claves almacenadas en el clúster. |
redis.googleapis.com/cluster/stats/average_keyspace_hits |
Es la cantidad media de búsquedas exitosas de claves en todo el clúster. |
redis.googleapis.com/cluster/stats/maximum_keyspace_hits |
Es la cantidad máxima de búsquedas exitosas de claves en todo el clúster. |
redis.googleapis.com/cluster/stats/total_keyspace_hits_count |
Cantidad de búsquedas de claves correctas en el clúster. |
redis.googleapis.com/cluster/stats/average_keyspace_misses |
Es la cantidad promedio de búsquedas de claves con errores en el clúster. |
redis.googleapis.com/cluster/stats/maximum_keyspace_misses |
Es la cantidad máxima de búsquedas de claves con errores en el clúster. |
redis.googleapis.com/cluster/stats/total_keyspace_misses_count |
Es la cantidad total de búsquedas de claves con errores en todo el clúster. |
redis.googleapis.com/cluster/memory/average_utilization |
Uso promedio de la memoria en el clúster, de 0.0 a 1.0. |
redis.googleapis.com/cluster/memory/maximum_utilization |
Uso máximo de memoria en todo el clúster, de 0.0 a 1.0. |
redis.googleapis.com/cluster/memory/total_used_memory |
Es el uso total de memoria del clúster. |
redis.googleapis.com/cluster/memory/size |
Es el tamaño de la memoria del clúster. |
redis.googleapis.com/cluster/replication/average_ack_lag |
Es el retraso promedio de confirmación (en segundos) de las réplicas en todo el clúster. El retraso de confirmación es un cuello de botella en el nodo principal de un clúster. Este cuello de botella se debe a sus réplicas, que no pueden seguir el ritmo de la información que les envía el nodo principal. Cuando esto sucede, el nodo principal debe esperar la confirmación de que las réplicas recibieron la información. Esto podría ralentizar las confirmaciones de transacciones y afectar el rendimiento del nodo principal. |
redis.googleapis.com/cluster/replication/maximum_ack_lag |
Es el retraso máximo de confirmación (en segundos) de las réplicas en todo el clúster. |
redis.googleapis.com/cluster/replication/average_offset_diff |
Es la diferencia media en la compensación de confirmación de replicación (en bytes) en todo el clúster. La diferencia en la compensación de confirmación de replicación indica la cantidad de bytes que no se replicaron entre las réplicas y sus instancias principales. |
redis.googleapis.com/cluster/replication/maximum_offset_diff |
Es la diferencia máxima en la compensación de la replicación (en bytes) en todo el clúster. La diferencia en la compensación de la replicación significa la cantidad de bytes que no se replicaron entre las réplicas y sus elementos principales. |
redis.googleapis.com/cluster/stats/total_net_input_bytes_count |
Es el recuento de bytes de red entrantes que reciben los extremos del clúster. |
redis.googleapis.com/cluster/stats/total_net_output_bytes_count |
Es el recuento de bytes de red salientes enviados desde los extremos del clúster. |
Métricas a nivel del nodo
Estas métricas ofrecen estadísticas detalladas sobre el estado y el rendimiento de los nodos individuales dentro del clúster. Son útiles para solucionar problemas con nodos específicos y optimizar su rendimiento.
Nombre de la métrica | Descripción |
---|---|
redis.googleapis.com/cluster/node/clients/connected_clients |
Cantidad de clientes conectados al nodo del clúster. |
redis.googleapis.com/cluster/node/clients/blocked_clients |
Cantidad de conexiones de clientes bloqueadas por el nodo del clúster. |
redis.googleapis.com/cluster/node/server/uptime |
Mide el tiempo de actividad del nodo del clúster. |
redis.googleapis.com/cluster/node/stats/connections_received_count |
Es el recuento de las conexiones totales de clientes creadas en el último minuto en el nodo del clúster. |
redis.googleapis.com/cluster/node/stats/rejected_connections_count |
Cantidad de conexiones rechazadas debido al límite de maxclients por el nodo del clúster. |
redis.googleapis.com/cluster/node/commandstats/usec_count |
Es el tiempo total consumido por comando en el nodo del clúster. |
redis.googleapis.com/cluster/node/commandstats/calls_count |
Es la cantidad total de llamadas para este comando en el nodo del clúster en un minuto. |
redis.googleapis.com/cluster/node/cpu/utilization |
Es el uso de CPU del nodo del clúster, de 0.0 a 1.0. |
redis.googleapis.com/cluster/node/stats/expired_keys_count |
Es la cantidad total de eventos de vencimiento en el nodo del clúster. |
redis.googleapis.com/cluster/node/stats/evicted_keys_count |
Es la cantidad total de claves desalojadas por el nodo del clúster. |
redis.googleapis.com/cluster/node/keyspace/total_keys |
Cantidad de claves almacenadas en el nodo del clúster. |
redis.googleapis.com/cluster/node/stats/keyspace_hits_count |
Cantidad de búsquedas exitosas de claves en el nodo del clúster. |
redis.googleapis.com/cluster/node/stats/keyspace_misses_count |
Cantidad de búsquedas de claves con errores en el nodo del clúster. |
redis.googleapis.com/cluster/node/memory/utilization |
Es el uso de memoria dentro del nodo del clúster, de 0.0 a 1.0. |
redis.googleapis.com/cluster/node/memory/usage |
Es el uso total de memoria del nodo del clúster. |
redis.googleapis.com/cluster/node/stats/net_input_bytes_count |
Es el recuento de bytes de red entrantes que recibió el nodo del clúster. |
redis.googleapis.com/cluster/node/stats/net_output_bytes_count |
Es el recuento de bytes de red salientes enviados desde el nodo del clúster. |
redis.googleapis.com/cluster/node/replication/offset |
Mide los bytes de desfase de replicación del nodo del clúster. |
redis.googleapis.com/cluster/node/server/healthy |
Determina si un nodo del clúster está disponible y funciona correctamente. Esta métrica está en vista previa. |
Métricas de replicación entre regiones
En esta sección, se enumeran las métricas que se usan para la replicación entre regiones.
Nombre de la métrica | Descripción |
---|---|
redis.googleapis.com/cluster/cross_cluster_replication/secondary_replication_links |
Esta métrica muestra la cantidad de vínculos de fragmentos entre los clústeres principal y secundario. Dentro de un grupo de replicación entre regiones (CRR), un clúster principal informa la cantidad de vínculos de replicación de CRR que tiene con los clústeres secundarios del grupo. Para cada clúster secundario, se espera que este número sea igual a la cantidad de fragmentos. Si, de forma inesperada, la cantidad cae por debajo de la cantidad de fragmentos, esto identifica la cantidad de fragmentos en los que se detuvo la replicación entre el replicador y el seguidor. En un estado ideal, esta métrica debería tener el mismo número que el recuento de fragmentos del clúster principal. |
redis.googleapis.com/cluster/cross_cluster_replication/secondary_maximum_replication_offset_diff |
Es la diferencia máxima de compensación de replicación entre los fragmentos principales y los secundarios. |
redis.googleapis.com/cluster/cross_cluster_replication/secondary_average_replication_offset_diff |
Es la diferencia promedio en la compensación de la replicación entre las particiones principales y las secundarias. |
Métricas de copias de seguridad
En esta sección, se enumeran las métricas de copia de seguridad y de importación.
Métricas a nivel del clúster
Nombre de la métrica | Descripción |
---|---|
redis.googleapis.com/cluster/backup/last_backup_start_time |
Es la hora de inicio de la última operación de copia de seguridad. |
redis.googleapis.com/cluster/backup/last_backup_status |
Es el estado de la última operación de copia de seguridad. Los estados son 1 (correcto) y 0 (error). |
redis.googleapis.com/cluster/backup/last_backup_duration |
Duración de la última operación de copia de seguridad (en milisegundos). |
redis.googleapis.com/cluster/backup/last_backup_size |
Tamaño de la última copia de seguridad (en bytes). |
redis.googleapis.com/cluster/import/last_import_start_time |
Es la hora de inicio de la última operación de importación. |
redis.googleapis.com/cluster/import/last_import_duration |
Es la duración de la última operación de importación(en milisegundos). |
Métricas de persistencia
En esta sección, se enumeran las métricas de persistencia y se proporcionan ejemplos de casos de uso para estas métricas.
Métricas de persistencia de RDB
Métricas a nivel del clúster
Nombre de la métrica | Descripción |
---|---|
redis.googleapis.com/cluster/persistence/rdb_saves_count |
Esta métrica muestra la cantidad acumulada de veces que tu clúster tomó una instantánea de RDB (también conocida como save). Esta métrica tiene un campo status_code . Para verificar si falló una instantánea, puedes filtrar el campo status_code para el siguiente error: 3 - INTERNAL_ERROR |
redis.googleapis.com/cluster/persistence/rdb_save_ages |
Esta métrica muestra la antigüedad de la instantánea de distribución para todos los nodos del clúster. Lo ideal es que la distribución tenga valores con menos tiempo de rezago (o el mismo tiempo) que la frecuencia de tus instantáneas. |
Métricas a nivel del nodo
Nombre de la métrica | Descripción |
---|---|
redis.googleapis.com/cluster/node/persistence/rdb_bgsave_in_progress |
Esta métrica muestra si actualmente se está ejecutando un BGSAVE de RDB en el nodo del clúster. VERDADERO significa que está en curso. |
redis.googleapis.com/cluster/node/persistence/rdb_last_bgsave_status |
Esta métrica muestra el éxito del último BGSAVE en el nodo del clúster. TRUE significa éxito. Si no se produjo ningún bgrewrite, es posible que el valor se establezca como TRUE de forma predeterminada. |
redis.googleapis.com/cluster/node/persistence/rdb_saves_count |
Esta métrica muestra la cantidad acumulada de guardados de RDB ejecutados en el nodo del clúster. |
redis.googleapis.com/cluster/node/persistence/rdb_last_save_age |
Esta métrica muestra el tiempo en segundos desde la última instantánea exitosa. |
redis.googleapis.com/cluster/node/persistence/rdb_next_save_time_until |
Esta métrica muestra el tiempo en segundos que falta para la próxima instantánea. |
redis.googleapis.com/cluster/node/persistence/current_save_keys_total |
Esta métrica muestra la cantidad de claves en la operación de guardado de RDB actual que se ejecuta en el nodo del clúster. |
Métricas de persistencia del AOF
Métricas a nivel del clúster
Nombre de la métrica | Descripción |
---|---|
redis.googleapis.com/cluster/persistence/aof_fsync_lags |
Esta métrica muestra una distribución del retraso (desde la escritura de datos hasta la sincronización del almacenamiento duradero) para todos los nodos del clúster. Solo se emite para clústeres con appendfsync=everysec. Lo ideal es que la distribución tenga valores con menos tiempo de rezago (o el mismo tiempo) que tu frecuencia de sincronización de AOF. |
redis.googleapis.com/cluster/persistence/aof_rewrite_count |
Esta métrica muestra la cantidad acumulada de veces que un nodo activó una reescritura de AOF para tu clúster. Esta métrica tiene un campo status_code . Para verificar si las reescrituras de AOF fallan, puedes filtrar el campo status_code para el siguiente error: 3 - INTERNAL_ERROR |
Métricas a nivel del nodo
Nombre de la métrica | Descripción |
---|---|
redis.googleapis.com/cluster/node/persistence/aof_last_write_status |
Esta métrica muestra el éxito de la escritura de AOF más reciente en el nodo del clúster. TRUE significa éxito. Si no se produjo ninguna escritura, el valor puede establecerse como TRUE de forma predeterminada. |
redis.googleapis.com/cluster/node/persistence/aof_last_bgrewrite_status |
Esta métrica muestra el éxito de la última operación bgrewrite del AOF en el nodo del clúster. TRUE significa éxito. Si no se produjo ningún bgrewrite, es posible que el valor se establezca como TRUE de forma predeterminada. |
redis.googleapis.com/cluster/node/persistence/aof_fsync_lag |
Esta métrica muestra el retraso del AOF entre la memoria y el almacén persistente en el nodo del clúster. Solo se aplica a los clústeres habilitados para AOF donde appendfsync=EVERYSEC |
redis.googleapis.com/cluster/node/persistence/aof_rewrites_count |
Esta métrica muestra el recuento de reescrituras del AOF en el nodo del clúster. Para verificar si las reescrituras de AOF fallan, puedes filtrar el campo status_code para el siguiente error: 3 - INTERNAL_ERROR |
redis.googleapis.com/cluster/node/persistence/aof_fsync_errors_count |
Esta métrica muestra el recuento de errores de llamadas a fsync() de AOF y solo se aplica a los clústeres habilitados para AOF en los que appendfsync=EVERYSEC|ALWAYS. |
Métricas de persistencia comunes
Son métricas que se aplican a los mecanismos de persistencia AOF y RDB.
Métricas a nivel del nodo
Nombre de la métrica | Descripción |
---|---|
redis.googleapis.com/cluster/node/persistence/auto_restore_count |
Esta métrica muestra el recuento de restablecimientos desde el archivo de volcado (AOF o RDB). |
Ejemplos de casos de uso para las métricas de persistencia
Cómo verificar si las operaciones de escritura del AOF causan latencia y presión en la memoria
Supongamos que detectas un aumento en la latencia o el uso de memoria en tu clúster o en el nodo dentro del clúster. En este caso, te recomendamos que verifiques si el uso adicional está relacionado con la persistencia de AOF.
Como sabes que las operaciones de reescritura de AOF pueden activar aumentos repentinos de carga transitorios, puedes inspeccionar la métrica aof_rewrites_count
, que te proporciona el recuento acumulativo de las reescrituras de AOF durante la vida útil del clúster o del nodo dentro del clúster. Supongamos que esta métrica muestra que los incrementos en el recuento de reescrituras corresponden a aumentos en la latencia. En esta circunstancia, podrías solucionar el problema reduciendo la tasa de escritura o aumentando el recuento de fragmentos para reducir la frecuencia de las reescrituras.
Cómo verificar si las operaciones de guardado de RDB causan latencia y presión en la memoria
Supongamos que detectas un aumento en la latencia o el uso de memoria en tu clúster o en el nodo dentro del clúster. En este caso, es posible que desees verificar si el uso adicional está relacionado con la persistencia de la RDB.
Como sabes que las operaciones de guardado de RDB pueden activar aumentos repentinos de carga transitorios, puedes inspeccionar la métrica rdb_saves_count
, que proporciona el recuento acumulativo de los guardados de RDB durante la vida útil del clúster o el nodo dentro del clúster. Supongamos que esta métrica te muestra que los incrementos en el recuento de guardados de la RDB corresponden a aumentos de latencia. En este caso, puedes reducir el intervalo de instantáneas de RDB para disminuir la frecuencia de las reescrituras. También puedes aumentar la escala horizontal del clúster para reducir los niveles de carga de referencia.
Cómo interpretar las métricas de Memorystore for Redis Cluster
Como se puede ver en la lista anterior, muchas de las métricas comparten tres categorías: promedio, máximo y total.
En el caso de Memorystore para Redis Cluster, proporcionamos variaciones del promedio y el máximo de la misma métrica para que puedas usarlas ambas y, así, identificar los puntos calientes de esa familia de métricas.
El valor total de la métrica es independiente y proporciona estadísticas separadas que no se relacionan con el propósito de identificación de puntos críticos de promedio y máximo.
Información sobre las métricas de promedio y máximo
Supongamos que comparas los valores average_keyspace_hits
y maximum_keyspace_hits
de tu clúster. A medida que crece la diferencia entre las dos métricas, una diferencia mayor indica más puntos calientes de hits en tu instancia. Lo ideal sería que tuvieras un valor cercano entre average_keyspace_hits
y maximum_keyspace_hits
, ya que esto significa que los clics se distribuyen de manera más uniforme en tu instancia.
Este principio se aplica a todas las métricas que tienen las variaciones de promedio y máximo de la misma métrica.
Ejemplo de Hotspotting
Si comparas average_keyspace_hits
y maximum_keyspace_hits
para todos los fragmentos de tu clúster, la comparación de estos valores indica dónde se produce el hot spotting. Por ejemplo, supongamos que las particiones de un clúster de 6 particiones tienen la siguiente cantidad de hits:
- Fragmento 1: De 2 a 3 golpes
- Fragmento 2: 2 hits
- Fragmento 3: 2 hits
- Fragmento 4: 2 hits
- Fragmento 5: 2 hits
- Fragmento de 6 a 8 golpes
En este ejemplo, average_keyspace_hits
devuelve un valor de 3 y maximum_keyspace_hits
devuelve 8, lo que indica que el fragmento 6 está activo.
Proporcionamos métricas a nivel del nodo que puedes usar para identificar los puntos críticos del clúster.