Questa pagina elenca le metriche di Cloud Monitoring disponibili per Memorystore for Redis Cluster e descrive cosa misura ogni metrica.
Metriche di Cloud Monitoring
Metriche a livello di cluster
Queste metriche forniscono una panoramica di alto livello dell'integrità e del rendimento complessivi del cluster. Sono utili per comprendere la capacità e l'utilizzo complessivi del cluster, nonché per identificare potenziali colli di bottiglia o aree di miglioramento.
Nome metrica | Descrizione |
---|---|
redis.googleapis.com/cluster/clients/average_connected_clients |
Numero medio attuale di connessioni client nel cluster. |
redis.googleapis.com/cluster/clients/maximum_connected_clients |
Numero massimo attuale di connessioni client nel cluster. |
redis.googleapis.com/cluster/clients/total_connected_clients |
Numero attuale di connessioni client al cluster. |
redis.googleapis.com/cluster/stats/total_connections_received_count |
Conteggio delle connessioni client totali a livello di cluster create nell'ultimo minuto. |
redis.googleapis.com/cluster/stats/cluster/stats/total_rejected_connections_count |
Numero di connessioni rifiutate a causa del limite maxclients. |
redis.googleapis.com/cluster/commandstats/total_usec_count |
Il tempo totale utilizzato per comando. |
redis.googleapis.com/cluster/commandstats/total_calls_count |
Numero totale di chiamate per questo comando in un minuto. |
redis.googleapis.com/cluster/cpu/average_utilization |
Utilizzo medio della CPU per il cluster da 0,0 a 1,0. |
redis.googleapis.com/cluster/cpu/maximum_utilization |
Utilizzo massimo della CPU per il cluster da 0,0 a 1,0. Assicurati che l'utilizzo della CPU non superi 0,8 secondi per il nodo principale e 0,5 secondi per ogni replica designata come replica di lettura. Per saperne di più, consulta le best practice per l'utilizzo della CPU. |
redis.googleapis.com/cluster/stats/average_expired_keys |
Numero medio di eventi di scadenza delle chiavi per le primarie. |
redis.googleapis.com/cluster/stats/maximum_expired_keys |
Numero massimo di eventi di scadenza delle chiavi per le primarie. |
redis.googleapis.com/cluster/stats/total_expired_keys_count |
Il numero totale di eventi di scadenza delle chiavi per le primarie. |
redis.googleapis.com/cluster/stats/average_evicted_keys |
Numero medio di chiavi rimosse a causa della capacità di memoria per i primari. |
redis.googleapis.com/cluster/stats/maximum_evicted_keys |
Numero massimo di chiavi rimosse a causa della capacità di memoria sulle primarie |
redis.googleapis.com/cluster/stats/total_evicted_keys_count |
Numero di chiavi eliminate a causa della capacità di memoria sulle primarie. |
redis.googleapis.com/cluster/keyspace/total_keys |
Numero di chiavi archiviate nel cluster. |
redis.googleapis.com/cluster/stats/average_keyspace_hits |
Numero medio di ricerche riuscite di chiavi nel cluster. |
redis.googleapis.com/cluster/stats/maximum_keyspace_hits |
Il numero massimo di ricerche riuscite di chiavi nel cluster. |
redis.googleapis.com/cluster/stats/total_keyspace_hits_count |
Numero di ricerche riuscite di chiavi nel cluster. |
redis.googleapis.com/cluster/stats/average_keyspace_misses |
Numero medio di ricerche non riuscite di chiavi nel cluster. |
redis.googleapis.com/cluster/stats/maximum_keyspace_misses |
Numero massimo di ricerche non riuscite di chiavi nel cluster. |
redis.googleapis.com/cluster/stats/total_keyspace_misses_count |
Numero totale di ricerche non riuscite di chiavi nel cluster. |
redis.googleapis.com/cluster/memory/average_utilization |
Utilizzo medio della memoria nel cluster da 0,0 a 1,0. |
redis.googleapis.com/cluster/memory/maximum_utilization |
Utilizzo massimo della memoria nel cluster da 0,0 a 1,0. |
redis.googleapis.com/cluster/memory/total_used_memory |
Utilizzo totale della memoria del cluster. |
redis.googleapis.com/cluster/memory/size |
Dimensioni della memoria del cluster. |
redis.googleapis.com/cluster/replication/average_ack_lag |
Ritardo medio di riconoscimento (in secondi) delle repliche nel cluster. Il ritardo di riconoscimento è un collo di bottiglia sul nodo primario di un cluster. Questo collo di bottiglia è causato dalle repliche che non riescono a tenere il passo con le informazioni che il nodo primario invia loro. In questo caso, il nodo primario deve attendere la conferma che le repliche hanno ricevuto le informazioni. Ciò potrebbe rallentare i commit delle transazioni e causare un calo delle prestazioni sul nodo primario. |
redis.googleapis.com/cluster/replication/maximum_ack_lag |
Ritardo massimo di riconoscimento (in secondi) delle repliche nel cluster. |
redis.googleapis.com/cluster/replication/average_offset_diff |
Differenza media di offset di riconoscimento della replica (in byte) nel cluster. La differenza di offset di riconoscimento della replica indica il numero di byte che non sono stati replicati tra le repliche e le relative istanze principali. |
redis.googleapis.com/cluster/replication/maximum_offset_diff |
Differenza massima di offset di replica (in byte) nel cluster. La differenza di offset di replica indica il numero di byte che non sono stati replicati tra una replica e i relativi primari. |
redis.googleapis.com/cluster/stats/total_net_input_bytes_count |
Conteggio dei byte di rete in entrata ricevuti dagli endpoint del cluster. |
redis.googleapis.com/cluster/stats/total_net_output_bytes_count |
Conteggio dei byte di rete in uscita inviati dagli endpoint del cluster. |
Metriche a livello di nodo
Queste metriche offrono informazioni dettagliate sull'integrità e sul rendimento dei singoli nodi all'interno del cluster. Sono utili per risolvere i problemi relativi a nodi specifici e ottimizzarne il rendimento.
Nome metrica | Descrizione |
---|---|
redis.googleapis.com/cluster/node/clients/connected_clients |
Numero di client connessi al nodo del cluster. |
redis.googleapis.com/cluster/node/clients/blocked_clients |
Numero di connessioni client bloccate dal nodo del cluster. |
redis.googleapis.com/cluster/node/server/uptime |
Misura l'uptime del nodo del cluster. |
redis.googleapis.com/cluster/node/stats/connections_received_count |
Conteggio delle connessioni client totali create nell'ultimo minuto sul nodo del cluster. |
redis.googleapis.com/cluster/node/stats/rejected_connections_count |
Numero di connessioni rifiutate a causa del limite maxclients del nodo del cluster. |
redis.googleapis.com/cluster/node/commandstats/usec_count |
Il tempo totale utilizzato per comando nel nodo del cluster. |
redis.googleapis.com/cluster/node/commandstats/calls_count |
Numero totale di chiamate per questo comando sul nodo cluster in un minuto. |
redis.googleapis.com/cluster/node/cpu/utilization |
Utilizzo della CPU per il nodo del cluster da 0,0 a 1,0. |
redis.googleapis.com/cluster/node/stats/expired_keys_count |
Numero totale di eventi di scadenza nel nodo del cluster. |
redis.googleapis.com/cluster/node/stats/evicted_keys_count |
Numero totale di chiavi rimosse dal nodo del cluster. |
redis.googleapis.com/cluster/node/keyspace/total_keys |
Numero di chiavi archiviate nel nodo del cluster. |
redis.googleapis.com/cluster/node/stats/keyspace_hits_count |
Numero di ricerche riuscite di chiavi nel nodo del cluster. |
redis.googleapis.com/cluster/node/stats/keyspace_misses_count |
Numero di ricerche non riuscite di chiavi nel nodo del cluster. |
redis.googleapis.com/cluster/node/memory/utilization |
Utilizzo di memoria all'interno del nodo del cluster da 0,0 a 1,0. |
redis.googleapis.com/cluster/node/memory/usage |
Utilizzo totale della memoria del nodo del cluster. |
redis.googleapis.com/cluster/node/stats/net_input_bytes_count |
Conteggio dei byte di rete in entrata ricevuti dal nodo del cluster. |
redis.googleapis.com/cluster/node/stats/net_output_bytes_count |
Conteggio dei byte di rete in uscita inviati dal nodo cluster. |
redis.googleapis.com/cluster/node/replication/offset |
Misura i byte di offset di replica del nodo del cluster. |
redis.googleapis.com/cluster/node/server/healthy |
Determina se un nodo del cluster è disponibile e funziona correttamente. Questa metrica è in anteprima. |
Metriche di replica tra regioni
Questa sezione elenca le metriche utilizzate per la replica tra regioni.
Nome metrica | Descrizione |
---|---|
redis.googleapis.com/cluster/cross_cluster_replication/secondary_replication_links |
Questa metrica mostra il numero di link di shard tra i cluster primario e secondario. All'interno di un gruppo di replica tra regioni (CRR), un cluster primario segnala il numero di link di replica CRR che ha con i cluster secondari del gruppo. Per ogni cluster secondario, questo numero dovrebbe essere uguale al numero di shard. Se, inaspettatamente, il numero scende al di sotto del numero di shard, questo identifica il numero di shard in cui la replica tra il replicatore e il follower è cessata. In uno stato ideale, questa metrica dovrebbe avere lo stesso numero del conteggio degli shard del cluster primario. |
redis.googleapis.com/cluster/cross_cluster_replication/secondary_maximum_replication_offset_diff |
Differenza massima di offset di replica tra gli shard primari e secondari. |
redis.googleapis.com/cluster/cross_cluster_replication/secondary_average_replication_offset_diff |
Differenza media di offset di replica tra gli shard primari e secondari. |
Metriche di backup
Questa sezione elenca le metriche di backup e di importazione.
Metriche a livello di cluster
Nome metrica | Descrizione |
---|---|
redis.googleapis.com/cluster/backup/last_backup_start_time |
L'ora di inizio dell'ultima operazione di backup. |
redis.googleapis.com/cluster/backup/last_backup_status |
Lo stato dell'ultima operazione di backup. Gli stati sono 1 (operazione riuscita) e 0 (operazione non riuscita). |
redis.googleapis.com/cluster/backup/last_backup_duration |
Durata dell'ultima operazione di backup (in millisecondi). |
redis.googleapis.com/cluster/backup/last_backup_size |
Le dimensioni dell'ultimo backup (in byte). |
redis.googleapis.com/cluster/import/last_import_start_time |
L'ora di inizio dell'ultima operazione di importazione. |
redis.googleapis.com/cluster/import/last_import_duration |
Durata dell'ultima operazione di importazione(in millisecondi). |
Metriche di persistenza
Questa sezione elenca le metriche di persistenza e fornisce esempi di casi d'uso per le metriche di persistenza.
Metriche di persistenza RDB
Metriche a livello di cluster
Nome metrica | Descrizione |
---|---|
redis.googleapis.com/cluster/persistence/rdb_saves_count |
Questa metrica mostra il numero cumulativo di volte in cui il cluster ha eseguito uno snapshot RDB (noto anche come salvataggio). Questa metrica ha un campo status_code . Per verificare se uno snapshot non è riuscito, puoi filtrare il campo status_code per il seguente errore: 3 - INTERNAL_ERROR |
redis.googleapis.com/cluster/persistence/rdb_save_ages |
Questa metrica mostra l'età di un'istantanea della distribuzione per tutti i nodi del cluster. Idealmente, la distribuzione dovrebbe avere valori con un tempo di ritardo inferiore (o uguale) alla frequenza degli snapshot. |
Metriche a livello di nodo
Nome metrica | Descrizione |
---|---|
redis.googleapis.com/cluster/node/persistence/rdb_bgsave_in_progress |
Questa metrica mostra se è attualmente in corso un BGSAVE RDB sul nodo del cluster. TRUE significa in corso. |
redis.googleapis.com/cluster/node/persistence/rdb_last_bgsave_status |
Questa metrica mostra l'esito positivo dell'ultimo BGSAVE sul nodo del cluster. TRUE indica la riuscita dell'operazione. Se non è stato eseguito alcun bgrewrite, il valore potrebbe essere impostato su TRUE per impostazione predefinita. |
redis.googleapis.com/cluster/node/persistence/rdb_saves_count |
Questa metrica mostra il numero cumulativo di salvataggi RDB eseguiti sul nodo del cluster. |
redis.googleapis.com/cluster/node/persistence/rdb_last_save_age |
Questa metrica mostra il tempo in secondi trascorso dall'ultimo snapshot riuscito. |
redis.googleapis.com/cluster/node/persistence/rdb_next_save_time_until |
Questa metrica mostra il tempo in secondi che rimane fino allo snapshot successivo. |
redis.googleapis.com/cluster/node/persistence/current_save_keys_total |
Questa metrica mostra il numero di chiavi nel salvataggio RDB corrente in esecuzione sul nodo del cluster. |
Metriche di persistenza AOF
Metriche a livello di cluster
Nome metrica | Descrizione |
---|---|
redis.googleapis.com/cluster/persistence/aof_fsync_lags |
Questa metrica mostra una distribuzione del ritardo (dalla scrittura dei dati alla sincronizzazione dell'archiviazione durevole) per tutti i nodi del cluster. Viene emesso solo per i cluster con appendfsync=everysec. Idealmente, la distribuzione dovrebbe avere valori con un tempo di ritardo inferiore (o uguale) alla frequenza di sincronizzazione AOF. |
redis.googleapis.com/cluster/persistence/aof_rewrite_count |
Questa metrica mostra il numero cumulativo di volte in cui un nodo ha attivato una riscrittura AOF per il cluster. Questa metrica ha un campo status_code . Per verificare se le riscritture AOF non vanno a buon fine, puoi filtrare il campo status_code per il seguente errore: 3 - INTERNAL_ERROR |
Metriche a livello di nodo
Nome metrica | Descrizione |
---|---|
redis.googleapis.com/cluster/node/persistence/aof_last_write_status |
Questa metrica mostra l'esito positivo dell'ultima scrittura AOF sul nodo del cluster. TRUE indica che l'operazione è riuscita. Se non è stata eseguita alcuna scrittura, il valore potrebbe essere impostato su TRUE per impostazione predefinita. |
redis.googleapis.com/cluster/node/persistence/aof_last_bgrewrite_status |
Questa metrica mostra l'esito positivo dell'ultima operazione AOF bgrewrite sul nodo del cluster. TRUE indica la riuscita dell'operazione. Se non è stato eseguito alcun bgrewrite, il valore potrebbe essere impostato su TRUE per impostazione predefinita. |
redis.googleapis.com/cluster/node/persistence/aof_fsync_lag |
Questa metrica mostra il ritardo AOF tra la memoria e l'archivio permanente nel nodo del cluster. È applicabile solo ai cluster abilitati AOF in cui appendfsync=EVERYSEC |
redis.googleapis.com/cluster/node/persistence/aof_rewrites_count |
Questa metrica mostra il conteggio delle riscritture AOF nel nodo del cluster. Per verificare se le riscritture AOF non vanno a buon fine, puoi filtrare il campo status_code per il seguente errore: 3 - INTERNAL_ERROR |
redis.googleapis.com/cluster/node/persistence/aof_fsync_errors_count |
Questa metrica mostra il conteggio degli errori di chiamata fsync() AOF ed è applicabile solo ai cluster abilitati per AOF in cui appendfsync=EVERYSEC|ALWAYS. |
Metriche comuni sulla persistenza
Metriche applicabili ai meccanismi di persistenza AOF e RDB.
Metriche a livello di nodo
Nome metrica | Descrizione |
---|---|
redis.googleapis.com/cluster/node/persistence/auto_restore_count |
Questa metrica mostra il conteggio dei ripristini dal file dump (AOF o RDB). |
Esempi di casi d'uso per le metriche di permanenza
Controllare se le operazioni di scrittura AOF causano latenza e pressione della memoria
Supponiamo che tu rilevi un aumento della latenza o dell'utilizzo di memoria sul cluster o sul nodo all'interno del cluster. In questo caso, ti consigliamo di verificare se l'utilizzo aggiuntivo è correlato alla persistenza AOF.
Poiché sai che le operazioni di riscrittura AOF possono attivare picchi di carico temporanei, puoi esaminare la metrica aof_rewrites_count
, che fornisce il conteggio cumulativo delle riscritture AOF durante il ciclo di vita del cluster o del nodo all'interno del cluster. Supponiamo che questa metrica mostri che gli incrementi nel conteggio delle riscritture corrispondono ad aumenti della latenza. In questo caso, puoi risolvere il problema riducendo la velocità di scrittura o aumentando il conteggio degli shard per ridurre la frequenza delle riscritture.
Verifica se le operazioni di salvataggio RDB causano latenza e pressione della memoria
Supponiamo che tu rilevi un aumento della latenza o dell'utilizzo di memoria sul cluster o sul nodo all'interno del cluster. In questo caso, ti consigliamo di verificare se l'utilizzo aggiuntivo è correlato alla persistenza RDB.
Poiché sai che le operazioni di salvataggio RDB possono attivare picchi di carico temporanei, puoi esaminare la metrica rdb_saves_count
, che fornisce il conteggio cumulativo dei salvataggi RDB durante la durata del cluster o del nodo all'interno del cluster. Supponiamo che questa metrica mostri che gli incrementi nel conteggio dei salvataggi RDB corrispondono ad aumenti della latenza. In questo caso, puoi ridurre l'intervallo dello snapshot RDB per diminuire la frequenza delle riscritture. Puoi anche fare lo scale out il cluster per ridurre i livelli di carico di base.
Interpretazione delle metriche per Memorystore for Redis Cluster
Come mostrato nell'elenco precedente, molte metriche condividono tre categorie: media, massimo e totale.
Per Memorystore for Redis Cluster, forniamo variazioni media e massima della stessa metrica, in modo che tu possa utilizzarle entrambe per identificare gli hotspot per quella famiglia di metriche.
Il valore totale della metrica è indipendente e fornisce informazioni separate non correlate allo scopo di identificazione degli hotspot di media e massimo.
Informazioni sulle metriche media e massima
Supponiamo di confrontare i valori average_keyspace_hits
e maximum_keyspace_hits
per il cluster. Man mano che la differenza tra le due metriche aumenta, una
differenza maggiore indica un maggiore hot spotting degli hit nella tua istanza. Idealmente,
il valore di chiusura dovrebbe essere compreso tra average_keyspace_hits
e
maximum_keyspace_hits
, perché ciò significa che gli hit sono distribuiti in modo più uniforme
nell'istanza.
Questo principio si applica a tutte le metriche che hanno le varianti media e massima della stessa metrica.
Esempio di hotspot
Se confronti average_keyspace_hits
e maximum_keyspace_hits
per tutti gli shard del cluster, il confronto di questi valori indica dove si verifica l'hotspotting. Ad esempio, supponiamo che gli shard in un cluster di 6 shard abbiano il seguente
numero di hit:
- Shard 1 - 2 hit
- Shard 2 – 2 colpi
- Shard 3 – 2 colpi
- Shard 4 – 2 hit
- Shard 5 – 2 colpi
- Shard 6-8 hit
In questo esempio, average_keyspace_hits
restituisce un valore pari a 3 e
maximum_keyspace_hits
restituisce 8, il che indica che lo shard 6 è caldo.
Forniamo metriche a livello di nodo che puoi utilizzare per identificare gli hotspot nel cluster.