Métricas de monitorização suportadas

Esta página apresenta as métricas do Cloud Monitoring disponíveis para o Memorystore for Redis Cluster e descreve o que cada métrica mede.

Métricas do Cloud Monitoring

Métricas ao nível do cluster

Estas métricas oferecem uma vista geral do estado geral e do desempenho do cluster. São úteis para compreender a capacidade e a utilização gerais do cluster, bem como para identificar potenciais gargalos ou áreas de melhoria.

Nome da métrica Descrição
redis.googleapis.com/cluster/clients/average_connected_clients Número atual médio de ligações de clientes no cluster.
redis.googleapis.com/cluster/clients/maximum_connected_clients Número atual máximo de ligações de clientes no cluster.
redis.googleapis.com/cluster/clients/total_connected_clients Número atual de ligações de clientes ao cluster.
redis.googleapis.com/cluster/stats/total_connections_received_count A quantidade de ligações de clientes totais ao nível do cluster criadas no último minuto.
redis.googleapis.com/cluster/stats/cluster/stats/total_rejected_connections_count Número de ligações rejeitadas devido ao limite de clientes.
redis.googleapis.com/cluster/commandstats/total_usec_count O tempo total consumido por comando.
redis.googleapis.com/cluster/commandstats/total_calls_count Número total de chamadas para este comando num minuto.
redis.googleapis.com/cluster/cpu/average_utilization Utilização média da CPU para o cluster de 0,0 a 1,0.
redis.googleapis.com/cluster/cpu/maximum_utilization

Utilização máxima da CPU para o cluster de 0,0 a 1,0.

Certifique-se de que a utilização da CPU não excede 0,8 segundos para o nó principal e 0,5 segundos para cada réplica designada como réplica de leitura. Para mais informações, consulte as práticas recomendadas de utilização da CPU.

redis.googleapis.com/cluster/stats/average_expired_keys Número médio de eventos de expiração de chaves para os primários.
redis.googleapis.com/cluster/stats/maximum_expired_keys Número máximo de eventos de expiração de chaves para os primários.
redis.googleapis.com/cluster/stats/total_expired_keys_count Número total de eventos de expiração de chaves para os primários.
redis.googleapis.com/cluster/stats/average_evicted_keys Número médio de chaves removidas devido à capacidade de memória para os primários.
redis.googleapis.com/cluster/stats/maximum_evicted_keys Número máximo de chaves removidas devido à capacidade de memória nos primários
redis.googleapis.com/cluster/stats/total_evicted_keys_count Número de chaves removidas devido à capacidade de memória nos servidores primários.
redis.googleapis.com/cluster/keyspace/total_keys Número de chaves armazenadas no cluster.
redis.googleapis.com/cluster/stats/average_keyspace_hits Número médio de pesquisas bem-sucedidas de chaves no cluster.
redis.googleapis.com/cluster/stats/maximum_keyspace_hits Número máximo de pesquisas bem-sucedidas de chaves no cluster.
redis.googleapis.com/cluster/stats/total_keyspace_hits_count Número de pesquisas bem-sucedidas de chaves no cluster.
redis.googleapis.com/cluster/stats/average_keyspace_misses Número médio de pesquisas de chaves falhadas no cluster.
redis.googleapis.com/cluster/stats/maximum_keyspace_misses Número máximo de pesquisas de chaves com falhas no cluster.
redis.googleapis.com/cluster/stats/total_keyspace_misses_count Número total de pesquisas de chaves falhadas no cluster.
redis.googleapis.com/cluster/memory/average_utilization Utilização média da memória no cluster de 0,0 a 1,0.
redis.googleapis.com/cluster/memory/maximum_utilization Utilização máxima de memória no cluster de 0,0 a 1,0.
redis.googleapis.com/cluster/memory/total_used_memory Utilização total de memória do cluster.
redis.googleapis.com/cluster/memory/size Tamanho da memória do cluster.
redis.googleapis.com/cluster/replication/average_ack_lag Atraso de confirmação médio (em segundos) das réplicas no cluster.

O atraso de confirmação é um gargalo no nó principal de um cluster. Este gargalo é causado pelas respetivas réplicas que não conseguem acompanhar as informações que o nó principal lhes envia. Quando isto acontece, o nó principal tem de aguardar a confirmação de que as réplicas receberam as informações. Isto pode abrandar as confirmações de transações e afetar o desempenho no nó principal.
redis.googleapis.com/cluster/replication/maximum_ack_lag Atraso máximo de confirmação (em segundos) das réplicas no cluster.
redis.googleapis.com/cluster/replication/average_offset_diff Diferença média de deslocamento de confirmação da replicação (em bytes) no cluster.

A diferença de deslocamento de confirmação da replicação refere-se ao número de bytes que não foram replicados entre as réplicas e os respetivos originais.
redis.googleapis.com/cluster/replication/maximum_offset_diff Diferença máxima de desvio de replicação (em bytes) no cluster.

A diferença de desvio de replicação refere-se ao número de bytes que não foram replicados entre uma réplica e os respetivos originais.
redis.googleapis.com/cluster/stats/total_net_input_bytes_count Contagem de bytes de rede recebidos pelos pontos finais do cluster.
redis.googleapis.com/cluster/stats/total_net_output_bytes_count Contagem de bytes de rede de saída enviados dos pontos finais do cluster.

Métricas ao nível do nó

Estas métricas oferecem estatísticas detalhadas sobre o estado e o desempenho de nós individuais no cluster. São úteis para resolver problemas com nós específicos e otimizar o respetivo desempenho.

Nome da métrica Descrição
redis.googleapis.com/cluster/node/clients/connected_clients Número de clientes ligados ao nó do cluster.
redis.googleapis.com/cluster/node/clients/blocked_clients Número de ligações de clientes bloqueadas pelo nó do cluster.
redis.googleapis.com/cluster/node/server/uptime Mede o tempo de atividade do nó do cluster.
redis.googleapis.com/cluster/node/stats/connections_received_count A contagem do total de ligações de clientes criadas no último minuto no nó do cluster.
redis.googleapis.com/cluster/node/stats/rejected_connections_count Número de ligações rejeitadas devido ao limite de clientes máximo do nó do cluster.
redis.googleapis.com/cluster/node/commandstats/usec_count O tempo total consumido por comando no nó do cluster.
redis.googleapis.com/cluster/node/commandstats/calls_count O número total de chamadas para este comando no nó do cluster num minuto.
redis.googleapis.com/cluster/node/cpu/utilization Utilização da CPU para o nó do cluster de 0,0 a 1,0.
redis.googleapis.com/cluster/node/stats/expired_keys_count Número total de eventos de expiração no nó do cluster.
redis.googleapis.com/cluster/node/stats/evicted_keys_count O número total de chaves removidas pelo nó do cluster.
redis.googleapis.com/cluster/node/keyspace/total_keys Número de chaves armazenadas no nó do cluster.
redis.googleapis.com/cluster/node/stats/keyspace_hits_count Número de pesquisas bem-sucedidas de chaves no nó do cluster.
redis.googleapis.com/cluster/node/stats/keyspace_misses_count Número de falhas na procura de chaves no nó do cluster.
redis.googleapis.com/cluster/node/memory/utilization Utilização da memória no nó do cluster de 0,0 a 1,0.
redis.googleapis.com/cluster/node/memory/usage Utilização total da memória do nó do cluster.
redis.googleapis.com/cluster/node/stats/net_input_bytes_count Contagem de bytes de rede recebidos pelo nó do cluster.
redis.googleapis.com/cluster/node/stats/net_output_bytes_count A quantidade de bytes de rede de saída enviados a partir do nó do cluster.
redis.googleapis.com/cluster/node/replication/offset Mede os bytes de desvio de replicação do nó do cluster.
redis.googleapis.com/cluster/node/server/healthy Determina se um nó de cluster está disponível e a funcionar corretamente. Esta métrica está em pré-visualização.

Métricas de replicação entre regiões

Esta secção apresenta as métricas usadas para a replicação entre regiões.

Nome da métrica Descrição
redis.googleapis.com/cluster/cross_cluster_replication/secondary_replication_links Esta métrica mostra o número de associações de fragmentos entre os clusters principal e secundário. Num grupo de replicação entre regiões (CRR), um cluster principal comunica o número de links de replicação CRR que tem com os clusters secundários no grupo. Para cada cluster secundário, espera-se que este número seja igual ao número de fragmentos. Se, inesperadamente, o número descer abaixo do número de fragmentos, isto identifica o número de fragmentos em que a replicação entre o replicador e o seguidor cessou. Num estado ideal, esta métrica deve ter o mesmo número que a contagem de fragmentos do cluster principal.
redis.googleapis.com/cluster/cross_cluster_replication/secondary_maximum_replication_offset_diff Diferença máxima de desvio de replicação entre fragmentos principais e fragmentos secundários.
redis.googleapis.com/cluster/cross_cluster_replication/secondary_average_replication_offset_diff Diferença média de desvio de replicação entre fragmentos principais e fragmentos secundários.

Métricas de cópia de segurança

Esta secção apresenta as métricas de cópia de segurança e importação.

Métricas ao nível do cluster

Nome da métrica Descrição
redis.googleapis.com/cluster/backup/last_backup_start_time A hora de início da última operação de cópia de segurança.
redis.googleapis.com/cluster/backup/last_backup_status O estado da última operação de cópia de segurança. Os estados são 1 (êxito) e 0 (falha).
redis.googleapis.com/cluster/backup/last_backup_duration A duração da última operação de cópia de segurança (em milissegundos).
redis.googleapis.com/cluster/backup/last_backup_size O tamanho da última cópia de segurança (em bytes).
redis.googleapis.com/cluster/import/last_import_start_time A hora de início da última operação de importação.
redis.googleapis.com/cluster/import/last_import_duration A duração da última operação de importação(em milissegundos).

Métricas de persistência

Estas secções apresentam as métricas de persistência e fornecem exemplos de utilização das métricas de persistência.

Métricas de persistência da RDB

Métricas ao nível do cluster

Nome da métrica Descrição
redis.googleapis.com/cluster/persistence/rdb_saves_count Esta métrica mostra o número cumulativo de vezes que o cluster tirou uma captura instantânea da RDB (também conhecida como save). Esta métrica tem um campo status_code. Para verificar se uma imagem instantânea falhou, pode filtrar o campo status_code para o seguinte erro: 3 - INTERNAL_ERROR
redis.googleapis.com/cluster/persistence/rdb_save_ages Esta métrica mostra uma imagem instantânea da distribuição da idade para todos os nós no cluster. Idealmente, quer que a distribuição tenha valores com um tempo de atraso inferior (ou o mesmo tempo) do que a frequência da sua captura instantânea.

Métricas ao nível do nó

Nome da métrica Descrição
redis.googleapis.com/cluster/node/persistence/rdb_bgsave_in_progress Esta métrica mostra se um RDB BGSAVE está atualmente em curso no nó do cluster. TRUE significa em curso.
redis.googleapis.com/cluster/node/persistence/rdb_last_bgsave_status Esta métrica mostra o êxito do último BGSAVE no nó do cluster. VERDADEIRO significa êxito. Se não tiver ocorrido nenhuma reescrita em segundo plano, o valor pode ser VERDADEIRO por predefinição.
redis.googleapis.com/cluster/node/persistence/rdb_saves_count Esta métrica mostra o número cumulativo de guardas de RDB executadas no nó do cluster.
redis.googleapis.com/cluster/node/persistence/rdb_last_save_age Esta métrica mostra o tempo em segundos desde a última captura de ecrã bem-sucedida.
redis.googleapis.com/cluster/node/persistence/rdb_next_save_time_until Esta métrica mostra o tempo em segundos que falta até à próxima captura de ecrã.
redis.googleapis.com/cluster/node/persistence/current_save_keys_total Esta métrica mostra o número de chaves na poupança RDB atual em execução no nó do cluster.

Métricas de persistência de AOF

Métricas ao nível do cluster

Nome da métrica Descrição
redis.googleapis.com/cluster/persistence/aof_fsync_lags Esta métrica mostra uma distribuição do atraso (desde a gravação de dados até à sincronização do armazenamento duradouro) para todos os nós no cluster. Só é emitido para clusters com appendfsync=everysec. Idealmente, quer ver a distribuição com valores que tenham um tempo de atraso inferior (ou o mesmo tempo) do que a frequência de sincronização do AOF.
redis.googleapis.com/cluster/persistence/aof_rewrite_count Esta métrica mostra o número cumulativo de vezes que um nó acionou uma reescrita de AOF para o seu cluster. Esta métrica tem um campo status_code. Para verificar se as reescritas de AOF estão a falhar, pode filtrar o campo status_code para o seguinte erro: 3 - INTERNAL_ERROR

Métricas ao nível do nó

Nome da métrica Descrição
redis.googleapis.com/cluster/node/persistence/aof_last_write_status Esta métrica mostra o êxito da gravação AOF mais recente no nó do cluster. VERDADEIRO significa êxito. Se não tiver ocorrido nenhuma gravação, o valor pode ser predefinido como VERDADEIRO.
redis.googleapis.com/cluster/node/persistence/aof_last_bgrewrite_status Esta métrica mostra o êxito da última operação bgrewrite AOF no nó do cluster. VERDADEIRO significa êxito. Se não tiver ocorrido nenhuma reescrita em segundo plano, o valor pode ser VERDADEIRO por predefinição.
redis.googleapis.com/cluster/node/persistence/aof_fsync_lag Esta métrica mostra o atraso da AOF entre a memória e o armazenamento persistente no nó do cluster. Só é aplicável a clusters com AOF ativado onde appendfsync=EVERYSEC
redis.googleapis.com/cluster/node/persistence/aof_rewrites_count Esta métrica mostra a contagem de reescritas de AOF no nó do cluster. Para verificar se as reescritas de AOF estão a falhar, pode filtrar o campo status_code para o seguinte erro: 3 - INTERNAL_ERROR
redis.googleapis.com/cluster/node/persistence/aof_fsync_errors_count Esta métrica mostra a contagem de erros de chamadas fsync() de AOF e só é aplicável a clusters com AOF ativado onde appendfsync=EVERYSEC|ALWAYS.

Métricas de persistência comuns

Métricas aplicáveis aos mecanismos de persistência AOF e RDB.

Métricas ao nível do nó

Nome da métrica Descrição
redis.googleapis.com/cluster/node/persistence/auto_restore_count Esta métrica mostra a contagem de restauros a partir do ficheiro de despejo (AOF ou RDB).

Exemplos de utilização de métricas de persistência

Verificar se as operações de escrita AOF causam latência e pressão de memória

Suponhamos que deteta um aumento da latência ou da utilização de memória no cluster ou no nó no cluster. Neste caso, recomendamos que verifique se a utilização adicional está relacionada com a persistência do AOF.

Uma vez que sabe que as operações de reescrita de AOF podem acionar picos de carga transitórios, pode inspecionar a métrica aof_rewrites_count, que lhe dá a contagem cumulativa de reescritas de AOF ao longo da duração do cluster ou do nó no cluster. Suponhamos que esta métrica mostra que os incrementos na contagem de reescritas correspondem a aumentos na latência. Nesta circunstância, pode resolver o problema reduzindo a taxa de gravação ou aumentando a contagem de fragmentos para reduzir a frequência de reescritas.

Verificar se as operações de gravação de RDB causam latência e pressão de memória

Suponhamos que deteta um aumento da latência ou da utilização de memória no cluster ou no nó no cluster. Neste caso, recomendamos que verifique se a utilização adicional está relacionada com a persistência RDB.

Uma vez que sabe que as operações de gravação de RDB podem acionar picos de carga transitórios, pode inspecionar a métrica rdb_saves_count, que indica a contagem cumulativa de gravações de RDB durante a duração do cluster ou do nó no cluster. Suponhamos que esta métrica mostra que os incrementos na contagem de poupanças da RDB correspondem a aumentos na latência. Nesta circunstância, pode reduzir o intervalo de instantâneos da RDB para diminuir a frequência de reescritas. Também pode expandir o cluster para reduzir os níveis de carga de base.

Interpretar métricas do Memorystore for Redis Cluster

Conforme se pode ver na lista acima, muitas das métricas partilham três categorias: média, máximo e total.

Para o Memorystore for Redis Cluster, fornecemos variações médias e máximas da mesma métrica para que possa usá-las ambas para identificar pontos críticos para essa família de métricas.

O valor total da métrica é independente e fornece estatísticas separadas não relacionadas com o objetivo de identificação de pontos críticos de média e máximo.

Compreender as métricas médias e máximas

Suponhamos que compara os valores de average_keyspace_hits e maximum_keyspace_hits para o seu cluster. À medida que a diferença entre as duas métricas aumenta, uma diferença maior indica uma maior concentração de acessos na sua instância. Idealmente, deve ter um valor próximo entre average_keyspace_hits e maximum_keyspace_hits, porque isto significa que os acessos estão mais uniformemente distribuídos na sua instância.

Este princípio aplica-se a todas as métricas que têm as variações média e máxima da mesma métrica.

Exemplo de pontos ativos

Se comparar average_keyspace_hits e maximum_keyspace_hits para todos os fragmentos no cluster, a comparação destes valores indica onde ocorre o hot spotting. Por exemplo, suponha que os fragmentos num cluster de 6 fragmentos têm o seguinte número de resultados:

  • Fragmento 1 – 2 acertos
  • Fragmento 2 – 2 resultados
  • Fragmento 3 – 2 resultados
  • Fragmento 4 – 2 resultados
  • Fragmento 5 – 2 resultados
  • Fragmento 6 – 8 hits

Neste exemplo, average_keyspace_hits devolve um valor de 3 e maximum_keyspace_hits devolve 8, o que indica que o fragmento 6 está ativo.

Fornecemos métricas ao nível do nó que pode usar para identificar pontos críticos no cluster.