Métricas de monitoramento com suporte

Nesta página, listamos as métricas do Cloud Monitoring disponíveis para o cluster do Memorystore para Redis e descrevemos o que cada métrica mede.

Métricas do Cloud Monitoring

Métricas no nível do cluster

Essas métricas oferecem uma visão geral da integridade e do desempenho do cluster. Eles são úteis para entender a capacidade e a utilização geral do cluster, além de identificar possíveis gargalos ou áreas de melhoria.

Nome da métrica Descrição
redis.googleapis.com/cluster/clients/average_connected_clients Número médio atual de conexões de cliente no cluster.
redis.googleapis.com/cluster/clients/maximum_connected_clients Número máximo atual de conexões de cliente no cluster.
redis.googleapis.com/cluster/clients/total_connected_clients Número atual de conexões de cliente com o cluster.
redis.googleapis.com/cluster/stats/total_connections_received_count Contagem do total de conexões de cliente no nível do cluster criadas no último minuto.
redis.googleapis.com/cluster/stats/cluster/stats/total_rejected_connections_count Número de conexões rejeitadas devido ao limite de maxclients.
redis.googleapis.com/cluster/commandstats/total_usec_count O tempo total consumido por comando.
redis.googleapis.com/cluster/commandstats/total_calls_count Número total de chamadas para esse comando em um minuto.
redis.googleapis.com/cluster/cpu/average_utilization Utilização média da CPU para o cluster de 0,0 a 1,0.
redis.googleapis.com/cluster/cpu/maximum_utilization

Utilização máxima da CPU para o cluster de 0,0 a 1,0.

Verifique se a utilização da CPU não excede 0,8 segundo para o nó principal e 0,5 segundo para cada réplica de leitura. Para mais informações, consulte Práticas recomendadas de uso da CPU.

redis.googleapis.com/cluster/stats/average_expired_keys Número médio de eventos principais de expiração para os principais.
redis.googleapis.com/cluster/stats/maximum_expired_keys Número máximo de eventos de expiração de chave para os principais.
redis.googleapis.com/cluster/stats/total_expired_keys_count Número total de eventos de expiração de chaves para os primários.
redis.googleapis.com/cluster/stats/average_evicted_keys Número médio de chaves removidas devido à capacidade de memória dos primários.
redis.googleapis.com/cluster/stats/maximum_evicted_keys Número máximo de chaves removidas devido à capacidade de memória nos primários
redis.googleapis.com/cluster/stats/total_evicted_keys_count Número de chaves removidas devido à capacidade de memória nos primários.
redis.googleapis.com/cluster/keyspace/total_keys Número de chaves armazenadas no cluster.
redis.googleapis.com/cluster/stats/average_keyspace_hits Número médio de pesquisas bem-sucedidas de chaves no cluster.
redis.googleapis.com/cluster/stats/maximum_keyspace_hits Número máximo de pesquisas bem-sucedidas de chaves no cluster.
redis.googleapis.com/cluster/stats/total_keyspace_hits_count Número de pesquisas de chaves bem-sucedidas no cluster.
redis.googleapis.com/cluster/stats/average_keyspace_misses Número médio de falhas na busca de chaves no cluster.
redis.googleapis.com/cluster/stats/maximum_keyspace_misses Número máximo de pesquisas com falha de chaves no cluster.
redis.googleapis.com/cluster/stats/total_keyspace_misses_count Número total de pesquisas com falha de chaves no cluster.
redis.googleapis.com/cluster/memory/average_utilization Utilização média da memória no cluster, de 0,0 a 1,0.
redis.googleapis.com/cluster/memory/maximum_utilization Utilização máxima de memória no cluster, de 0,0 a 1,0.
redis.googleapis.com/cluster/memory/total_used_memory Uso total da memória do cluster.
redis.googleapis.com/cluster/memory/size Tamanho da memória do cluster.
redis.googleapis.com/cluster/replication/average_ack_lag Atraso médio de confirmação (em segundos) das réplicas no cluster.

O atraso de confirmação é um gargalo no nó principal de um cluster. Esse gargalo é causado pelas réplicas que não conseguem acompanhar as informações enviadas pelo nó principal. Quando isso acontece, o nó principal precisa aguardar o reconhecimento de que as réplicas receberam as informações. Isso pode diminuir a velocidade dos commits de transação e prejudicar o desempenho do nó principal.
redis.googleapis.com/cluster/replication/maximum_ack_lag Atraso máximo de confirmação (em segundos) das réplicas no cluster.
redis.googleapis.com/cluster/replication/average_offset_diff Diferença média de deslocamento de confirmação de replicação (em bytes) no cluster.

A diferença de deslocamento de confirmação de replicação significa o número de bytes que não foram replicados entre as réplicas e as primárias.
redis.googleapis.com/cluster/replication/maximum_offset_diff Diferença máxima de deslocamento de replicação (em bytes) no cluster.

A diferença de deslocamento de replicação significa o número de bytes que não foram replicados entre uma réplica e os elementos principais dela.
redis.googleapis.com/cluster/stats/total_net_input_bytes_count Contagem de bytes de rede recebidos pelos endpoints do cluster.
redis.googleapis.com/cluster/stats/total_net_output_bytes_count Contagem de bytes de rede de saída enviados dos endpoints do cluster.

Métricas no nível do nó

Essas métricas oferecem insights detalhados sobre a integridade e a performance de nós individuais no cluster. Eles são úteis para solucionar problemas com nós específicos e otimizar o desempenho deles.

Nome da métrica Descrição
redis.googleapis.com/cluster/node/clients/connected_clients Número de clientes conectados ao nó do cluster.
redis.googleapis.com/cluster/node/clients/blocked_clients Número de conexões de cliente bloqueadas pelo nó do cluster.
redis.googleapis.com/cluster/node/server/uptime Mede o tempo de atividade do nó do cluster.
redis.googleapis.com/cluster/node/stats/connections_received_count Contagem do total de conexões de cliente criadas no último minuto no nó do cluster.
redis.googleapis.com/cluster/node/stats/rejected_connections_count Número de conexões rejeitadas devido ao limite de maxclients pelo nó do cluster.
redis.googleapis.com/cluster/node/commandstats/usec_count O tempo total consumido por comando no nó do cluster.
redis.googleapis.com/cluster/node/commandstats/calls_count Número total de chamadas para esse comando no nó do cluster em um minuto.
redis.googleapis.com/cluster/node/cpu/utilization Uso da CPU para o nó do cluster de 0,0 a 1,0.
redis.googleapis.com/cluster/node/stats/expired_keys_count Número total de eventos de expiração no nó do cluster.
redis.googleapis.com/cluster/node/stats/evicted_keys_count Número total de chaves removidas pelo nó do cluster.
redis.googleapis.com/cluster/node/keyspace/total_keys Número de chaves armazenadas no nó do cluster.
redis.googleapis.com/cluster/node/stats/keyspace_hits_count Número de pesquisas bem-sucedidas de chaves no nó do cluster.
redis.googleapis.com/cluster/node/stats/keyspace_misses_count Número de pesquisas com falha de chaves no nó do cluster.
redis.googleapis.com/cluster/node/memory/utilization Utilização da memória no nó do cluster de 0,0 a 1,0.
redis.googleapis.com/cluster/node/memory/usage Uso total da memória do nó do cluster.
redis.googleapis.com/cluster/node/stats/net_input_bytes_count Contagem de bytes de rede recebidos pelo nó do cluster.
redis.googleapis.com/cluster/node/stats/net_output_bytes_count Contagem de bytes de rede de saída enviados do nó do cluster.
redis.googleapis.com/cluster/node/replication/offset Mede os bytes de compensação de replicação do nó do cluster.
redis.googleapis.com/cluster/node/server/healthy Determina se um nó de cluster está disponível e funcionando corretamente. Essa métrica está em Pré-lançamento.

Métricas de replicação entre regiões

Nesta seção, listamos as métricas usadas para replicação entre regiões.

Nome da métrica Descrição
redis.googleapis.com/cluster/cross_cluster_replication/secondary_replication_links Essa métrica mostra o número de links de fragmento entre os clusters principal e secundário. Em um grupo de replicação entre regiões (CRR, na sigla em inglês), um cluster principal informa o número de links de replicação de CRR que ele tem com os clusters secundários no grupo. Para cada cluster secundário, esse número precisa ser igual ao número de fragmentos. Se, inesperadamente, o número cair abaixo do número de fragmentos, isso vai identificar o número de fragmentos em que a replicação entre o replicador e o seguidor foi interrompida. Em um estado ideal, essa métrica deve ter o mesmo número que a contagem de fragmentos do cluster principal.
redis.googleapis.com/cluster/cross_cluster_replication/secondary_maximum_replication_offset_diff Diferença máxima de deslocamento de replicação entre fragmentos principais e secundários.
redis.googleapis.com/cluster/cross_cluster_replication/secondary_average_replication_offset_diff Diferença média de deslocamento de replicação entre fragmentos principais e secundários.

Métricas de backup

Esta seção lista as métricas de backup e importação.

Métricas no nível do cluster

Nome da métrica Descrição
redis.googleapis.com/cluster/backup/last_backup_start_time O horário de início da última operação de backup.
redis.googleapis.com/cluster/backup/last_backup_status O status da última operação de backup. Os status são 1 (sucesso) e 0 (falha).
redis.googleapis.com/cluster/backup/last_backup_duration A duração da última operação de backup (em milissegundos).
redis.googleapis.com/cluster/backup/last_backup_size O tamanho do último backup (em bytes).
redis.googleapis.com/cluster/import/last_import_start_time O horário de início da última operação de importação.
redis.googleapis.com/cluster/import/last_import_duration A duração da última operação de importação(em milissegundos).

Métricas de persistência

Esta seção lista as métricas de persistência e fornece exemplos de casos de uso para elas.

Métricas de persistência do RDB

Métricas no nível do cluster

Nome da métrica Descrição
redis.googleapis.com/cluster/persistence/rdb_saves_count Essa métrica mostra o número cumulativo de vezes que o cluster fez um snapshot do RDB (também conhecido como save). Essa métrica tem um campo status_code. Para verificar se um snapshot falhou, filtre o campo status_code pelo seguinte erro: 3 - INTERNAL_ERROR
redis.googleapis.com/cluster/persistence/rdb_save_ages Essa métrica mostra a idade de um snapshot de distribuição para todos os nós do cluster. O ideal é que a distribuição tenha valores com menos tempo de atraso (ou o mesmo tempo) que a frequência de snapshots.

Métricas no nível do nó

Nome da métrica Descrição
redis.googleapis.com/cluster/node/persistence/rdb_bgsave_in_progress Essa métrica mostra se um BGSAVE de RDB está em andamento no nó do cluster. TRUE significa em andamento.
redis.googleapis.com/cluster/node/persistence/rdb_last_bgsave_status Essa métrica mostra o sucesso do último BGSAVE no nó do cluster. TRUE significa sucesso. Se nenhum bgrewrite tiver ocorrido, o valor poderá ser TRUE por padrão.
redis.googleapis.com/cluster/node/persistence/rdb_saves_count Essa métrica mostra o número cumulativo de salvamentos de RDB executados no nó do cluster.
redis.googleapis.com/cluster/node/persistence/rdb_last_save_age Essa métrica mostra o tempo em segundos desde o último snapshot bem-sucedido.
redis.googleapis.com/cluster/node/persistence/rdb_next_save_time_until Essa métrica mostra o tempo em segundos que falta para o próximo snapshot.
redis.googleapis.com/cluster/node/persistence/current_save_keys_total Essa métrica mostra o número de chaves na gravação RDB atual em execução no nó do cluster.

Métricas de persistência de AOF

Métricas no nível do cluster

Nome da métrica Descrição
redis.googleapis.com/cluster/persistence/aof_fsync_lags Essa métrica mostra uma distribuição do atraso (da gravação de dados até a sincronização de armazenamento durável) para todos os nós do cluster. Ele só é emitido para clusters com appendfsync=everysec. O ideal é que a distribuição tenha valores com menos tempo de atraso (ou o mesmo tempo) que a frequência de sincronização de AOF.
redis.googleapis.com/cluster/persistence/aof_rewrite_count Essa métrica mostra o número cumulativo de vezes que um nó acionou uma reescrita de AOF para seu cluster. Essa métrica tem um campo status_code. Para verificar se as reescritas de AOF estão falhando, filtre o campo status_code pelo seguinte erro: 3 - INTERNAL_ERROR

Métricas no nível do nó

Nome da métrica Descrição
redis.googleapis.com/cluster/node/persistence/aof_last_write_status Essa métrica mostra o sucesso da gravação AOF mais recente no nó do cluster. TRUE significa sucesso. Se nenhuma gravação tiver ocorrido, o valor poderá ser definido como TRUE por padrão.
redis.googleapis.com/cluster/node/persistence/aof_last_bgrewrite_status Essa métrica mostra o sucesso da última operação AOF bgrewrite no nó do cluster. TRUE significa sucesso. Se nenhum bgrewrite tiver ocorrido, o valor poderá ser TRUE por padrão.
redis.googleapis.com/cluster/node/persistence/aof_fsync_lag Essa métrica mostra o atraso da AOF entre a memória e o armazenamento permanente no nó do cluster. Ele só é aplicável a clusters com AOF ativado em que appendfsync=EVERYSEC
redis.googleapis.com/cluster/node/persistence/aof_rewrites_count Essa métrica mostra a contagem de reescritas de AOF no nó do cluster. Para verificar se as reescritas de AOF estão falhando, filtre o campo status_code pelo seguinte erro: 3 - INTERNAL_ERROR
redis.googleapis.com/cluster/node/persistence/aof_fsync_errors_count Essa métrica mostra a contagem de erros de chamada fsync() do AOF e só é aplicável a clusters ativados para AOF em que appendfsync=EVERYSEC|ALWAYS.

Métricas comuns de persistência

Métricas aplicáveis aos mecanismos de persistência AOF e RDB.

Métricas no nível do nó

Nome da métrica Descrição
redis.googleapis.com/cluster/node/persistence/auto_restore_count Essa métrica mostra a contagem de restaurações do arquivo de despejo (AOF ou RDB).

Exemplos de casos de uso para métricas de persistência

Verificar se as operações de gravação de AOF causam latência e pressão de memória

Suponha que você detecte aumento na latência ou no uso de memória no cluster ou no nó dentro dele. Nesse caso, verifique se o uso extra está relacionado à persistência de AOF.

Como você sabe que as operações de reescrita de AOF podem acionar picos de carga temporários, é possível inspecionar a métrica aof_rewrites_count, que fornece a contagem cumulativa de reescritas de AOF durante o ciclo de vida do cluster ou do nó dentro do cluster. Suponha que essa métrica mostre que os incrementos na contagem de reescritas correspondem a aumentos na latência. Nesse caso, é possível resolver o problema reduzindo a taxa de gravação ou aumentando a contagem de fragmentos para diminuir a frequência de regravações.

Verificar se as operações de salvamento do RDB causam latência e pressão de memória

Suponha que você detecte aumento na latência ou no uso de memória no cluster ou no nó dentro dele. Nesse caso, verifique se o uso extra está relacionado à persistência do RDB.

Como você sabe que as operações de salvamento do RDB podem acionar picos de carga temporários, inspecione a métrica rdb_saves_count, que fornece a contagem cumulativa de salvamentos do RDB durante o ciclo de vida do cluster ou do nó dentro do cluster. Suponha que essa métrica mostre que os incrementos na contagem de salvamentos do RDB correspondem a aumentos na latência. Nesse caso, é possível reduzir o intervalo do snapshot do RDB para diminuir a frequência de reescritas. Também é possível escalonar horizontalmente a escala horizontal do cluster para reduzir os níveis de carga de referência.

Como interpretar métricas do Memorystore for Redis Cluster

Como visto na lista acima, muitas das métricas compartilham três categorias: média, máximo e total.

Para o Memorystore para Redis Cluster, oferecemos variações média e máxima da mesma métrica para que você possa usar as duas e identificar o hotspotting dessa família de métricas.

O valor total da métrica é independente e fornece insights separados não relacionados à finalidade de hotspotting de média e máximo.

Como entender as métricas de média e máxima

Suponha que você compare os valores average_keyspace_hits e maximum_keyspace_hits do seu cluster. À medida que a diferença entre as duas métricas aumenta, uma diferença maior indica mais pontos de acesso de hits na sua instância. O ideal é ter um valor próximo entre average_keyspace_hits e maximum_keyspace_hits, porque isso significa que os hits estão distribuídos de maneira mais uniforme na sua instância.

Esse princípio se aplica a todas as métricas que têm as variações média e máxima da mesma métrica.

Exemplo de ponto de acesso

Se você comparar average_keyspace_hits e maximum_keyspace_hits para todos os fragmentos no cluster, esses valores vão indicar onde ocorre o hot spotting. Por exemplo, suponha que os fragmentos em um cluster de seis fragmentos tenham o seguinte número de hits:

  • Fragmento 1: 2 hits
  • Fragmento 2: 2 hits
  • Fragmento 3: 2 hits
  • Fragmento 4: 2 hits
  • Fragmento 5: 2 hits
  • Fragmento 6: 8 hits

Neste exemplo, average_keyspace_hits retorna um valor de 3, e maximum_keyspace_hits retorna 8, indicando que o fragmento 6 está quente.

Fornecemos métricas no nível do nó que podem ser usadas para identificar pontos de acesso no cluster.