Métricas de monitoramento com suporte

Esta página lista as métricas do Cloud Monitoring disponíveis para o Memorystore para Valkey e descreve o que cada métrica mede.

Métricas do Cloud Monitoring

Nome da métrica Descrição
memorystore.googleapis.com/instance/clients/average_connected_clients Média do número atual de conexões de cliente em todos os nós da instância.
memorystore.googleapis.com/instance/clients/maximum_connected_clients Número máximo atual de conexões de cliente para um único nó na instância.
memorystore.googleapis.com/instance/clients/maximum_connection_duration Duração máxima de uma conexão de cliente para um único nó na instância.
memorystore.googleapis.com/instance/clients/total_connected_clients Número atual de conexões de cliente com a instância.
memorystore.googleapis.com/instance/stats/total_connections_received_count Contagem do total de conexões de cliente no nível da instância criadas no último minuto.
memorystore.googleapis.com/instance/stats/total_rejected_connections_count Número de conexões rejeitadas devido ao limite de maxclients.
memorystore.googleapis.com/instance/commandstats/total_usec_count O tempo total consumido por comando.
memorystore.googleapis.com/instance/commandstats/total_calls_count Número total de chamadas para esse comando em um minuto.
memorystore.googleapis.com/instance/cpu/average_utilization Uso médio da CPU em todos os nós da instância, de 0,0 a 1,0.
memorystore.googleapis.com/instance/cpu/maximum_utilization Utilização máxima da CPU para um único nó na instância, de 0,0 a 1,0.
memorystore.googleapis.com/instance/stats/average_expired_keys Número médio de eventos de expiração de chaves para os primários de todos os nós na instância.
memorystore.googleapis.com/instance/stats/maximum_expired_keys Número máximo de eventos de expiração de chaves para um único nó na instância do primário.
memorystore.googleapis.com/instance/stats/total_expired_keys_count Número total de eventos de expiração de chaves em primários de todos os nós na instância.
memorystore.googleapis.com/instance/stats/average_evicted_keys Número médio de chaves removidas devido à capacidade de memória em primaries de todos os nós na instância.
memorystore.googleapis.com/instance/stats/maximum_evicted_keys Número máximo de chaves removidas de um único nó na instância devido à capacidade de memória do primário.
memorystore.googleapis.com/instance/stats/total_evicted_keys_count Número de chaves removidas devido à capacidade de memória em primários de todos os nós na instância.
memorystore.googleapis.com/instance/keyspace/total_keys Número de chaves armazenadas na instância.
memorystore.googleapis.com/instance/stats/average_keyspace_hits Número médio de pesquisas bem-sucedidas de chaves em todos os nós da instância.
memorystore.googleapis.com/instance/stats/maximum_keyspace_hits Número máximo de pesquisas bem-sucedidas de chaves para um único nó na instância.
memorystore.googleapis.com/instance/stats/total_keyspace_hits_count Número de pesquisas bem-sucedidas de chaves para a instância.
memorystore.googleapis.com/instance/stats/average_keyspace_misses Número médio de pesquisas de chaves com falha em todos os nós da instância.
memorystore.googleapis.com/instance/stats/maximum_keyspace_misses Número máximo de buscas com falha de chaves para um único nó na instância.
memorystore.googleapis.com/instance/stats/total_keyspace_misses_count Número total de pesquisas de chaves com falha para a instância.
memorystore.googleapis.com/instance/memory/average_utilization Utilização média da memória em todos os nós da instância. O valor varia de 0,0 a 1,0.
memorystore.googleapis.com/instance/memory/maximum_utilization Utilização máxima de memória para um único nó na instância, de 0,0 a 1,0.
memorystore.googleapis.com/instance/memory/total_used_memory Uso total de memória da instância.
memorystore.googleapis.com/instance/memory/size Tamanho da memória da instância.
memorystore.googleapis.com/instance/replication/average_ack_lag Atraso médio da replicação (em segundos) de réplicas em todos os nós da instância.

O atraso da replicação (em segundos) indica o quanto as réplicas estão atrasadas em relação às primárias.
memorystore.googleapis.com/instance/replication/maximum_ack_lag Atraso máximo de confirmação de replicação (em segundos) para uma única réplica na instância.

O atraso de confirmação de replicação (em segundos) indica o quanto os reconhecimentos de replicação estão atrasados em relação aos primários.
memorystore.googleapis.com/instance/replication/average_offset_diff Média da diferença de deslocamento de confirmação de replicação (em bytes) em todos os nós da instância.

A diferença de deslocamento de confirmação de replicação significa o número de bytes que não foram replicados entre as réplicas e as primárias.
memorystore.googleapis.com/instance/replication/maximum_offset_diff Diferença máxima de deslocamento de replicação (em bytes) para um único nó na instância.

A diferença de deslocamento de replicação é o número de bytes que não foram replicados entre as réplicas e as primárias.
memorystore.googleapis.com/instance/stats/total_net_input_bytes_count Contagem de bytes de rede recebidos pelos endpoints da instância.
memorystore.googleapis.com/instance/stats/total_net_output_bytes_count Contagem de bytes de rede de saída enviados dos endpoints da instância.

Métricas de persistência

Esta seção lista as métricas de persistência e fornece exemplos de casos de uso para métricas de persistência.

Métricas de persistência de RDB

Nome da métrica Descrição
memorystore.googleapis.com/instance/persistence/load_count Contagem cumulativa de cargas do arquivo de despejo na instância (AOF ou RDB).
memorystore.googleapis.com/instance/persistence/rdb_saves_count Essa métrica mostra o número acumulado de vezes que a instância fez um snapshot do RDB (também conhecido como salvar). Essa métrica tem um campo status_code. Para verificar se um snapshot falhou, filtre o campo status_code para o seguinte erro: 3 - INTERNAL_ERROR
memorystore.googleapis.com/instance/persistence/rdb_last_success_ages Essa métrica mostra a idade de um resumo de distribuição para todos os nós da instância. O ideal é que a distribuição tenha valores com menos tempo de atraso (ou o mesmo tempo) do que a frequência de snapshots.
memorystore.googleapis.com/instance/persistence/rejected_writes_count Contagem cumulativa de comandos de gravação negados na instância devido à falha na persistência.

Métricas de persistência de AOF

Nome da métrica Descrição
memorystore.googleapis.com/instance/persistence/aof_fsync_lags Essa métrica mostra uma distribuição do atraso (da gravação de dados à sincronização de armazenamento durável) para todos os nós na instância. Ele é emitido apenas para instâncias com appendfsync=everysec. O ideal é que a distribuição tenha valores com menos tempo de atraso (ou o mesmo tempo) do que a frequência de sincronização da AOF.
memorystore.googleapis.com/instance/persistence/aof_rewrite_count Essa métrica mostra o número cumulativo de vezes que um nó acionou uma regravação de AOF na sua instância. Essa métrica tem um campo status_code. Para verificar se as reescritas de AOF estão falhando, filtre o campo status_code para o seguinte erro: 3 - INTERNAL_ERROR

Exemplos de casos de uso para métricas de persistência

Verificar se as operações de gravação de AOF causam latência e pressão de memória

Suponha que você detecte um aumento na latência ou no uso de memória na sua instância. Nesse caso, verifique se o uso extra está relacionado à persistência da AOF.

Como você sabe que as operações de reescrita de AOF podem acionar picos de carga temporários, inspecione a métrica aof_rewrites_count, que mostra a contagem cumulativa de reescritas de AOF durante a vida útil da instância. Suponha que essa métrica mostre que os incrementos na contagem de reescritos correspondem a aumentos de latência. Nesse caso, é possível resolver o problema reduzindo a taxa de gravação ou aumentando a contagem de fragmentos para reduzir a frequência de reescritas.

Como verificar se as operações de salvamento de RDB causam latência e pressão de memória

Suponha que você detecte um aumento na latência ou no uso de memória na sua instância. Nesse caso, verifique se o uso extra está relacionado à persistência do RDB.

Como você sabe que as operações de salvamento de RDB podem acionar picos de carga temporários, é possível inspecionar a métrica rdb_saves_count, que mostra a contagem cumulativa de salvamentos de RDB durante a vida útil da instância. Suponha que essa métrica mostre que os incrementos na contagem de economias de RDB correspondem a aumentos de latência. Nessa situação, é possível reduzir o intervalo de snapshot do RDB para diminuir a frequência de reescritas. Você também pode escalonar horizontalmente a instância para reduzir os níveis de carga de referência.

Como interpretar as métricas do Memorystore para Valkey

Como mostrado na lista acima, muitas das métricas compartilham três categorias: média, máxima e total.

No Memorystore para Valkey, fornecemos variações médias e máximas da mesma métrica para que você possa usá-las para identificar o hotspoting dessa família de métricas.

O valor total da métrica é independente e fornece insights separados, sem relação com o propósito de divulgação de pontos de acesso de média e máximo.

Como entender as métricas média e máxima

Suponha que você compare os valores average_keyspace_hits e maximum_keyspace_hits da sua instância. À medida que a diferença entre as duas métricas aumenta, uma diferença maior indica mais pontos quentes de hits na sua instância. O ideal seria ter um valor próximo entre average_keyspace_hits e maximum_keyspace_hits, porque isso significa que os hits são distribuídos de maneira mais uniforme na sua instância.

Esse princípio se aplica a todas as métricas que têm as variações média e máxima da mesma métrica.

Exemplo de ponto de acesso

Se você comparar average_keyspace_hits e maximum_keyspace_hits para todos os fragmentos na sua instância, a comparação desses valores indicará onde ocorre o hot spotting. Por exemplo, suponha que os fragmentos em uma instância de 6 fragmentos tenham o seguinte número de acertos:

  • Fragmento 1 a 2 hits
  • Fragmento 2: 2 hits
  • Fragmento 3: 2 hits
  • Fragmento 4: 2 hits
  • Fragmento 5: 2 hits
  • Fragmento 6 a 8 hits

Neste exemplo, o average_keyspace_hits retorna um valor de 3, e o maximum_keyspace_hits retorna 8, indicando que o fragmento 6 está em alta.