Esta página foi traduzida pela API Cloud Translation.

Métricas de monitoramento com suporte

Nesta página, listamos as métricas do Cloud Monitoring disponíveis para o cluster do Memorystore para Redis e descrevemos o que cada métrica mede.

Métricas do Cloud Monitoring

Métricas no nível do cluster

Essas métricas oferecem uma visão geral da integridade e do desempenho do cluster. Eles são úteis para entender a capacidade e a utilização geral do cluster, além de identificar possíveis gargalos ou áreas de melhoria.

Nome da métrica	Descrição
`redis.googleapis.com/cluster/clients/average_connected_clients`	Número médio atual de conexões de cliente no cluster.
`redis.googleapis.com/cluster/clients/maximum_connected_clients`	Número máximo atual de conexões de cliente no cluster.
`redis.googleapis.com/cluster/clients/total_connected_clients`	Número atual de conexões de cliente com o cluster.
`redis.googleapis.com/cluster/stats/total_connections_received_count`	Contagem do total de conexões de cliente no nível do cluster criadas no último minuto.
`redis.googleapis.com/cluster/stats/cluster/stats/total_rejected_connections_count`	Número de conexões rejeitadas devido ao limite de maxclients.
`redis.googleapis.com/cluster/commandstats/total_usec_count`	O tempo total consumido por comando.
`redis.googleapis.com/cluster/commandstats/total_calls_count`	Número total de chamadas para esse comando em um minuto.
`redis.googleapis.com/cluster/cpu/average_utilization`	Utilização média da CPU para o cluster de 0,0 a 1,0.
`redis.googleapis.com/cluster/cpu/maximum_utilization`	Utilização máxima da CPU para o cluster de 0,0 a 1,0. Verifique se a utilização da CPU não excede 0,8 segundo para o nó principal e 0,5 segundo para cada réplica de leitura. Para mais informações, consulte Práticas recomendadas de uso da CPU.
`redis.googleapis.com/cluster/stats/average_expired_keys`	Número médio de eventos principais de expiração para os principais.
`redis.googleapis.com/cluster/stats/maximum_expired_keys`	Número máximo de eventos de expiração de chave para os principais.
`redis.googleapis.com/cluster/stats/total_expired_keys_count`	Número total de eventos de expiração de chaves para os primários.
`redis.googleapis.com/cluster/stats/average_evicted_keys`	Número médio de chaves removidas devido à capacidade de memória dos primários.
`redis.googleapis.com/cluster/stats/maximum_evicted_keys`	Número máximo de chaves removidas devido à capacidade de memória nos primários
`redis.googleapis.com/cluster/stats/total_evicted_keys_count`	Número de chaves removidas devido à capacidade de memória nos primários.
`redis.googleapis.com/cluster/keyspace/total_keys`	Número de chaves armazenadas no cluster.
`redis.googleapis.com/cluster/stats/average_keyspace_hits`	Número médio de pesquisas bem-sucedidas de chaves no cluster.
`redis.googleapis.com/cluster/stats/maximum_keyspace_hits`	Número máximo de pesquisas bem-sucedidas de chaves no cluster.
`redis.googleapis.com/cluster/stats/total_keyspace_hits_count`	Número de pesquisas de chaves bem-sucedidas no cluster.
`redis.googleapis.com/cluster/stats/average_keyspace_misses`	Número médio de falhas na busca de chaves no cluster.
`redis.googleapis.com/cluster/stats/maximum_keyspace_misses`	Número máximo de pesquisas com falha de chaves no cluster.
`redis.googleapis.com/cluster/stats/total_keyspace_misses_count`	Número total de pesquisas com falha de chaves no cluster.
`redis.googleapis.com/cluster/memory/average_utilization`	Utilização média da memória no cluster, de 0,0 a 1,0.
`redis.googleapis.com/cluster/memory/maximum_utilization`	Utilização máxima de memória no cluster, de 0,0 a 1,0.
`redis.googleapis.com/cluster/memory/total_used_memory`	Uso total da memória do cluster.
`redis.googleapis.com/cluster/memory/size`	Tamanho da memória do cluster.
`redis.googleapis.com/cluster/replication/average_ack_lag`	Atraso médio de confirmação (em segundos) das réplicas no cluster. O atraso de confirmação é um gargalo no nó principal de um cluster. Esse gargalo é causado pelas réplicas que não conseguem acompanhar as informações enviadas pelo nó principal. Quando isso acontece, o nó principal precisa aguardar o reconhecimento de que as réplicas receberam as informações. Isso pode diminuir a velocidade dos commits de transação e prejudicar o desempenho do nó principal.
`redis.googleapis.com/cluster/replication/maximum_ack_lag`	Atraso máximo de confirmação (em segundos) das réplicas no cluster.
`redis.googleapis.com/cluster/replication/average_offset_diff`	Diferença média de deslocamento de confirmação de replicação (em bytes) no cluster. A diferença de deslocamento de confirmação de replicação significa o número de bytes que não foram replicados entre as réplicas e as primárias.
`redis.googleapis.com/cluster/replication/maximum_offset_diff`	Diferença máxima de deslocamento de replicação (em bytes) no cluster. A diferença de deslocamento de replicação significa o número de bytes que não foram replicados entre uma réplica e os elementos principais dela.
`redis.googleapis.com/cluster/stats/total_net_input_bytes_count`	Contagem de bytes de rede recebidos pelos endpoints do cluster.
`redis.googleapis.com/cluster/stats/total_net_output_bytes_count`	Contagem de bytes de rede de saída enviados dos endpoints do cluster.

Métricas no nível do nó

Essas métricas oferecem insights detalhados sobre a integridade e a performance de nós individuais no cluster. Eles são úteis para solucionar problemas com nós específicos e otimizar o desempenho deles.

Nome da métrica	Descrição
`redis.googleapis.com/cluster/node/clients/connected_clients`	Número de clientes conectados ao nó do cluster.
`redis.googleapis.com/cluster/node/clients/blocked_clients`	Número de conexões de cliente bloqueadas pelo nó do cluster.
`redis.googleapis.com/cluster/node/server/uptime`	Mede o tempo de atividade do nó do cluster.
`redis.googleapis.com/cluster/node/stats/connections_received_count`	Contagem do total de conexões de cliente criadas no último minuto no nó do cluster.
`redis.googleapis.com/cluster/node/stats/rejected_connections_count`	Número de conexões rejeitadas devido ao limite de maxclients pelo nó do cluster.
`redis.googleapis.com/cluster/node/commandstats/usec_count`	O tempo total consumido por comando no nó do cluster.
`redis.googleapis.com/cluster/node/commandstats/calls_count`	Número total de chamadas para esse comando no nó do cluster em um minuto.
`redis.googleapis.com/cluster/node/cpu/utilization`	Uso da CPU para o nó do cluster de 0,0 a 1,0.
`redis.googleapis.com/cluster/node/stats/expired_keys_count`	Número total de eventos de expiração no nó do cluster.
`redis.googleapis.com/cluster/node/stats/evicted_keys_count`	Número total de chaves removidas pelo nó do cluster.
`redis.googleapis.com/cluster/node/keyspace/total_keys`	Número de chaves armazenadas no nó do cluster.
`redis.googleapis.com/cluster/node/stats/keyspace_hits_count`	Número de pesquisas bem-sucedidas de chaves no nó do cluster.
`redis.googleapis.com/cluster/node/stats/keyspace_misses_count`	Número de pesquisas com falha de chaves no nó do cluster.
`redis.googleapis.com/cluster/node/memory/utilization`	Utilização da memória no nó do cluster de 0,0 a 1,0.
`redis.googleapis.com/cluster/node/memory/usage`	Uso total da memória do nó do cluster.
`redis.googleapis.com/cluster/node/stats/net_input_bytes_count`	Contagem de bytes de rede recebidos pelo nó do cluster.
`redis.googleapis.com/cluster/node/stats/net_output_bytes_count`	Contagem de bytes de rede de saída enviados do nó do cluster.
`redis.googleapis.com/cluster/node/replication/offset`	Mede os bytes de compensação de replicação do nó do cluster.
`redis.googleapis.com/cluster/node/server/healthy`	Determina se um nó de cluster está disponível e funcionando corretamente. Essa métrica está em Pré-lançamento.

Métricas de replicação entre regiões

Nesta seção, listamos as métricas usadas para replicação entre regiões.

Nome da métrica	Descrição
`redis.googleapis.com/cluster/cross_cluster_replication/secondary_replication_links`	Essa métrica mostra o número de links de fragmento entre os clusters principal e secundário. Em um grupo de replicação entre regiões (CRR, na sigla em inglês), um cluster principal informa o número de links de replicação de CRR que ele tem com os clusters secundários no grupo. Para cada cluster secundário, esse número precisa ser igual ao número de fragmentos. Se, inesperadamente, o número cair abaixo do número de fragmentos, isso vai identificar o número de fragmentos em que a replicação entre o replicador e o seguidor foi interrompida. Em um estado ideal, essa métrica deve ter o mesmo número que a contagem de fragmentos do cluster principal.
`redis.googleapis.com/cluster/cross_cluster_replication/secondary_maximum_replication_offset_diff`	Diferença máxima de deslocamento de replicação entre fragmentos principais e secundários.
`redis.googleapis.com/cluster/cross_cluster_replication/secondary_average_replication_offset_diff`	Diferença média de deslocamento de replicação entre fragmentos principais e secundários.

Métricas de backup

Esta seção lista as métricas de backup e importação.

Métricas no nível do cluster

Nome da métrica	Descrição
`redis.googleapis.com/cluster/backup/last_backup_start_time`	O horário de início da última operação de backup.
`redis.googleapis.com/cluster/backup/last_backup_status`	O status da última operação de backup. Os status são `1` (sucesso) e `0` (falha).
`redis.googleapis.com/cluster/backup/last_backup_duration`	A duração da última operação de backup (em milissegundos).
`redis.googleapis.com/cluster/backup/last_backup_size`	O tamanho do último backup (em bytes).
`redis.googleapis.com/cluster/import/last_import_start_time`	O horário de início da última operação de importação.
`redis.googleapis.com/cluster/import/last_import_duration`	A duração da última operação de importação(em milissegundos).

Métricas de persistência

Esta seção lista as métricas de persistência e fornece exemplos de casos de uso para elas.

Métricas de persistência do RDB

Métricas no nível do cluster

Nome da métrica	Descrição
`redis.googleapis.com/cluster/persistence/rdb_saves_count`	Essa métrica mostra o número cumulativo de vezes que o cluster fez um snapshot do RDB (também conhecido como save). Essa métrica tem um campo `status_code`. Para verificar se um snapshot falhou, filtre o campo `status_code` pelo seguinte erro: 3 - INTERNAL_ERROR
`redis.googleapis.com/cluster/persistence/rdb_save_ages`	Essa métrica mostra a idade de um snapshot de distribuição para todos os nós do cluster. O ideal é que a distribuição tenha valores com menos tempo de atraso (ou o mesmo tempo) que a frequência de snapshots.

Métricas no nível do nó

Nome da métrica	Descrição
`redis.googleapis.com/cluster/node/persistence/rdb_bgsave_in_progress`	Essa métrica mostra se um BGSAVE de RDB está em andamento no nó do cluster. TRUE significa em andamento.
`redis.googleapis.com/cluster/node/persistence/rdb_last_bgsave_status`	Essa métrica mostra o sucesso do último BGSAVE no nó do cluster. TRUE significa sucesso. Se nenhum bgrewrite tiver ocorrido, o valor poderá ser TRUE por padrão.
`redis.googleapis.com/cluster/node/persistence/rdb_saves_count`	Essa métrica mostra o número cumulativo de salvamentos de RDB executados no nó do cluster.
`redis.googleapis.com/cluster/node/persistence/rdb_last_save_age`	Essa métrica mostra o tempo em segundos desde o último snapshot bem-sucedido.
`redis.googleapis.com/cluster/node/persistence/rdb_next_save_time_until`	Essa métrica mostra o tempo em segundos que falta para o próximo snapshot.
`redis.googleapis.com/cluster/node/persistence/current_save_keys_total`	Essa métrica mostra o número de chaves na gravação RDB atual em execução no nó do cluster.

Métricas de persistência de AOF

Métricas no nível do cluster

Nome da métrica	Descrição
`redis.googleapis.com/cluster/persistence/aof_fsync_lags`	Essa métrica mostra uma distribuição do atraso (da gravação de dados até a sincronização de armazenamento durável) para todos os nós do cluster. Ele só é emitido para clusters com appendfsync=everysec. O ideal é que a distribuição tenha valores com menos tempo de atraso (ou o mesmo tempo) que a frequência de sincronização de AOF.
`redis.googleapis.com/cluster/persistence/aof_rewrite_count`	Essa métrica mostra o número cumulativo de vezes que um nó acionou uma reescrita de AOF para seu cluster. Essa métrica tem um campo `status_code`. Para verificar se as reescritas de AOF estão falhando, filtre o campo `status_code` pelo seguinte erro: 3 - INTERNAL_ERROR

Métricas no nível do nó

Nome da métrica	Descrição
`redis.googleapis.com/cluster/node/persistence/aof_last_write_status`	Essa métrica mostra o sucesso da gravação AOF mais recente no nó do cluster. TRUE significa sucesso. Se nenhuma gravação tiver ocorrido, o valor poderá ser definido como TRUE por padrão.
`redis.googleapis.com/cluster/node/persistence/aof_last_bgrewrite_status`	Essa métrica mostra o sucesso da última operação AOF bgrewrite no nó do cluster. TRUE significa sucesso. Se nenhum bgrewrite tiver ocorrido, o valor poderá ser TRUE por padrão.
`redis.googleapis.com/cluster/node/persistence/aof_fsync_lag`	Essa métrica mostra o atraso da AOF entre a memória e o armazenamento permanente no nó do cluster. Ele só é aplicável a clusters com AOF ativado em que appendfsync=EVERYSEC
`redis.googleapis.com/cluster/node/persistence/aof_rewrites_count`	Essa métrica mostra a contagem de reescritas de AOF no nó do cluster. Para verificar se as reescritas de AOF estão falhando, filtre o campo `status_code` pelo seguinte erro: 3 - INTERNAL_ERROR
`redis.googleapis.com/cluster/node/persistence/aof_fsync_errors_count`	Essa métrica mostra a contagem de erros de chamada fsync() do AOF e só é aplicável a clusters ativados para AOF em que appendfsync=EVERYSEC\|ALWAYS.

Métricas comuns de persistência

Métricas aplicáveis aos mecanismos de persistência AOF e RDB.

Métricas no nível do nó

Nome da métrica	Descrição
`redis.googleapis.com/cluster/node/persistence/auto_restore_count`	Essa métrica mostra a contagem de restaurações do arquivo de despejo (AOF ou RDB).

Exemplos de casos de uso para métricas de persistência

Verificar se as operações de gravação de AOF causam latência e pressão de memória

Suponha que você detecte aumento na latência ou no uso de memória no cluster ou no nó dentro dele. Nesse caso, verifique se o uso extra está relacionado à persistência de AOF.

Como você sabe que as operações de reescrita de AOF podem acionar picos de carga temporários, é possível inspecionar a métrica aof_rewrites_count, que fornece a contagem cumulativa de reescritas de AOF durante o ciclo de vida do cluster ou do nó dentro do cluster. Suponha que essa métrica mostre que os incrementos na contagem de reescritas correspondem a aumentos na latência. Nesse caso, é possível resolver o problema reduzindo a taxa de gravação ou aumentando a contagem de fragmentos para diminuir a frequência de regravações.

Verificar se as operações de salvamento do RDB causam latência e pressão de memória

Suponha que você detecte aumento na latência ou no uso de memória no cluster ou no nó dentro dele. Nesse caso, verifique se o uso extra está relacionado à persistência do RDB.

Como você sabe que as operações de salvamento do RDB podem acionar picos de carga temporários, inspecione a métrica rdb_saves_count, que fornece a contagem cumulativa de salvamentos do RDB durante o ciclo de vida do cluster ou do nó dentro do cluster. Suponha que essa métrica mostre que os incrementos na contagem de salvamentos do RDB correspondem a aumentos na latência. Nesse caso, é possível reduzir o intervalo do snapshot do RDB para diminuir a frequência de reescritas. Também é possível escalonar horizontalmente a escala horizontal do cluster para reduzir os níveis de carga de referência.

Como interpretar métricas do Memorystore for Redis Cluster

Como visto na lista acima, muitas das métricas compartilham três categorias: média, máximo e total.

Para o Memorystore para Redis Cluster, oferecemos variações média e máxima da mesma métrica para que você possa usar as duas e identificar o hotspotting dessa família de métricas.

O valor total da métrica é independente e fornece insights separados não relacionados à finalidade de hotspotting de média e máximo.

Como entender as métricas de média e máxima

Suponha que você compare os valores average_keyspace_hits e maximum_keyspace_hits do seu cluster. À medida que a diferença entre as duas métricas aumenta, uma diferença maior indica mais pontos de acesso de hits na sua instância. O ideal é ter um valor próximo entre average_keyspace_hits e maximum_keyspace_hits, porque isso significa que os hits estão distribuídos de maneira mais uniforme na sua instância.

Esse princípio se aplica a todas as métricas que têm as variações média e máxima da mesma métrica.

Exemplo de ponto de acesso

Se você comparar average_keyspace_hits e maximum_keyspace_hits para todos os fragmentos no cluster, esses valores vão indicar onde ocorre o hot spotting. Por exemplo, suponha que os fragmentos em um cluster de seis fragmentos tenham o seguinte número de hits:

Fragmento 1: 2 hits
Fragmento 2: 2 hits
Fragmento 3: 2 hits
Fragmento 4: 2 hits
Fragmento 5: 2 hits
Fragmento 6: 8 hits

Neste exemplo, average_keyspace_hits retorna um valor de 3, e maximum_keyspace_hits retorna 8, indicando que o fragmento 6 está quente.

Fornecemos métricas no nível do nó que podem ser usadas para identificar pontos de acesso no cluster.