Neste tópico, você aprenderá como visualizar métricas híbridas da Apigee em um painel do Cloud Operations.
Sobre o produto Operações do Cloud
Para mais informações sobre métricas, painéis e o Cloud Operations, consulte:
Como ativar métricas híbridas
Antes de enviar métricas híbridas ao Cloud Operations, é preciso ativar a coleta de métricas primeiro. Consulte Configurar coleta de métricas para este procedimento.
Sobre rótulos e nomes de métricas híbridas
Quando ativada, a métrica híbrida preenche automaticamente as métricas do Cloud Operations. O prefixo do nome de domínio das métricas criadas por híbrido é:
apigee.googleapis.com/
Por exemplo, a métrica /proxyv2/request_count
contém o número total de solicitações recebidas
por um proxy de API. O nome da métrica no Cloud Operations é, portanto:
apigee.googleapis.com/proxyv2/request_count
O Cloud Operations permite filtrar e agrupar dados de métricas com base em rótulos. Alguns rótulos são predefinidos e outros são explicitamente adicionados por nuvem híbrida. A seção Métricas disponíveis abaixo lista todas as métricas híbridas disponíveis e todos os rótulos adicionados especificamente a uma métrica que pode ser usada para filtragem e agrupamento.
Como ver métricas
O exemplo a seguir mostra como visualizar métricas no Cloud Operations:- Abra o Metrics Explorer do Monitoring em um navegador. Como alternativa, se você já estiver no console do Cloud Operations, selecione Metrics explorer.
Em Encontrar tipo de recurso e métrica, localize e selecione a métrica que você quer examinar. Escolha uma métrica específica listada em Métricas disponíveis ou pesquise uma métrica.
- Selecione a métrica pretendida.
- Aplique filtros. As opções de filtro para cada métrica estão listadas em Métricas disponíveis.
- O Cloud Operations exibe o gráfico da métrica selecionada.
- Clique em Salvar.
Como criar um painel
Os painéis são uma maneira de visualizar e analisar dados de métricas que são importantes para você. O Cloud Operations fornece painéis predefinidos para os recursos e serviços que você usa, e também é possível criar painéis personalizados.
Use um gráfico para exibir uma métrica da Apigee no seu painel personalizado. Com os painéis personalizados, você tem controle total sobre os gráficos exibidos e as configurações. Para mais informações sobre a criação de gráficos, consulte esta página.
O exemplo a seguir mostra como criar um painel no Cloud Operations e adicionar gráficos para visualizar dados de métricas:
- Abra o Metrics Explorer do Monitoring em um navegador e selecione Painéis.
- Selecione + Criar painel.
- Dê um nome ao painel. Por exemplo: Tráfego de solicitação de proxy híbrido.
- Clique em Confirmar.
Para cada gráfico que quiser adicionar ao seu painel, siga estes passos:
- No painel, selecione Adicionar gráfico.
- Selecione a métrica pretendida conforme descrito acima em Como visualizar métricas.
- Preencha a caixa de diálogo para definir seu gráfico.
- Clique em Salvar. O Cloud Operations exibe os dados da métrica selecionada.
Métricas disponíveis
As tabelas a seguir listam as métricas para analisar o tráfego de proxy.
Métricas de tráfego de servidor, destino e proxy
O serviço Prometheus coleta e processa métricas (conforme descrito em Coleta de métricas) para tráfego de servidor proxy e destino.
Na tabela a seguir, descrevemos as métricas e rótulos que o Prometheus usa. Esses rótulos são usados nas entradas do registro de métricas.
Nome da métrica | Rótulo | Usar |
---|---|---|
/proxyv2/request_count |
method |
O número total de solicitações de proxy de API recebidas. |
/proxyv2/response_count |
method
response_code |
O número total de respostas de proxy da API recebidas. |
/proxyv2/latencies_percentile |
method |
Porcentagem de todas as respostas da política da API a uma solicitação. |
/targetv2/request_count |
method
|
O número total de solicitações enviadas ao destino do proxy. |
/targetv2/response_count |
method
|
O número total de respostas recebidas do destino do proxy. |
/server/fault_count |
source |
O número total de falhas do aplicativo do servidor. Por exemplo, o aplicativo pode ser |
/server/nio |
state |
Essa é uma métrica de indicador que pode ser filtrada pelo rótulo state para extrair detalhes de vários rótulos. Os
valores representam diferentes operações de E/S e do sistema. Rótulos como accepted , accepted_total , close_failed ,
close_success , conn_pending , connected , connected_total , max_conn e timeouts estão relacionados a operações de soquete e
conexão. Os rótulos restantes se referem a outras operações do sistema. |
/server/num_threads |
O número de linhas de execução não daemon ativas no servidor. | |
/server/request_count |
method
|
O número total de solicitações recebidas pelo aplicativo do servidor. Por exemplo, o aplicativo pode ser |
/server/response_count |
method
|
Número total de respostas enviadas pelo aplicativo do servidor. Por exemplo, o aplicativo pode ser |
/server/latencies |
method
|
Latência é a latência em milésimos de segundo introduzida pelo aplicativo do servidor. Por exemplo, o aplicativo pode ser |
/upstream/request_count |
method
|
O número de solicitações enviadas pelo aplicativo do servidor para o aplicativo upstream. Por exemplo, para |
/upstream/response_count |
method
|
O número de respostas recebidas pelo aplicativo do servidor a partir do aplicativo upstream. Por exemplo, para |
/upstream/latencies |
method
|
A latência incorrida no aplicativo do servidor upstream em milissegundos. Por exemplo, para o |
Métricas de UDCA
O serviço Prometheus coleta e processa métricas, conforme descrito na coleção de métricas, para o serviço UDCA do mesmo modo que outros serviços híbridos.
Veja na tabela a seguir as métricas e os rótulos que o Prometheus usa nos dados de métricas da UDCA. Esses rótulos são usados nas entradas do registro de métricas.
Nome da métrica | Rótulo | Usar |
---|---|---|
/udca/server/local_file_oldest_ts |
dataset
|
O carimbo de data/hora, em milissegundos desde o início da era Unix, para o arquivo mais antigo no conjunto de dados. Ela é calculada a cada 60 segundos e não reflete o estado em tempo real. Se a UDCA estiver atualizada e não houver arquivos aguardando o upload quando essa métrica for calculada, esse valor será 0. Se esse valor continuar aumentando, os arquivos antigos ainda estarão no disco. |
/udca/server/local_file_latest_ts |
dataset
|
O carimbo de data/hora, em milissegundos desde o início da Era Unix, para o arquivo mais recente no disco por estado. Ela é calculada a cada 60 segundos e não reflete o estado em tempo real. Se a UDCA estiver atualizada e não houver arquivos aguardando o upload quando essa métrica for calculada, esse valor será 0. |
/udca/server/local_file_count |
dataset
|
Uma contagem do número de arquivos em disco no pod de coleta de dados. O ideal é que o valor seja próximo de 0. Um valor alto consistente indica que os arquivos não estão sendo enviados ou que a UDCA não consegue fazer upload rápido o suficiente. Esse valor é calculado a cada 60 segundos e não reflete o estado da UDCA em tempo real. |
/udca/server/total_latencies |
dataset |
O intervalo de tempo, em segundos, entre o arquivo de dados que está sendo criado e o arquivo de dados que está sendo enviado com sucesso. Os buckets serão 100 ms, 250 ms, 500 ms, 1s, 2s, 4s, 8s, 16s, 32s e 64s. Histograma para latência total desde a hora de criação do arquivo até o momento do upload. |
/udca/server/upload_latencies |
dataset |
O tempo total, em segundos, que a UDCA gastou fazendo o upload de um arquivo de dados. Os buckets serão 100 ms, 250 ms, 500 ms, 1s, 2s, 4s, 8s, 16s, 32s e 64s. As métricas exibirão um histograma para a latência total de upload, incluindo todas as chamadas upstream. |
/udca/upstream/http_error_count |
service
|
A contagem total de erros HTTP encontrados pela UDCA. Essa métrica é útil para determinar qual parte das dependências externas da UDCA está falhando e por que motivo. Esses erros podem surgir para vários serviços (
|
/udca/upstream/http_latencies |
service
|
A latência upstream dos serviços, em segundos. Os buckets serão 100 ms, 250 ms, 500 ms, 1s, 2s, 4s, 8s, 16s, 32s e 64s. Histograma para latência de serviços upstream. |
/udca/upstream/uploaded_file_sizes |
dataset |
O tamanho do arquivo que está sendo enviado para os serviços da Apigee, em bytes. Os buckets serão de 1 KB, 10 KB, 100 KB, 1 MB, 10 MB, 100 MB e 1 GB. Histograma para tamanho de arquivo por conjunto de dados, organização e ambiente. |
/udca/upstream/uploaded_file_count |
dataset |
Uma contagem dos arquivos enviados pela UDCA para os serviços da Apigee.
Observações:
|
/udca/disk/used_bytes |
dataset
|
O espaço ocupado pelos arquivos de dados no disco do pod de coleta de dados, em bytes. Um aumento nesse valor ao longo do tempo:
|
/udca/server/pruned_file_count |
dataset
|
Contagem de arquivos que foram excluídos porque o tempo de vida útil (TTL, na sigla em inglês) estava além do limite definido.
O conjunto de dados pode incluir API, trace e outros, e o estado pode ser UPLOADED ,
FAILED ou DISCARDED .
|
/udca/server/retry_cache_size |
dataset |
Uma contagem do número de arquivos, por conjunto de dados, que a UDCA está tentando enviar. Depois de três tentativas para cada arquivo, a UDCA move o arquivo para o subdiretório |
Métricas do Cassandra
O serviço Prometheus coleta e processa métricas (conforme descrito em Coleta de métricas) para o Cassandra, assim como faz com outros serviços híbridos.
A tabela a seguir descreve as métricas e os rótulos que o Prometheus usa nos dados de métricas do Cassandra. Esses rótulos são usados nas entradas do registro de métricas.
Nome da métrica (excluindo o domínio) | Rótulo | Usar |
---|---|---|
/cassandra/process_max_fds |
Número máximo de descritores de arquivos abertos. | |
/cassandra/process_open_fds |
Abra os descritores de arquivos. | |
/cassandra/jvm_memory_pool_bytes_max |
pool |
Uso máximo de memória do JVM para o pool. |
/cassandra/jvm_memory_pool_bytes_init |
pol |
Uso inicial de memória da JVM para o pool. |
/cassandra/jvm_memory_bytes_max |
area |
Uso máximo de memória de heap do JVM. |
/cassandra/process_cpu_seconds_total |
Tempo de CPU do usuário e do sistema gasto em segundos. | |
/cassandra/jvm_memory_bytes_used |
area |
Uso de memória de heap do JVM |
/cassandra/compaction_pendingtasks |
unit |
Compactação pendente para sstables do Cassandra. Consulte Compactação para saber mais. |
/cassandra/jvm_memory_bytes_init |
area |
Uso de memória inicial de heap da JVM. |
/cassandra/jvm_memory_pool_bytes_used |
pool |
Uso de memória do pool JVM. |
/cassandra/jvm_memory_pool_bytes_committed |
pool |
Uso de memória confirmada do pool JVM. |
/cassandra/clientrequest_latency |
scope
|
Latência da solicitação de leitura no intervalo de 75º percentil em microssegundos. |
/cassandra/jvm_memory_bytes_committed |
area |
Uso de memória comprometida de heap do JVM. |
Como trabalhar com métricas do Cassandra
A Apigee recomenda as seguintes métricas como essenciais para monitorar o banco de dados do Cassandra:
- Taxa de solicitação do Cassandra: use essa métrica para monitorar a taxa de solicitações de leitura e gravação do
Cassandra.
Métrica: apigee.googleapis.com/cassandra/clientrequest_latency
Rótulos de recursos: project_id
,location
,cluster_name
,namespace_name
,pod_name
,container_name
Rótulos de métricas: scope
,unit
Use esses rótulos para filtrar o recurso específico ou fazer o agrupamento.
Para monitorar a taxa de solicitação de leitura do Cassandra, aplique o filtro a seguir.
Filtros: metric.scope == 'Read'
metric.unit == 'OneMinuteRate'
Para monitorar a taxa de solicitação de gravação do Cassandra, aplique o filtro a seguir.
Filtros: metric.scope == 'Write'
metric.unit == 'OneMinuteRate'
- Latência da solicitação do Cassandra: use essa métrica para monitorar a latência de solicitação de leitura e gravação
do Cassandra. Essa é a mesma métrica que a taxa de solicitação,
apigee.googleapis.com/cassandra/clientrequest_latency
, com diferentes filtros aplicados.Para monitorar a latência de solicitação de leitura do Cassandra, aplique o filtro a seguir.
Filtros: metric.scope == 'Read'
metric.unit == '99thPercentile'
ou'95thPercentile'
ou'75thPercentile'
Para monitorar a latência de solicitação de gravação do Cassandra, aplique o filtro a seguir.
Filtros: metric.scope == 'Write'
metric.unit == '99thPercentile'
ou'95thPercentile'
ou'75thPercentile'
- Uso de solicitação de CPU de pod do Cassandra
Métrica: kubernetes.io/container/cpu/request_utilization (GKE)
kubernetes.io/anthos/container/cpu/request_utilization (Anthos)
Rótulos de recursos: project_id
,location
,cluster_name
,namespace_name
,pod_name
,container_name
Use esses rótulos para filtrar o recurso específico ou fazer o agrupamento.
- Uso do volume de dados do Cassandra
Métrica: kubernetes.io/pod/volume/utilization (GKE)
kubernetes.io/anthos/pod/volume/utilization (Anthos)
Rótulos de recursos: project_id
,location
,cluster_name
,namespace_name
,pod_name
Rótulos de métricas: volume_name
Use esses rótulos para filtrar o recurso específico ou fazer o agrupamento.
Recomendações para escalonar o cluster do Cassandra
As diretrizes a seguir podem servir como um cluster recomendado para a decisão de escalonar seu cluster do Cassandra. Em geral, se as solicitações de leitura ou gravação mostrarem de maneira consistente a latência do 99º percentil ou se a latência aumentar continuamente e você observar picos correspondentes na utilização da solicitação de CPU e nas taxas de solicitação de leitura ou gravação, o cluster do Cassandra poderá ser considerado sob estresse. Considere fazer o escalonamento vertical do cluster. Para mais informações, consulte Como escalonar o Cassandra
Métrica | Limite | Duração do gatilho |
---|---|---|
kubernetes.io/pod/volume/utilization | 85% | 5 min |
kubernetes.io/container/cpu/request_utilization | 85% | 3 min |
Read request Latency 99thPercentile | 5 s | 3 min |
Write request Latency 99thPercentile | 5 s | 3 min |