É possível verificar a integridade de um volume do Google Cloud Hyperdisk ou do Persistent Disk analisando a métrica status de desempenho do disco. Essa métrica indica se o desempenho do disco pode ser afetado por eventos adversos no Compute Engine.
Um problema que afeta o status de desempenho do disco também pode aparecer no painel do Personal Service Health (PSH) do seu projeto ou no painel do Google Cloud Service Health.
Este documento discute o status de desempenho do disco e como usá-lo para resolver problemas de desempenho.
Quando verificar a integridade de um disco
Se você notar um problema de desempenho com um disco, verifique a integridade dele analisando a métrica de status de desempenho do disco. A métrica de status de desempenho do disco é atualizada a cada minuto e representa o desempenho do disco durante todo o minuto anterior. Para conferir as etapas de verificação da integridade do disco, consulte verificar o status de desempenho do disco.
A tabela a seguir resume os valores possíveis do status de desempenho do disco.
Status | Significado |
---|---|
Healthy |
O desempenho do disco é o esperado. |
Degraded |
Você pode observar temporariamente uma latência de E/S maior do que o esperado. |
Severely degraded |
Há uma alta latência de E/S ou outros erros. |
Se o status de performance não for Healthy
, consulte Entender cada status
para saber o que fazer em seguida.
Se o status de desempenho for Healthy
, o disco está funcionando normalmente e você
precisa verificar outras causas do problema de desempenho.
Verifique se há erros no aplicativo ou no sistema operacional e se o
disco está otimizado corretamente. Para diretrizes de otimização,
consulte Otimizar Hyperdisk
e Otimizar disco permanente.
Como a integridade do disco se relaciona a outras métricas de desempenho do disco
A integridade do disco, conforme indicada pela métrica de status de desempenho, mostra o
status interno do disco do ponto de vista do Google. Se o status de um disco for
Degraded
ou Severely Degraded
, a causa raiz estará sempre na
infraestrutura do Compute Engine.
Geralmente, não é possível mudar a integridade de um disco modificando a carga de trabalho. No entanto, em casos raros, uma mudança na carga de trabalho pode acionar um problema interno. Portanto, pode ser possível atenuar um problema modificando a carga de trabalho.
Para saber mais sobre as outras métricas de desempenho do disco disponíveis, consulte Analisar as métricas de desempenho do disco.
Cenários que não afetam o status de desempenho do disco
O status de desempenho do disco não está relacionado a problemas de desempenho causados pelos seguintes fatores:
- Otimização de disco incompleta ou insuficiente
- Limite de desempenho associado ao disco e ao tipo de máquina (se o tipo de máquina escolhido não atender aos requisitos de desempenho da carga de trabalho)
- Aumento da carga no disco devido ao tráfego de carga de trabalho
- Erro do usuário, do aplicativo ou do sistema operacional
- Discos cheios ou corrompidos
- Para volumes do Hyperdisk e do Extreme Persistent Disk, IOPS ou capacidade de processamento provisionadas insuficientemente.
Nessas situações, é sua responsabilidade melhorar o desempenho, por exemplo, otimizando o disco, aumentando a carga de trabalho, mudando o tipo de máquina e provisionando mais capacidade, IOPS ou throughput.
Conferir a integridade de um disco no Cloud Monitoring
Para conferir a integridade de um disco, crie um gráfico no Metrics Explorer.
Papéis e permissões necessárias
Para ter as permissões necessárias para verificar a métrica de status de desempenho do disco, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto:
-
Leitor do Monitoring (
roles/monitoring.viewer
) -
Para salvar um gráfico em um painel:
Editor do Monitoring (
roles/monitoring.editor
)
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.
Criar um gráfico no Metrics Explorer
Para criar um gráfico, crie uma consulta com a interface orientada por menu, a Linguagem de consulta do Monitoring (MQL) ou o PromQL.
Interface orientada por menus
Para conferir a integridade de um ou mais discos em um gráfico, siga estas instruções.
-
No Console do Google Cloud, acesse a página do leaderboard Metrics Explorer:
Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Monitoramento.
- No elemento Metric, expanda o menu Selecionar uma métrica,
digite
VM Instance
na barra de filtro e use os submenus para selecionar um tipo de recurso e métrica específicos:- No menu Recursos ativos, selecione Instância de VM.
- No menu Categorias de métrica ativas, selecione Instância.
- No menu Métricas ativas, selecione Status de desempenho do disco.
- Clique em Aplicar.
compute.googleapis.com/instance/disk/performance_status
. - Configure a visualização dos dados.
Desativar a agregação. Verifique se, no elemento Agregação, o primeiro menu está definido como Não agregado e o segundo como Nenhum.
Para conferir a integridade de um disco específico, filtre pordevice_name
.
Para mais informações sobre como configurar um gráfico, consulte Selecionar métricas ao usar o Metrics Explorer.
MQL
Abra o editor de consultas: siga as etapas em Escrever consultas MQL.
Digite a consulta no Editor de consultas. Por exemplo, para conferir o status de desempenho de um disco específico, insira a seguinte consulta:
fetch gce_instance | metric 'compute.googleapis.com/instance/disk/performance_status' | filter metric.device_name == 'DISK_NAME' | group_by 1m, [value_performance_status_fraction_true: fraction_true(value.performance_status)] | every 1m
Substitua
DISK_NAME
pelo nome do disco, por exemplo,disk-1
.
PromQL
Abra o editor de consultas: siga as etapas em Escrever consultas PromQL.
Digite a consulta no Editor de consultas. Por exemplo, para conferir o status de desempenho de um disco específico, insira a seguinte consulta:
last_over_time (compute_googleapis_com:instance_disk_performance_status {monitored_resource="gce_instance", project_id ="PROJECT_ID", device_name="DISK_NAME"}[${__interval}])
Substitua DISK_NAME
pelo nome do disco, por exemplo,
disk-1
.
Se você conferir os resultados em um gráfico, verá três linhas para cada disco, uma para cada status possível. Da mesma forma, se você consultar o resultado da consulta em uma tabela, ela terá três linhas para cada disco.
Se você criou a consulta com PromQL ou MQL, cada linha ou linha terá um valor de 1
ou 0
. Para consultas criadas com os menus, os valores de
são 100%
ou 0
.
A integridade atual do disco é representada pela linha ou coluna cujo valor é 100%
ou 1
.
Por exemplo, a captura de tela a seguir mostra o gráfico de um disco chamado a-test-VM
,
cujo status é Healthy
:
Se você visualizar os resultados da consulta como uma tabela, a tabela a seguir é um exemplo dos resultados de um disco Healthy
:
performance_status | valor |
---|---|
Healthy |
1 |
Degraded |
0 |
Severely Degraded |
0 |
A captura de tela a seguir mostra o gráfico de um disco chamado replica-23509
, cujo status é Degradado:
Para saber o que cada status de performance significa, consulte Entender cada status. Depois de criar o gráfico, você pode salvá-lo em um painel para uso futuro.
Resultados fracionários
Se a consulta incluir resultados fracionários, como na tabela a seguir,
é porque o período de exibição selecionado
foi longo. Como resultado, o Cloud Monitoring agregou os dados ao longo do tempo.
Um valor de 77%
para o status Healthy
significa que o status do disco foi Healthy
77% do período de exibição selecionado.
performance_status | valor |
---|---|
Healthy |
77% |
Degraded |
23% |
Severely Degraded |
0 |
Para uma visão mais detalhada da integridade de um disco, use um período de exibição de algumas horas ou minutos.
Entender cada status
Esta seção discute o que cada status significa e quando você precisa tomar outras medidas.
Healthy
O status Healthy
indica que, do ponto de vista do Google, o disco está
funcionando normalmente.
Se um disco Healthy
tiver problemas de desempenho, não entre em contato com o suporte. Em vez disso,
resolva o problema do disco usando algumas das seguintes sugestões:
- Analise as métricas de desempenho do disco, como latência e profundidade da fila.
- Verifique se há anomalias e gargalos nos registros e nas métricas da carga de trabalho.
- Se você estiver usando um Persistent Disk, verifique se a capacidade provisionada pode atender às necessidades de desempenho do disco. Se você estiver usando volumes do Hyperdisk ou do Extreme Persistent Disk, verifique se provisionou IOPS e capacidade suficientes.
- Verifique se você seguiu as diretrizes para otimizar o disco. Para mais informações, consulte Otimizar Hyperdisk e Otimizar disco permanente.
Degraded
Normalmente, não é necessário entrar em contato com o suporte se o status do disco
for Degraded
. Um Degraded status
geralmente é causado pela manutenção interna
normal na infraestrutura do Compute Engine.
Talvez você não perceba nenhum impacto no desempenho do disco enquanto o status dele estiver como
Degraded
. Se o problema de desempenho e o status Degraded
se correlacionarem no tempo, o problema de desempenho ainda poderá não estar relacionado ao
status Degraded
.
No caso improvável de um problema de desempenho ser causado pelo status Degraded
,
o impacto geralmente é temporário. O status do disco deve reverter para Healthy
em
alguns minutos.
É possível ignorar o status Degraded
se não houver problemas de desempenho
com o disco.
O que fazer se houver um problema de desempenho
Se o status de desempenho do disco for Degraded
e você observar um problema de
desempenho, siga estas etapas:
- Verifique o painel do PHS para saber se há um incidente afetando o disco. Se houver um incidente, não entre em contato com o suporte, porque o Google já está ciente do problema e está trabalhando para resolvê-lo.
- Se não houver problemas conhecidos, aguarde pelo menos cinco minutos para que o problema de desempenho seja resolvido sozinho.
Se, após 5 minutos, o problema de desempenho não for resolvido e o status ainda for
Degraded
, verifique se o problema de desempenho não é porque o disco não está otimizado o suficiente. Por exemplo, verifique a latência e a profundidade da fila do disco. É possível que o problema de desempenho e o statusDegraded
não estejam relacionados e sejam apenas coincidentes. Para isso, analise as métricas do disco e as diretrizes de otimização de desempenho.Se os problemas de desempenho continuarem e todas as condições a seguir forem atendidas, entre em contato com o suporte para receber ajuda:
- O status do disco está
Degraded
há mais de 5 minutos - Você tem certeza de que não é um problema de carga de trabalho porque otimizou o disco e verificou que não há outros problemas, como gargalo ou aplicativo sobrecarregado.
- Não há alertas no painel de PSH
- O status do disco está
O Google não recomenda criar um alerta para o status Degraded
diretamente, mas sim alertar sobre o status do aplicativo de nível mais alto e usar
essa métrica para depurar problemas.
Severely Degraded
Um disco com status de desempenho Severely Degraded
está com um
problema de desempenho. Esse problema pode ser causado por um incidente ou erro e já pode estar visível no painel do PHS ou no painel de integridade do serviço do Google Cloud.
O que fazer
Se o status de desempenho do disco for Severely Degraded
, siga estas etapas:
- Verifique no painel do PSH e no painel geral de integridade do Google Cloud se há um incidente que afeta o disco. Se houver um incidente, não entre em contato com o suporte, porque o Google está ciente e trabalhando para resolver o problema.
- Se não houver problemas conhecidos nos dois painéis, entre em contato com o suporte para receber ajuda.
Árvore de decisão
O diagrama a seguir ilustra como proceder se um disco tiver um problema de desempenho e resume as informações das seções anteriores.
Como mostrado no fluxograma, entre em contato com o suporte apenas se não houver alertas
conhecidos nos painéis de serviço do PSH e do Cloud e o status do disco for
Severely Degraded
. Se o disco for Degraded
, entre em contato com o suporte somente se todas as
seguintes condições forem atendidas:
- O disco está
Degraded
há mais de 5 minutos - Você descartou um erro ou configuração incorreta da carga de trabalho (como problemas de rede).
- Não é possível realizar outras otimizações no nível do aplicativo, da carga de trabalho ou do disco.
- Você analisou todas as métricas do disco
- Você examinou os registros da carga de trabalho e da máquina virtual (VM)
A seguir
- Saiba mais sobre como criar gráficos com o Metric Explorer e como refinar os resultados da consulta adicionando filtros a um gráfico.
- Verifique os eventos ativos e anteriores de integridade do serviço no Painel de integridade do serviço pessoal e no Google Service Health.
- Para conferir diretrizes de otimização de desempenho, consulte Otimizar Hyperdisk e Otimizar disco permanente.