É possível verificar a integridade de um volume do Hyperdisk ou do Persistent Disk analisando a métrica status de desempenho do disco. Essa métrica indica se o desempenho do disco pode ser afetado por eventos adversos no Compute Engine.
Um problema que afeta o status de desempenho do disco também pode aparecer no painel Personal Service Health (PSH) do projeto ou no painel Google Cloud Service Health.
Este documento discute o status de desempenho do disco e como usá-lo para resolver problemas de desempenho.
Quando verificar a integridade de um disco
Se você notar um problema de desempenho com um disco, verifique a integridade dele analisando a métrica de status de desempenho do disco. A métrica de status de desempenho do disco é atualizada a cada minuto e representa o desempenho do disco durante todo o minuto anterior. Para conferir as etapas de verificação da integridade do disco, consulte verificar o status de desempenho do disco.
A tabela a seguir resume os valores possíveis do status de desempenho do disco.
Status | Significado |
---|---|
Healthy |
O desempenho do disco é o esperado. |
Degraded |
Você pode observar temporariamente uma latência de E/S maior do que o esperado. |
Severely degraded |
Há uma alta latência de E/S ou outros erros. |
Se o status de desempenho não for Healthy
, consulte Entender cada status
para saber o que fazer em seguida.
Se o status de desempenho for Healthy
, o disco está funcionando normalmente e você
precisa verificar outras causas do problema de desempenho.
Verifique se há erros no aplicativo ou no sistema operacional e se o
disco está otimizado corretamente. Para diretrizes de otimização,
consulte Otimizar Hyperdisk
e Otimizar disco permanente.
Como a integridade do disco se relaciona a outras métricas de desempenho do disco
A integridade do disco, conforme indicado pela métrica de status de desempenho, mostra o
status interno do disco do ponto de vista do Google. Se o status de um disco for
Degraded
ou Severely Degraded
, a causa raiz estará sempre na
infraestrutura do Compute Engine.
Geralmente, não é possível mudar a integridade de um disco modificando a carga de trabalho. No entanto, em casos raros, uma mudança na carga de trabalho pode acionar um problema interno. Portanto, pode ser possível atenuar um problema modificando a carga de trabalho.
Para saber mais sobre as outras métricas de desempenho do disco disponíveis, consulte Analisar as métricas de desempenho do disco.
Cenários que não afetam o status de desempenho do disco
O status de desempenho do disco não está relacionado a problemas de desempenho causados pelos seguintes fatores:
- Otimização de disco incompleta ou insuficiente
- Limite de desempenho associado ao disco e ao tipo de máquina (se o tipo de máquina escolhido não atender aos requisitos de desempenho da carga de trabalho)
- Aumento da carga no disco devido ao tráfego de carga de trabalho
- Erro do usuário, do aplicativo ou do sistema operacional
- Discos cheios ou corrompidos
- Para volumes do Hyperdisk e do Extreme Persistent Disk, IOPS ou capacidade de processamento provisionadas insuficientemente.
Nessas situações, é sua responsabilidade melhorar o desempenho, por exemplo, otimizando o disco, aumentando a carga de trabalho, mudando o tipo de máquina e provisionando mais capacidade, IOPS ou throughput.
Conferir a integridade de um disco no Cloud Monitoring
Para conferir a integridade de um disco, crie um gráfico no Metrics Explorer.
Papéis e permissões necessárias
Para ter as permissões necessárias para verificar a métrica de status de desempenho do disco, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto:
-
Leitor do Monitoring (
roles/monitoring.viewer
) -
Para salvar um gráfico em um painel:
Editor do Monitoring (
roles/monitoring.editor
)
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.
Criar um gráfico no Metrics Explorer
Para criar um gráfico, crie uma consulta com a interface orientada por menu, a Linguagem de consulta do Monitoring (MQL) ou o PromQL.
Abra o editor de consultas: siga as etapas em Escrever consultas MQL.
Digite a consulta no Editor de consultas. Por exemplo, para conferir o status de desempenho de um disco específico, insira a seguinte consulta:
fetch gce_instance | metric 'compute.googleapis.com/instance/disk/performance_status' | filter metric.device_name == '
DISK_NAME ' | group_by 1m, [value_performance_status_fraction_true: fraction_true(value.performance_status)] | every 1mSubstitua
DISK_NAME
pelo nome do disco, por exemplo,disk-1
.
Abra o editor de consultas: siga as etapas em Escrever consultas PromQL.
Digite a consulta no Editor de consultas. Por exemplo, para conferir o status de desempenho de um disco específico, insira a seguinte consulta:
last_over_time (compute_googleapis_com:instance_disk_performance_status {monitored_resource="gce_instance", project_id ="PROJECT_ID ", device_name="DISK_NAME "}[${__interval}])
Substitua DISK_NAME
pelo nome do disco, por exemplo,
disk-1
.
Se você conferir os resultados em um gráfico, verá três linhas para cada disco, uma para cada status possível. Da mesma forma, se você consultar o resultado da consulta em uma tabela, ela terá três linhas para cada disco.
Se você criou a consulta com PromQL ou MQL, cada linha ou linha terá
um valor de 1
ou 0
. Para consultas criadas com os menus, os valores de
são 100%
ou 0
.
A integridade atual do disco é representada pela linha ou coluna cujo valor é 100%
ou 1
.
Por exemplo, a captura de tela a seguir mostra o gráfico de um disco chamado a-test-VM
,
cujo status é Healthy
:
Se você visualizar os resultados da consulta como uma tabela, a tabela a seguir é um exemplo dos resultados de um disco Healthy
:
performance_status | valor |
---|---|
Healthy |
1 |
Degraded |
0 |
Severely Degraded |
0 |
A captura de tela a seguir mostra o gráfico de um disco chamado replica-23509
, cujo status é Degradado:
Para saber o que cada status de desempenho significa, consulte Entender cada status. Depois de criar o gráfico, você pode salvá-lo em um painel para uso futuro.
Resultados fracionários
Se a consulta incluir resultados fracionários, como na tabela a seguir,
é porque o período de exibição
selecionado foi longo. Como resultado, o Cloud Monitoring agregou os dados ao longo do tempo.
Um valor de 77%
para o status Healthy
significa que o status do disco foi Healthy
77% do período de exibição selecionado.
performance_status | valor |
---|---|
Healthy |
77% |
Degraded |
23% |
Severely Degraded |
0 |
Para uma visão mais detalhada da integridade de um disco, use um período de exibição de algumas horas ou minutos.
Entender cada status
Esta seção discute o que cada status significa e quando você precisa tomar outras medidas.
O status Healthy
indica que, do ponto de vista do Google, o disco está
funcionando normalmente.
Se um disco Healthy
tiver problemas de desempenho, não entre em contato com o suporte. Em vez disso,
resolva o problema do disco usando algumas das seguintes sugestões:
- Analise as métricas de desempenho do disco, como latência e profundidade da fila.
- Verifique se há anomalias e gargalos nos registros e nas métricas da carga de trabalho.
- Se você estiver usando um disco permanente, verifique se a capacidade provisionada pode atender às necessidades de desempenho do disco. Se você estiver usando volumes do Hyperdisk ou do Extreme Persistent Disk, verifique se provisionou IOPS e capacidade suficientes.
- Verifique se você seguiu as diretrizes para otimizar o disco. Para mais informações, consulte Otimizar Hyperdisk e Otimizar disco permanente.
Normalmente, não é necessário entrar em contato com o suporte se o status do disco
for Degraded
. Um Degraded status
geralmente é causado por manutenção interna
normal na infraestrutura do Compute Engine.
Talvez você não perceba nenhum impacto no desempenho do disco enquanto o status dele estiver como
Degraded
. Se o problema de desempenho e o status Degraded
se correlacionarem no tempo, o problema de desempenho ainda poderá não estar relacionado ao
status Degraded
.
No caso improvável de um problema de desempenho ser causado pelo status Degraded
,
o impacto geralmente é temporário. O status do disco deve reverter para Healthy
em
alguns minutos.
É possível ignorar o status Degraded
se não houver problemas de desempenho
com o disco.
O que fazer se houver um problema de desempenho
Se o status de desempenho do disco for Degraded
e você observar um problema de
desempenho, siga estas etapas:
- Verifique o painel do PHS para saber se há um incidente afetando o disco. Se houver um incidente, não entre em contato com o suporte, porque o Google já está ciente e trabalhando para resolver o problema.
- Se não houver problemas conhecidos, aguarde pelo menos cinco minutos para que o problema de desempenho seja resolvido sozinho.
Se, após cinco minutos, o problema de desempenho não for resolvido e o status ainda for
Degraded
, verifique se o problema de desempenho não é porque o disco não está otimizado o suficiente. Por exemplo, verifique a latência e a profundidade da fila do disco. É possível que o problema de desempenho e o statusDegraded
não estejam relacionados e sejam apenas coincidentes. Para isso, analise as métricas do disco e as diretrizes de otimização de desempenho.Se os problemas de desempenho continuarem e todas as condições a seguir forem atendidas, entre em contato com o suporte para receber ajuda:
- O status do disco está
Degraded
há mais de 5 minutos - Você tem confiança razoável de que não é um problema de carga de trabalho porque você otimizou o disco e verificou que não há outros problemas, como um gargalo ou um aplicativo sobrecarregado.
- Não há alertas no painel de PSH
- O status do disco está
O Google não recomenda criar um alerta para o status Degraded
diretamente, mas sim alertar sobre o status do aplicativo de nível mais alto e usar
essa métrica para depurar problemas.
Um disco com status de desempenho Severely Degraded
está com um
problema de desempenho. Esse problema pode ser causado por um incidente ou erro e já pode estar visível no painel do PHS ou do Google Cloud service health.
O que fazer
Se o status de desempenho do disco for Severely Degraded
, siga estas etapas:
- Verifique o painel do PSH e o painel de integridade Google Cloud geral para encontrar um incidente que afete o disco. Se houver um incidente, não entre em contato com o suporte, porque o Google já está ciente e trabalhando para resolver o problema.
- Se não houver problemas conhecidos nos dois painéis, entre em contato com o suporte para receber ajuda.
Árvore de decisão
O diagrama a seguir ilustra como proceder se um disco tiver um problema de desempenho e resume as informações das seções anteriores.
Como mostrado no fluxograma, entre em contato com o suporte apenas se não houver alertas
conhecidos nos painéis de serviço do PSH e do Cloud e o status do disco for
Severely Degraded
. Se o disco for Degraded
, entre em contato com o suporte somente se todas as
seguintes condições forem atendidas:
- O disco está
Degraded
há mais de 5 minutos - Você descartou um erro ou configuração incorreta da carga de trabalho (como problemas de rede).
- Não é possível realizar outras otimizações no nível do aplicativo, da carga de trabalho ou do disco.
- Você analisou todas as métricas do disco
- Você examinou os registros da carga de trabalho e da máquina virtual (VM)
A seguir
- Saiba mais sobre como criar gráficos com o Metric Explorer e como refinar os resultados da consulta adicionando filtros a um gráfico.
- Verifique os eventos ativos e anteriores no Painel de integridade do serviço personalizado e no Google Service Health.
- Para diretrizes de otimização de desempenho, consulte Otimizar Hyperdisk e Otimizar disco permanente.