Monitorize o estado do disco


Pode verificar o estado de um volume do Persistent Disk ou do Google Cloud Hyperdisk revendo a métrica estado do desempenho do disco. Esta métrica indica se o desempenho do disco é potencialmente afetado por eventos adversos no Compute Engine.

Um problema que afete o estado de desempenho do disco também pode estar visível no painel de controlo do Personal Service Health (PSH) do seu projeto ou no painel de controlo do Google Cloud Service Health.

Este documento aborda o estado de desempenho do disco e como usá-lo para resolver problemas de desempenho.

Quando verificar o estado de um disco

Se notar um problema de desempenho com um disco, verifique o estado do disco revendo a métrica de estado de desempenho do disco. A métrica de estado do desempenho do disco é atualizada a cada minuto e representa o desempenho do disco durante todo o minuto anterior. Para ver os passos para verificar o estado do disco, consulte o artigo Veja o estado de desempenho do disco.

A tabela seguinte resume os valores possíveis do estado de desempenho do disco.

Estado Significado
Healthy O desempenho do disco está dentro do esperado.
Degraded Pode observar temporariamente uma latência de E/S superior à esperada.
Severely degraded Está a ocorrer uma latência de E/S elevada ou outros erros.

Se o estado de desempenho não for Healthy, consulte o artigo Compreenda cada estado para ver os passos seguintes.

Se o estado de desempenho for Healthy, o disco está a funcionar normalmente e tem de verificar outras causas para o problema de desempenho. Deve verificar se existem erros na aplicação ou no sistema operativo e certificar-se de que o disco está corretamente otimizado. Para ver diretrizes de otimização, consulte os artigos Otimize o Hyperdisk e Otimize o disco persistente.

Como o estado do disco se relaciona com outras métricas de desempenho do disco

O estado do disco, conforme indicado pela métrica de estado de desempenho, mostra o estado interno do disco na perspetiva da Google. Se o estado de um disco for Degraded ou Severely Degraded, a causa principal está sempre na infraestrutura do Compute Engine.

Geralmente, não pode alterar o estado de funcionamento de um disco modificando a carga de trabalho. No entanto, em casos raros, uma alteração à carga de trabalho pode acionar um problema interno. Por isso, pode ser possível mitigar um problema modificando a carga de trabalho.

Para saber mais sobre as outras métricas de desempenho do disco disponíveis, consulte o artigo Reveja as métricas de desempenho do disco.

Cenários que não afetam o estado de desempenho do disco

O estado de desempenho do disco não está relacionado com problemas de desempenho causados pelos seguintes fatores:

  • Otimização do disco incompleta ou insuficiente
  • Limite de desempenho associado ao disco e ao tipo de máquina (se o tipo de máquina escolhido não conseguir satisfazer os requisitos de desempenho da sua carga de trabalho)
  • Aumento da carga no disco devido ao tráfego da carga de trabalho
  • Erro do utilizador, da aplicação ou do sistema operativo
  • Discos cheios ou danificados
  • Para volumes Hyperdisk e Extreme Persistent Disk, IOPS ou débito insuficientemente aprovisionados.

Nestas situações, é da sua responsabilidade melhorar o desempenho, por exemplo, otimizando o disco, aumentando a carga de trabalho, alterando o tipo de máquina e aprovisionando mais capacidade, IOPS ou débito.

Veja o estado de funcionamento de um disco no Cloud Monitoring

Para ver o estado de um disco, crie um gráfico no explorador de métricas.

Funções e autorizações necessárias

Para receber as autorizações de que precisa para verificar a métrica de estado de desempenho do disco, peça ao seu administrador que lhe conceda as seguintes funções do IAM no projeto:

Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.

Também pode conseguir as autorizações necessárias através de funções personalizadas ou outras funções predefinidas.

Crie um gráfico no explorador de métricas

Para criar um gráfico, crie uma consulta com a interface baseada em menus ou o PromQL.

Para ver o estado de um ou mais discos num gráfico, siga estas instruções.
  1. Na Google Cloud consola, aceda à página  Explorador de métricas:

    Aceda ao Metrics Explorer

    Se usar a barra de pesquisa para encontrar esta página, selecione o resultado cujo subtítulo é Monitorização.

  2. Na barra de ferramentas da Google Cloud consola, selecione o seu Google Cloud projeto. Para configurações do App Hub, selecione o projeto anfitrião do App Hub ou o projeto de gestão da pasta com apps ativadas.
  3. No elemento Métrica, expanda o menu Selecionar uma métrica, introduza VM Instance na barra de filtros e, de seguida, use os submenus para selecionar um tipo de recurso e uma métrica específicos:
    1. No menu Recursos ativos, selecione Instância de VM.
    2. No menu Categorias de métricas ativas, selecione Instância.
    3. No menu Métricas ativas, selecione Estado do desempenho do disco.
    4. Clique em Aplicar.
    O nome totalmente qualificado desta métrica é compute.googleapis.com/instance/disk/performance_status.
  4. Para adicionar filtros que removem séries cronológicas dos resultados da consulta, use o elemento Filter.

  5. Configure a forma como os dados são vistos.
    Desative a agregação. Certifique-se de que, no elemento Agregação, o primeiro menu está definido como Não agregado e o segundo menu está definido como Nenhum.
    Para ver o estado de um disco específico, filtre por device_name.

    Para mais informações sobre como configurar um gráfico, consulte o artigo Selecione métricas quando usar o explorador de métricas.

PromQL

  1. Abra o editor de consultas: siga os passos em Escreva consultas PromQL.

  2. Introduza a consulta no editor de consultas. Por exemplo, para ver o estado de desempenho de um disco específico, introduza a seguinte consulta:

  last_over_time
    (compute_googleapis_com:instance_disk_performance_status
      {monitored_resource="gce_instance",
        project_id ="PROJECT_ID",
        device_name="DISK_NAME"}[${__interval}])

Substitua DISK_NAME pelo nome do disco, por exemplo, disk-1.

Se vir os resultados num gráfico, existem 3 linhas para cada disco, uma para cada estado possível. Da mesma forma, se vir o resultado da consulta numa tabela, a tabela tem 3 linhas para cada disco.

Se criou a consulta com PromQL, cada linha tem um valor de 1 ou 0. Para consultas criadas com os menus, os valores de serão 100% ou 0.

O estado atual do disco é representado pela linha ou pela linha cujo valor é 100% ou 1.

Por exemplo, a captura de ecrã seguinte mostra o gráfico de um disco denominado a-test-VM, cujo estado é Healthy:

Captura de ecrã que mostra o gráfico onde o estado do disco é Healthy (Em bom estado)

Se vir os resultados da consulta como uma tabela, a tabela seguinte é um exemplo dos resultados de um disco que está Healthy:

performance_status valor
Healthy 1
Degraded 0
Severely Degraded 0

A captura de ecrã seguinte mostra o gráfico de um disco denominado replica-23509 cujo estado é Degradado: Captura de ecrã que mostra o gráfico onde o estado do disco é Degradado

Para informações sobre o significado de cada estado de desempenho, consulte o artigo Compreenda cada estado. Depois de criar o gráfico, pode guardá-lo num painel de controlo para utilização futura.

Resultados fracionários

Se a sua consulta incluir resultados fracionários, como na tabela seguinte, isto deve-se normalmente ao facto de o período de apresentação selecionado ter sido longo. Como resultado, o Cloud Monitoring agregou os dados ao longo do tempo. Um valor de 77% para o estado Healthy significa que o estado do disco foi Healthy 77% do período de apresentação selecionado.

performance_status valor
Healthy 77%
Degraded 23%
Severely Degraded 0

Para uma vista mais detalhada do estado de um disco, use um período de apresentação de algumas horas ou alguns minutos.

Compreenda cada estado

Esta secção aborda o significado de cada estado e quando pode ter de tomar medidas adicionais.

Healthy

O estado Healthy indica que, do ponto de vista da Google, o disco está a funcionar normalmente.

Se um disco Healthy tiver problemas de desempenho, não contacte o apoio técnico. Em alternativa, resolva os problemas do disco com algumas das seguintes sugestões:

  • Reveja as métricas de desempenho do disco, como a latência e a profundidade da fila.
  • Verifique os registos e as métricas da sua carga de trabalho para detetar anomalias e gargalos.
  • Se estiver a usar um disco persistente, certifique-se de que a capacidade aprovisionada consegue satisfazer as necessidades de desempenho do disco. Se estiver a usar volumes do Hyperdisk ou do Extreme Persistent Disk, verifique se aprovisionou IOPS e débito suficientes.
  • Certifique-se de que seguiu as diretrizes para otimizar o disco. Para mais informações, consulte os artigos Otimize o Hyperdisk e Otimize o disco persistente.

Degraded

Normalmente, não precisa de contactar o apoio técnico se o estado do disco for Degraded. Geralmente, um Degraded status é causado pela manutenção interna normal na infraestrutura do Compute Engine.

Pode não notar qualquer impacto no desempenho do disco enquanto o respetivo estado for Degraded. Se o problema de desempenho e o estado Degraded estiverem correlacionados no tempo, o problema de desempenho pode ainda não estar relacionado com o estado Degraded.

No caso improvável de um problema de desempenho se dever ao estado Degraded, o impacto é normalmente temporário. O estado do disco deve reverter para Healthy no prazo de alguns minutos.

Pode ignorar o estado Degraded em segurança se não existirem problemas de desempenho com o disco.

O que fazer se houver um problema de desempenho

Se o estado de desempenho do disco for Degraded e estiver a observar um problema de desempenho, siga estes passos:

  1. Consulte o painel de controlo do PSH para verificar se existe um incidente que afete o disco. Se existir um incidente, não contacte o apoio técnico, uma vez que a Google tem conhecimento da situação e está a trabalhar para resolver o problema.
  2. Se não existirem problemas conhecidos, aguarde, pelo menos, 5 minutos para que o problema de desempenho seja resolvido automaticamente.
  3. Se, após 5 minutos, o problema de desempenho não estiver resolvido e o estado continuar a ser Degraded, certifique-se de que o problema de desempenho não se deve ao facto de o disco não estar suficientemente otimizado. Por exemplo, verifique a latência e a profundidade da fila do disco. É possível que o problema de desempenho e o estado Degraded não estejam relacionados e sejam apenas uma coincidência. Para tal, reveja as métricas do disco e as diretrizes de otimização do desempenho.

  4. Se os problemas de desempenho continuarem e todas as seguintes condições forem cumpridas, pode contactar o apoio técnico para receber assistência:

    • O estado do disco é Degraded há mais de 5 minutos
    • Tem confiança razoável de que não se trata de um problema de carga de trabalho porque otimizou o disco e verificou que não existem outros problemas, como um gargalo de estrangulamento ou uma aplicação sobrecarregada
    • Não existem alertas no painel de controlo do PSH

A Google não recomenda a criação de um alerta para o estado Degraded diretamente, mas sim a criação de alertas sobre o estado da aplicação de nível superior e a utilização desta métrica para depurar problemas.

Severely Degraded

Um disco cujo estado de desempenho é Severely Degraded está a ter um problema de desempenho. Este problema pode dever-se a um incidente ou a um erro e pode já estar visível no painel de controlo do PSH ou no painel de controlo do Google Cloud estado do serviço.

O que fazer

Se o estado de desempenho do disco for Severely Degraded, siga estes passos:

  1. Verifique o painel de controlo do PSH e o painel de controlo de estado geral para ver se existe um incidente que afete o disco. Google Cloud Se existir um incidente, não contacte o apoio técnico, uma vez que a Google tem conhecimento da situação e está a trabalhar para resolver o problema.
  2. Se não existirem problemas conhecidos em ambos os painéis de controlo, contacte o apoio técnico para receber assistência.

Árvore de decisões

O diagrama seguinte ilustra como proceder se um disco tiver um problema de desempenho e resume as informações nas secções anteriores.

Fluxograma que descreve os passos a seguir para interpretar a métrica de estado do desempenho do disco.

Conforme mostrado no fluxograma, só deve contactar o apoio técnico se não existirem alertas conhecidos nos painéis de controlo do PSH e do serviço na nuvem, e o estado do disco for Severely Degraded. Se o disco estiver Degraded, contacte o apoio técnico apenas se todas as seguintes condições tiverem sido cumpridas:

  • O disco está Degraded há mais de 5 minutos
  • Excluiu um erro ou uma configuração incorreta da carga de trabalho (como problemas de rede)
  • Não é possível fazer otimizações adicionais ao nível da aplicação, da carga de trabalho nem do disco
  • Reviu todas as métricas do disco
  • Examinou a sua carga de trabalho e os registos da máquina virtual (VM)

O que se segue?