Monitorar a integridade do disco


É possível verificar a integridade de um volume do Google Cloud Hyperdisk ou do Persistent Disk analisando a métrica status de desempenho do disco. Essa métrica indica se o desempenho do disco pode ser afetado por eventos adversos no Compute Engine.

Um problema que afeta o status de desempenho do disco também pode aparecer no painel do Personal Service Health (PSH) do seu projeto ou no painel do Google Cloud Service Health.

Este documento discute o status de desempenho do disco e como usá-lo para resolver problemas de desempenho.

Quando verificar a integridade de um disco

Se você notar um problema de desempenho com um disco, verifique a integridade dele analisando a métrica de status de desempenho do disco. A métrica de status de desempenho do disco é atualizada a cada minuto e representa o desempenho do disco durante todo o minuto anterior. Para conferir as etapas de verificação da integridade do disco, consulte verificar o status de desempenho do disco.

A tabela a seguir resume os valores possíveis do status de desempenho do disco.

Status Significado
Healthy O desempenho do disco é o esperado.
Degraded Você pode observar temporariamente uma latência de E/S maior do que o esperado.
Severely degraded Há uma alta latência de E/S ou outros erros.

Se o status de performance não for Healthy, consulte Entender cada status para saber o que fazer em seguida.

Se o status de desempenho for Healthy, o disco está funcionando normalmente e você precisa verificar outras causas do problema de desempenho. Verifique se há erros no aplicativo ou no sistema operacional e se o disco está otimizado corretamente. Para diretrizes de otimização, consulte Otimizar Hyperdisk e Otimizar disco permanente.

Como a integridade do disco se relaciona a outras métricas de desempenho do disco

A integridade do disco, conforme indicada pela métrica de status de desempenho, mostra o status interno do disco do ponto de vista do Google. Se o status de um disco for Degraded ou Severely Degraded, a causa raiz estará sempre na infraestrutura do Compute Engine.

Geralmente, não é possível mudar a integridade de um disco modificando a carga de trabalho. No entanto, em casos raros, uma mudança na carga de trabalho pode acionar um problema interno. Portanto, pode ser possível atenuar um problema modificando a carga de trabalho.

Para saber mais sobre as outras métricas de desempenho do disco disponíveis, consulte Analisar as métricas de desempenho do disco.

Cenários que não afetam o status de desempenho do disco

O status de desempenho do disco não está relacionado a problemas de desempenho causados pelos seguintes fatores:

  • Otimização de disco incompleta ou insuficiente
  • Limite de desempenho associado ao disco e ao tipo de máquina (se o tipo de máquina escolhido não atender aos requisitos de desempenho da carga de trabalho)
  • Aumento da carga no disco devido ao tráfego de carga de trabalho
  • Erro do usuário, do aplicativo ou do sistema operacional
  • Discos cheios ou corrompidos
  • Para volumes do Hyperdisk e do Extreme Persistent Disk, IOPS ou capacidade de processamento provisionadas insuficientemente.

Nessas situações, é sua responsabilidade melhorar o desempenho, por exemplo, otimizando o disco, aumentando a carga de trabalho, mudando o tipo de máquina e provisionando mais capacidade, IOPS ou throughput.

Conferir a integridade de um disco no Cloud Monitoring

Para conferir a integridade de um disco, crie um gráfico no Metrics Explorer.

Papéis e permissões necessárias

Para ter as permissões necessárias para verificar a métrica de status de desempenho do disco, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto:

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.

Criar um gráfico no Metrics Explorer

Para criar um gráfico, crie uma consulta com a interface orientada por menu, a Linguagem de consulta do Monitoring (MQL) ou o PromQL.

Para conferir a integridade de um ou mais discos em um gráfico, siga estas instruções.
  1. No Console do Google Cloud, acesse a página do  Metrics Explorer:

    Acesse o Metrics explorer

    Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Monitoramento.

  2. No elemento Metric, expanda o menu Selecionar uma métrica, digite VM Instance na barra de filtro e use os submenus para selecionar um tipo de recurso e métrica específicos:
    1. No menu Recursos ativos, selecione Instância de VM.
    2. No menu Categorias de métrica ativas, selecione Instância.
    3. No menu Métricas ativas, selecione Status de desempenho do disco.
    4. Clique em Aplicar.
    O nome totalmente qualificado dessa métrica é compute.googleapis.com/instance/disk/performance_status.
  3. Configure a visualização dos dados.
    Desativar a agregação. Verifique se, no elemento Agregação, o primeiro menu está definido como Não agregado e o segundo como Nenhum.
    Para conferir a integridade de um disco específico, filtre por device_name.

    Para mais informações sobre como configurar um gráfico, consulte Selecionar métricas ao usar o Metrics Explorer.

MQL

  1. Abra o editor de consultas: siga as etapas em Escrever consultas MQL.

  2. Digite a consulta no Editor de consultas. Por exemplo, para conferir o status de desempenho de um disco específico, insira a seguinte consulta:

        fetch gce_instance
        | metric 'compute.googleapis.com/instance/disk/performance_status'
        | filter metric.device_name == 'DISK_NAME'
        | group_by 1m,
            [value_performance_status_fraction_true:
              fraction_true(value.performance_status)]
        | every 1m
      

    Substitua DISK_NAME pelo nome do disco, por exemplo, disk-1.

PromQL

  1. Abra o editor de consultas: siga as etapas em Escrever consultas PromQL.

  2. Digite a consulta no Editor de consultas. Por exemplo, para conferir o status de desempenho de um disco específico, insira a seguinte consulta:

  last_over_time
    (compute_googleapis_com:instance_disk_performance_status
      {monitored_resource="gce_instance",
        project_id ="PROJECT_ID",
        device_name="DISK_NAME"}[${__interval}])

Substitua DISK_NAME pelo nome do disco, por exemplo, disk-1.

Se você conferir os resultados em um gráfico, verá três linhas para cada disco, uma para cada status possível. Da mesma forma, se você consultar o resultado da consulta em uma tabela, ela terá três linhas para cada disco.

Se você criou a consulta com PromQL ou MQL, cada linha ou linha terá um valor de 1 ou 0. Para consultas criadas com os menus, os valores de são 100% ou 0.

A integridade atual do disco é representada pela linha ou coluna cujo valor é 100% ou 1.

Por exemplo, a captura de tela a seguir mostra o gráfico de um disco chamado a-test-VM, cujo status é Healthy:

captura de tela mostrando o gráfico em que o status do disco é "Healthy"

Se você visualizar os resultados da consulta como uma tabela, a tabela a seguir é um exemplo dos resultados de um disco Healthy:

performance_status valor
Healthy 1
Degraded 0
Severely Degraded 0

A captura de tela a seguir mostra o gráfico de um disco chamado replica-23509, cujo status é Degradado: captura de tela mostrando o gráfico em que o status do disco está degradado

Para saber o que cada status de performance significa, consulte Entender cada status. Depois de criar o gráfico, você pode salvá-lo em um painel para uso futuro.

Resultados fracionários

Se a consulta incluir resultados fracionários, como na tabela a seguir, é porque o período de exibição selecionado foi longo. Como resultado, o Cloud Monitoring agregou os dados ao longo do tempo. Um valor de 77% para o status Healthy significa que o status do disco foi Healthy 77% do período de exibição selecionado.

performance_status valor
Healthy 77%
Degraded 23%
Severely Degraded 0

Para uma visão mais detalhada da integridade de um disco, use um período de exibição de algumas horas ou minutos.

Entender cada status

Esta seção discute o que cada status significa e quando você precisa tomar outras medidas.

Healthy

O status Healthy indica que, do ponto de vista do Google, o disco está funcionando normalmente.

Se um disco Healthy tiver problemas de desempenho, não entre em contato com o suporte. Em vez disso, resolva o problema do disco usando algumas das seguintes sugestões:

  • Analise as métricas de desempenho do disco, como latência e profundidade da fila.
  • Verifique se há anomalias e gargalos nos registros e nas métricas da carga de trabalho.
  • Se você estiver usando um Persistent Disk, verifique se a capacidade provisionada pode atender às necessidades de desempenho do disco. Se você estiver usando volumes do Hyperdisk ou do Extreme Persistent Disk, verifique se provisionou IOPS e capacidade suficientes.
  • Verifique se você seguiu as diretrizes para otimizar o disco. Para mais informações, consulte Otimizar Hyperdisk e Otimizar disco permanente.

Degraded

Normalmente, não é necessário entrar em contato com o suporte se o status do disco for Degraded. Um Degraded status geralmente é causado pela manutenção interna normal na infraestrutura do Compute Engine.

Talvez você não perceba nenhum impacto no desempenho do disco enquanto o status dele estiver como Degraded. Se o problema de desempenho e o status Degraded se correlacionarem no tempo, o problema de desempenho ainda poderá não estar relacionado ao status Degraded.

No caso improvável de um problema de desempenho ser causado pelo status Degraded, o impacto geralmente é temporário. O status do disco deve reverter para Healthy em alguns minutos.

É possível ignorar o status Degraded se não houver problemas de desempenho com o disco.

O que fazer se houver um problema de desempenho

Se o status de desempenho do disco for Degraded e você observar um problema de desempenho, siga estas etapas:

  1. Verifique o painel do PHS para saber se há um incidente afetando o disco. Se houver um incidente, não entre em contato com o suporte, porque o Google já está ciente do problema e está trabalhando para resolvê-lo.
  2. Se não houver problemas conhecidos, aguarde pelo menos cinco minutos para que o problema de desempenho seja resolvido sozinho.
  3. Se, após 5 minutos, o problema de desempenho não for resolvido e o status ainda for Degraded, verifique se o problema de desempenho não é porque o disco não está otimizado o suficiente. Por exemplo, verifique a latência e a profundidade da fila do disco. É possível que o problema de desempenho e o status Degraded não estejam relacionados e sejam apenas coincidentes. Para isso, analise as métricas do disco e as diretrizes de otimização de desempenho.

  4. Se os problemas de desempenho continuarem e todas as condições a seguir forem atendidas, entre em contato com o suporte para receber ajuda:

    • O status do disco está Degraded há mais de 5 minutos
    • Você tem certeza de que não é um problema de carga de trabalho porque otimizou o disco e verificou que não há outros problemas, como gargalo ou aplicativo sobrecarregado.
    • Não há alertas no painel de PSH

O Google não recomenda criar um alerta para o status Degraded diretamente, mas sim alertar sobre o status do aplicativo de nível mais alto e usar essa métrica para depurar problemas.

Severely Degraded

Um disco com status de desempenho Severely Degraded está com um problema de desempenho. Esse problema pode ser causado por um incidente ou erro e já pode estar visível no painel do PHS ou no painel de integridade do serviço do Google Cloud.

O que fazer

Se o status de desempenho do disco for Severely Degraded, siga estas etapas:

  1. Verifique no painel do PSH e no painel geral de integridade do Google Cloud se há um incidente que afeta o disco. Se houver um incidente, não entre em contato com o suporte, porque o Google está ciente e trabalhando para resolver o problema.
  2. Se não houver problemas conhecidos nos dois painéis, entre em contato com o suporte para receber ajuda.

Árvore de decisão

O diagrama a seguir ilustra como proceder se um disco tiver um problema de desempenho e resume as informações das seções anteriores.

Fluxograma descrevendo as etapas a serem seguidas para interpretar a métrica de status de desempenho do disco.

Como mostrado no fluxograma, entre em contato com o suporte apenas se não houver alertas conhecidos nos painéis de serviço do PSH e do Cloud e o status do disco for Severely Degraded. Se o disco for Degraded, entre em contato com o suporte somente se todas as seguintes condições forem atendidas:

  • O disco está Degraded há mais de 5 minutos
  • Você descartou um erro ou configuração incorreta da carga de trabalho (como problemas de rede).
  • Não é possível realizar outras otimizações no nível do aplicativo, da carga de trabalho ou do disco.
  • Você analisou todas as métricas do disco
  • Você examinou os registros da carga de trabalho e da máquina virtual (VM)

A seguir