Surveiller l'état du disque


Vous pouvez vérifier l'état de santé d'un volume Persistent Disk ou Google Cloud Hyperdisk en examinant la métrique État des performances du disque. Cette métrique indique si les performances du disque sont potentiellement affectées par des événements indésirables dans Compute Engine.

Un problème affectant l'état des performances du disque peut également être visible dans le tableau de bord Personal Service Health (PSH) de votre projet ou dans le tableau de bord Google Cloud Service Health.

Ce document explique l'état des performances du disque et comment l'utiliser pour résoudre les problèmes de performances.

Quand vérifier l'état d'un disque

Si vous remarquez un problème de performances avec un disque, vérifiez son état en examinant la métrique d'état des performances du disque. La métrique d'état des performances du disque est mise à jour toutes les minutes et représente les performances du disque pendant toute la minute précédente. Pour savoir comment vérifier l'état de fonctionnement du disque, consultez la section Afficher l'état des performances du disque.

Le tableau suivant récapitule les valeurs possibles de l'état des performances du disque.

État Signification
Healthy Les performances de disque sont conformes aux attentes.
Degraded Vous pouvez observer temporairement une latence d'E/S supérieure à celle attendue.
Severely degraded Une latence d'E/S élevée ou d'autres erreurs se produisent.

Si l'état des performances n'est pas Healthy, consultez Comprendre chaque état pour connaître les étapes suivantes.

Si l'état des performances est Healthy, le disque fonctionne normalement et vous devez rechercher d'autres causes du problème de performances. Vous devez rechercher des erreurs d'application ou de système d'exploitation, et vous assurer que votre disque est correctement optimisé. Pour obtenir des conseils d'optimisation, consultez les pages Optimiser Hyperdisk et Optimiser Persistent Disk.

Comment l'état du disque est-il lié aux autres métriques de performances des disques ?

L'état de santé du disque, tel qu'indiqué par la métrique d'état des performances, indique l'état interne du disque du point de vue de Google. Si l'état d'un disque est Degraded ou Severely Degraded, la cause du problème se trouve toujours dans l'infrastructure Compute Engine.

En général, vous ne pouvez pas modifier l'état d'un disque en modifiant la charge de travail. Toutefois, dans de rares cas, une modification de la charge de travail peut déclencher un problème interne. Il peut donc être possible d'atténuer un problème en modifiant la charge de travail.

Pour en savoir plus sur les autres métriques de performances des disques disponibles, consultez la section Examiner les métriques de performances des disques.

Scénarios n'affectant pas l'état des performances des disques

L'état des performances du disque n'a aucun rapport avec les problèmes de performances causés par les facteurs suivants:

  • Optimisation du disque incomplète ou insuffisante
  • Limite de performances associée au disque et au type de machine (si le type de machine choisi ne peut pas répondre aux exigences de performances de votre charge de travail)
  • Charge accrue sur le disque en raison du trafic de la charge de travail
  • Erreur de l'utilisateur, de l'application ou du système d'exploitation
  • Disques saturés ou corrompus
  • Pour les volumes Hyperdisk et de disque persistant Extreme, IOPS ou débit provisionnés insuffisants.

Dans ces situations, il vous incombe d'améliorer les performances, par exemple en optimisant le disque, en étendant la charge de travail, en modifiant le type de machine et en provisionnant plus de capacité, d'IOPS ou de débit.

Afficher l'état d'un disque dans Cloud Monitoring

Pour afficher l'état d'un disque, créez un graphique dans l'explorateur de métriques.

Rôles et autorisations requis

Pour obtenir les autorisations nécessaires pour vérifier la métrique d'état des performances des disques, demandez à votre administrateur de vous accorder les rôles IAM suivants sur le projet:

Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.

Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.

Créer un graphique dans l'explorateur de métriques

Pour créer un graphique, créez une requête à l'aide de l'interface basée sur des menus, du langage MQL (Monitoring Query Language) ou de PromQL.

Pour afficher l'état d'un ou de plusieurs disques dans un graphique, suivez ces instructions.
  1. Dans la console Google Cloud , accédez à la page  Explorateur de métriques:

    Accéder à l'explorateur de métriques

    Si vous utilisez la barre de recherche pour trouver cette page, sélectionnez le résultat dont le sous-titre est Monitoring.

  2. Dans l'élément Métrique, développez le menu Sélectionner une métrique, saisissez VM Instance dans la barre de filtre, puis utilisez les sous-menus pour sélectionner un type de ressource et des métriques spécifiques :
    1. Dans le menu Ressources actives, sélectionnez Instance de VM.
    2. Dans le menu Catégories de métriques actives, sélectionnez Instance.
    3. Dans le menu Métriques actives, sélectionnez État des performances du disque.
    4. Cliquez sur Appliquer.
    Le nom complet de cette métrique est compute.googleapis.com/instance/disk/performance_status.
  3. Configurez le mode d'affichage des données.
    Désactivez l'agrégation. Dans l'élément Agrégation, assurez-vous que le premier menu est défini sur Non agrégé et le second sur Aucune.
    Pour afficher l'état d'un disque spécifique, filtrez par device_name.

    Pour plus d'informations sur la configuration d'un graphique, consultez la page Sélectionner des métriques lors de l'utilisation de l'explorateur de métriques.

MQL

  1. Ouvrez l'éditeur de requête: suivez la procédure décrite dans la section Écrire des requêtes MQL.

  2. Saisissez votre requête dans l'Éditeur de requête. Par exemple, pour afficher l'état des performances d'un disque spécifique, saisissez la requête suivante:

        fetch gce_instance
        | metric 'compute.googleapis.com/instance/disk/performance_status'
        | filter metric.device_name == 'DISK_NAME'
        | group_by 1m,
            [value_performance_status_fraction_true:
              fraction_true(value.performance_status)]
        | every 1m
      

    Remplacez DISK_NAME par le nom du disque, par exemple disk-1.

PromQL

  1. Ouvrez l'éditeur de requête: suivez la procédure décrite dans la section Écrire des requêtes PromQL.

  2. Saisissez votre requête dans l'Éditeur de requête. Par exemple, pour afficher l'état des performances d'un disque spécifique, saisissez la requête suivante:

  last_over_time
    (compute_googleapis_com:instance_disk_performance_status
      {monitored_resource="gce_instance",
        project_id ="PROJECT_ID",
        device_name="DISK_NAME"}[${__interval}])

Remplacez DISK_NAME par le nom du disque, par exemple disk-1.

Si vous affichez les résultats dans un graphique, trois lignes s'affichent pour chaque disque, une pour chaque état possible. De même, si vous affichez le résultat de la requête dans un tableau, celui-ci comporte trois lignes pour chaque disque.

Si vous avez créé la requête avec PromQL ou MQL, chaque ligne aura une valeur de 1 ou 0. Pour les requêtes créées avec les menus, les valeurs seront 100% ou 0.

L'état actuel du disque est représenté par la ligne dont la valeur est 100% ou 1.

Par exemple, la capture d'écran suivante montre le graphique d'un disque nommé a-test-VM, dont l'état est Healthy:

Capture d'écran montrant le graphique où l'état du disque est "OK"

Si vous affichez les résultats de la requête sous forme de tableau, le tableau suivant est un exemple de résultats pour un disque Healthy:

performance_status valeur
Healthy 1
Degraded 0
Severely Degraded 0

La capture d'écran suivante montre le graphique d'un disque appelé replica-23509 dont l'état est Dégradé : Capture d'écran montrant le graphique où l'état du disque est "Dégradé"

Pour en savoir plus sur la signification de chaque état de performances, consultez Comprendre chaque état. Une fois le graphique créé, vous pouvez l'enregistrer dans un tableau de bord pour l'utiliser ultérieurement.

Résultats fractionnaires

Si votre requête inclut des résultats fractionnaires comme dans le tableau suivant, cela est généralement dû à la longueur de la période d'affichage sélectionnée. Par conséquent, Cloud Monitoring a agrégé les données au fil du temps. Une valeur de 77% pour l'état Healthy signifie que l'état du disque était Healthy pendant 77% de la période d'affichage sélectionnée.

performance_status valeur
Healthy 77%
Degraded 23%
Severely Degraded 0

Pour obtenir une vue plus détaillée de l'état d'un disque, utilisez une période d'affichage de quelques heures ou de quelques minutes.

Comprendre chaque état

Cette section explique la signification de chaque état et les cas où vous devrez peut-être prendre d'autres mesures.

Healthy

L'état Healthy indique que, du point de vue de Google, le disque fonctionne normalement.

Si un disque Healthy présente des problèmes de performances, ne contactez pas l'assistance. Résolvez plutôt le problème du disque en suivant l'une des suggestions suivantes:

  • Examinez les métriques de performances des disques, telles que la latence et la profondeur de la file d'attente.
  • Vérifiez les journaux et les métriques de votre charge de travail pour détecter les anomalies et les goulots d'étranglement.
  • Si vous utilisez un disque persistant, assurez-vous que la capacité provisionnée peut répondre aux besoins de performances du disque. Si vous utilisez des volumes Hyperdisk ou Extreme Persistent Disk, vérifiez que vous avez provisionné suffisamment d'IOPS et de débit.
  • Assurez-vous d'avoir suivi les consignes pour optimiser le disque. Pour en savoir plus, consultez les pages Optimiser Hyperdisk et Optimiser les disques persistants.

Degraded

En général, vous n'avez pas besoin de contacter l'assistance si l'état de votre disque est Degraded. Un Degraded status est généralement causé par une maintenance interne normale de l'infrastructure Compute Engine.

Vous ne remarquerez peut-être aucun impact sur les performances du disque lorsque son état est Degraded. Si le problème de performances et l'état Degraded sont corrélés dans le temps, il est possible que le problème de performances ne soit pas lié à l'état Degraded.

Dans le cas peu probable où un problème de performances est dû à l'état Degraded, l'impact est généralement temporaire. L'état du disque doit revenir à Healthy en quelques minutes.

Vous pouvez ignorer l'état Degraded en toute sécurité s'il n'y a pas de problèmes de performances avec le disque.

Que faire en cas de problème de performances ?

Si l'état des performances de votre disque est Degraded et que vous constatez un problème de performances, procédez comme suit:

  1. Consultez le tableau de bord PSH pour voir si un incident affecte le disque. En cas d'incident, ne contactez pas l'assistance, car Google en est au courant et s'efforce de résoudre le problème.
  2. Si aucun problème connu n'est détecté, attendez au moins cinq minutes pour que le problème de performances se résolve de lui-même.
  3. Si au bout de cinq minutes, le problème de performances n'est pas résolu et l'état est toujours Degraded, assurez-vous que le problème de performances n'est pas dû à un disque insuffisamment optimisé. Par exemple, vérifiez la latence et la profondeur de la file d'attente du disque. Il est possible que le problème de performances et l'état Degraded ne soient pas liés et ne soient que des coïncidences. Pour ce faire, examinez les métriques du disque et les consignes d'optimisation des performances.

  4. Si les problèmes de performances persistent et que toutes les conditions suivantes sont remplies, vous pouvez contacter l'assistance pour obtenir de l'aide:

    • L'état du disque est Degraded depuis plus de cinq minutes
    • Vous êtes raisonnablement sûr qu'il ne s'agit pas d'un problème de charge de travail, car vous avez optimisé le disque et vérifié qu'il n'y avait pas d'autres problèmes tels qu'un goulot d'étranglement ou une application surchargée.
    • Aucune alerte n'est affichée dans le tableau de bord PSH.

Google ne recommande pas de créer directement une alerte pour l'état Degraded, mais plutôt d'envoyer une alerte sur l'état de l'application de niveau supérieur et d'utiliser cette métrique pour déboguer les problèmes.

Severely Degraded

Un disque dont l'état de performances est Severely Degraded présente un problème de performances. Ce problème peut être dû à un incident ou à une erreur, et il est peut-être déjà visible dans le tableau de bord PSH ou dans le tableau de bordGoogle Cloud état de service.

Que faire ?

Si l'état des performances de votre disque est Severely Degraded, procédez comme suit:

  1. Vérifiez le tableau de bord PSH et le tableau de bord général Google Cloud pour détecter un incident affectant le disque. En cas d'incident, ne contactez pas l'assistance, car Google en est informé et s'efforce de résoudre le problème.
  2. Si aucun problème connu n'est signalé dans les deux tableaux de bord, contactez l'assistance pour obtenir de l'aide.

Arbre de décision

Le schéma suivant montre comment procéder si un disque présente un problème de performances et récapitule les informations des sections précédentes.

Organigramme décrivant les étapes à suivre pour interpréter la métrique d'état des performances des disques.

Comme indiqué dans le diagramme de flux, vous ne devez contacter l'assistance que si aucune alerte connue ne s'affiche dans les tableaux de bord PSH et des services cloud, et si l'état du disque est Severely Degraded. Si le disque est Degraded, contactez l'assistance uniquement si toutes les conditions suivantes sont remplies:

  • Le disque est Degraded depuis plus de cinq minutes
  • Vous avez exclu une erreur ou une mauvaise configuration de la charge de travail (par exemple, des problèmes de mise en réseau).
  • Aucune optimisation supplémentaire ne peut être effectuée au niveau de l'application, de la charge de travail ou du disque.
  • Vous avez examiné toutes les métriques du disque
  • Vous avez examiné les journaux de votre charge de travail et de votre machine virtuelle (VM).

Étape suivante