Laufwerkzustand überwachen


Sie können den Zustand eines Persistent Disk- oder Google Cloud-Hyperdisk-Volumes anhand des Messwerts Laufwerksleistungsstatus prüfen. Dieser Messwert gibt an, ob die Leistung des Laufwerks möglicherweise durch negative Ereignisse in der Compute Engine beeinträchtigt wird.

Ein Problem, das sich auf den Status der Laufwerksleistung auswirkt, wird möglicherweise auch im Dashboard Personal Service Health (PSH) oder im Dashboard Google Cloud Service Health Ihres Projekts angezeigt.

In diesem Dokument wird der Status der Laufwerkleistung beschrieben und wie Sie ihn zur Behebung von Leistungsproblemen verwenden können.

Wann sollten Sie die Integrität eines Laufwerks prüfen?

Wenn Sie ein Leistungsproblem mit einem Laufwerk bemerken, prüfen Sie den Zustand des Laufwerks anhand des Messwerts für den Laufwerksleistungsstatus. Der Messwert für den Laufwerkstatus wird jede Minute aktualisiert und entspricht der Laufwerkleistung der letzten Minute. Eine Anleitung zum Prüfen des Zustands des Laufwerks finden Sie unter Laufwerkleistungsstatus ansehen.

In der folgenden Tabelle sind die möglichen Werte des Laufwerkleistungsstatus zusammengefasst.

Status Bedeutung
Healthy Die Laufwerksleistung entspricht den Erwartungen.
Degraded Die E/A-Latenz kann vorübergehend höher als erwartet sein.
Severely degraded Hohe I/O-Latenz oder andere Fehler treten auf.

Wenn der Leistungsstatus nicht Healthy lautet, finden Sie unter Status der einzelnen Status Informationen zu den nächsten Schritten.

Wenn der Leistungsstatus Healthy ist, funktioniert das Laufwerk normal und Sie müssen nach anderen Ursachen für das Leistungsproblem suchen. Prüfen Sie, ob Anwendungs- oder Betriebssystemfehler vorliegen, und achten Sie darauf, dass Ihr Laufwerk richtig optimiert ist. Informationen zu Optimierungsrichtlinien finden Sie unter Hyperdisk optimieren und Persistent Disk optimieren.

Zusammenhang zwischen Laufwerkzustand und anderen Laufwerksleistungsmesswerten

Der Zustand des Laufwerks, der durch den Messwert „Leistungsstatus“ angegeben wird, ist der interne Status des Laufwerks aus Sicht von Google. Wenn der Status eines Laufwerks Degraded oder Severely Degraded ist, liegt die Ursache immer in der Compute Engine-Infrastruktur.

Sie können den Zustand eines Laufwerks in der Regel nicht durch Ändern der Arbeitslast ändern. In seltenen Fällen kann eine Änderung der Arbeitslast jedoch ein internes Problem auslösen. In diesem Fall kann es möglich sein, das Problem durch Ändern der Arbeitslast zu beheben.

Weitere Informationen zu den anderen verfügbaren Leistungsmesswerten für Laufwerke finden Sie unter Leistungsmesswerte für Laufwerke prüfen.

Szenarien, die sich nicht auf den Status der Laufwerksleistung auswirken

Der Status der Laufwerksleistung hat keinen Einfluss auf Leistungsprobleme, die durch die folgenden Faktoren verursacht werden:

  • Unvollständige oder unzureichende Laufwerkoptimierung
  • Leistungslimit, das mit dem Laufwerk und dem Maschinentyp verknüpft ist (wenn der ausgewählte Maschinentyp die Leistungsanforderungen Ihrer Arbeitslast nicht erfüllen kann)
  • Erhöhte Auslastung des Laufwerks durch Arbeitslast-Traffic
  • Nutzer-, Anwendungs- oder Betriebssystemfehler
  • Volle oder beschädigte Laufwerke
  • Für Hyperdisk- und Extreme Persistent Disk-Volumes: Nicht ausreichend bereitgestellte IOPS oder Durchsatz

In diesen Fällen liegt es in Ihrer Verantwortung, die Leistung zu verbessern, z. B. durch Optimieren des Laufwerks, Skalieren der Arbeitslast, Ändern des Maschinentyps und Bereitstellen von mehr Kapazität, IOPS oder Durchsatz.

Zustand eines Laufwerks in Cloud Monitoring ansehen

Wenn Sie den Zustand eines Laufwerks prüfen möchten, erstellen Sie ein Diagramm im Metrics Explorer.

Erforderliche Rollen und Berechtigungen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für das Projekt zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Prüfen des Messwerts für den Laufwerkstatus benötigen:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Diagramm im Metrics Explorer erstellen

Um ein Diagramm zu erstellen, erstellen Sie eine Abfrage entweder über die menügesteuerte Benutzeroberfläche, Monitoring Query Language (MQL) oder PromQL.

So rufen Sie die Integrität eines oder mehrerer Laufwerke in einem Diagramm auf:
  1. Rufen Sie in der Google Cloud Console die Seite Metrics Explorer auf.

    Zum Metrics Explorer

    Wenn Sie diese Seite über die Suchleiste suchen, wählen Sie das Ergebnis aus, dessen Zwischenüberschrift Monitoring ist.

  2. Maximieren Sie im Element Messwert das Menü Messwert auswählen, geben Sie VM Instance in die Filterleiste ein und wählen Sie dann über die Untermenüs einen bestimmten Ressourcentyp und Messwert aus:
    1. Wählen Sie im Menü Aktive Ressourcen die Option VM-Instanz aus.
    2. Wählen Sie im Menü Aktive Messwertkategorien die Option Instanz aus.
    3. Wählen Sie im Menü Aktive Messwerte die Option Laufwerksleistungsstatus aus.
    4. Klicken Sie auf Anwenden.
    Der voll qualifizierte Name für diesen Messwert ist compute.googleapis.com/instance/disk/performance_status.
  3. Konfigurieren Sie, wie die Daten angezeigt werden.
    Deaktivieren Sie die Aggregation. Achten Sie darauf, dass im Element Aggregation das erste Menü auf Nicht aggregiert und das zweite Menü auf Keine gesetzt ist.
    Wenn Sie den Zustand eines bestimmten Laufwerks aufrufen möchten, filtern Sie nach device_name.

    Weitere Informationen zum Konfigurieren eines Diagramms finden Sie unter Messwerte bei Verwendung von Metrics Explorer auswählen.

MQL

  1. Öffnen Sie den Abfrageeditor. Folgen Sie dazu der Anleitung unter MQL-Abfragen schreiben.

  2. Geben Sie Ihre Abfrage in den Abfrageeditor ein. Wenn Sie beispielsweise den Leistungsstatus eines bestimmten Laufwerks aufrufen möchten, geben Sie die folgende Abfrage ein:

        fetch gce_instance
        | metric 'compute.googleapis.com/instance/disk/performance_status'
        | filter metric.device_name == 'DISK_NAME'
        | group_by 1m,
            [value_performance_status_fraction_true:
              fraction_true(value.performance_status)]
        | every 1m
      

    Ersetzen Sie DISK_NAME durch den Laufwerksnamen, z. B. disk-1.

PromQL

  1. Öffnen Sie den Abfrageeditor. Folgen Sie dazu der Anleitung unter PromQL-Abfragen schreiben.

  2. Geben Sie Ihre Abfrage in den Abfrageeditor ein. Wenn Sie beispielsweise den Leistungsstatus eines bestimmten Laufwerks aufrufen möchten, geben Sie die folgende Abfrage ein:

  last_over_time
    (compute_googleapis_com:instance_disk_performance_status
      {monitored_resource="gce_instance",
        project_id ="PROJECT_ID",
        device_name="DISK_NAME"}[${__interval}])

Ersetzen Sie DISK_NAME durch den Laufwerksnamen, z. B. disk-1.

Wenn Sie die Ergebnisse in einem Diagramm ansehen, sind für jeden Datenträger drei Linien zu sehen, eine für jeden möglichen Status. Wenn Sie sich das Abfrageergebnis in einer Tabelle ansehen, enthält die Tabelle ebenfalls drei Zeilen für jeden Datenträger.

Wenn Sie die Abfrage mit PromQL oder MQL erstellt haben, hat jede Zeile den Wert 1 oder 0. Bei Abfragen, die mit den Menüs erstellt wurden, sind die Werte für 100% oder 0.

Der aktuelle Zustand des Laufwerks wird durch die Zeile mit dem Wert 100% oder 1 dargestellt.

Der folgende Screenshot zeigt beispielsweise das Diagramm für ein Laufwerk mit dem Namen a-test-VM und dem Status Healthy:

Screenshot, der das Diagramm mit dem Status „Gesund“ des Laufwerks zeigt

Wenn Sie die Abfrageergebnisse als Tabelle aufrufen, sehen Sie in der folgenden Tabelle ein Beispiel für die Ergebnisse für einen Datenträger mit Healthy:

performance_status Wert
Healthy 1
Degraded 0
Severely Degraded 0

Der folgende Screenshot zeigt das Diagramm für ein Laufwerk namens replica-23509 mit dem Status Eingeschränkt: Screenshot des Diagramms, in dem der Status des Laufwerks als „Beschädigt“ angezeigt wird

Informationen zur Bedeutung der einzelnen Leistungsstatus finden Sie hier. Nachdem Sie das Diagramm erstellt haben, können Sie es für die spätere Verwendung in einem Dashboard speichern.

Teilergebnisse

Wenn Ihre Abfrage Bruchteile enthält, wie in der folgenden Tabelle, ist das in der Regel darauf zurückzuführen, dass der ausgewählte Zeitraum lang war. Daher wurden die Daten in Cloud Monitoring im Laufe der Zeit aggregiert. Ein Wert von 77% für den Status Healthy bedeutet, dass der Status des Laufwerks Healthy 77% des ausgewählten Anzeigezeitraums war.

performance_status Wert
Healthy 77%
Degraded 23%
Severely Degraded 0

Wenn Sie sich ein detaillierteres Bild des Zustands eines Laufwerks machen möchten, verwenden Sie einen Anzeigezeitraum von einigen Stunden oder Minuten.

Bedeutung der einzelnen Status

In diesem Abschnitt erfahren Sie, was die einzelnen Status bedeuten und wann Sie möglicherweise weitere Maßnahmen ergreifen müssen.

Healthy

Der Healthy-Status gibt an, dass das Laufwerk aus Sicht von Google normal funktioniert.

Wenn bei einem Healthy-Laufwerk Leistungsprobleme auftreten, wenden Sie sich nicht an den Support. Versuchen Sie stattdessen, das Problem mithilfe der folgenden Vorschläge zu beheben:

  • Prüfen Sie die Leistungsmesswerte für Laufwerke, z. B. Latenz und Warteschlangentiefe.
  • Prüfen Sie die Logs und Messwerte Ihrer Arbeitslast auf Anomalien und Engpässe.
  • Wenn Sie einen nichtflüchtigen Speicher verwenden, achten Sie darauf, dass die bereitgestellte Kapazität die Leistungsanforderungen des Laufwerks erfüllt. Wenn Sie Hyperdisk- oder Extreme Persistent Disk-Volumes verwenden, prüfen Sie, ob Sie genügend IOPS und Durchsatz bereitgestellt haben.
  • Prüfen Sie, ob Sie die Richtlinien zur Laufwerkoptimierung befolgt haben. Weitere Informationen finden Sie unter Hyperdisk optimieren und Persistent Disk optimieren.

Degraded

Wenn der Status Ihres Laufwerks Degraded ist, müssen Sie sich in der Regel nicht an den Support wenden. Ein Degraded status wird in der Regel durch die normale interne Wartung der Compute Engine-Infrastruktur verursacht.

Wenn der Status Degraded ist, ist das möglicherweise nicht der Fall. Auch wenn das Leistungsproblem zeitlich mit dem Degraded-Status übereinstimmt, hat es möglicherweise nichts damit zu tun.Degraded

Falls ein Leistungsproblem auf den Status Degraded zurückzuführen ist, ist die Auswirkung in der Regel vorübergehend. Der Status des Laufwerks sollte innerhalb weniger Minuten zu Healthy zurückkehren.

Sie können den Status Degraded ignorieren, wenn keine Leistungsprobleme mit dem Laufwerk auftreten.

Vorgehen bei Leistungsproblemen

Wenn der Leistungsstatus Ihres Laufwerks Degraded ist und Sie Leistungsprobleme feststellen, gehen Sie so vor:

  1. Sehen Sie im PSH-Dashboard nach, ob ein Vorfall vorliegt, der sich auf das Laufwerk auswirkt. Wenden Sie sich bei einem Vorfall nicht an den Support. Google ist bereits informiert und arbeitet an der Lösung des Problems.
  2. Wenn keine bekannten Probleme vorliegen, warten Sie mindestens fünf Minuten, bis sich das Leistungsproblem von selbst behoben hat.
  3. Wenn das Leistungsproblem nach 5 Minuten nicht behoben ist und der Status weiterhin Degraded lautet, prüfen Sie, ob das Problem auf eine unzureichende Optimierung des Laufwerks zurückzuführen ist. Prüfen Sie beispielsweise die Latenz und die Warteschlangentiefe des Laufwerks. Es ist möglich, dass das Leistungsproblem und der Degraded-Status nicht zusammenhängen und nur zufällig auftreten. Sehen Sie sich dazu die Messwerte des Laufwerks und die Richtlinien zur Leistungsoptimierung an.

  4. Wenn die Leistungsprobleme weiterhin auftreten und alle folgenden Bedingungen erfüllt sind, kannst du dich an den Support wenden:

    • Der Status des Laufwerks ist seit mehr als 5 Minuten Degraded.
    • Sie sind ziemlich sicher, dass es sich nicht um ein Arbeitslastproblem handelt, da Sie den Datenträger optimiert und geprüft haben, ob es keine anderen Probleme wie ein Engpass oder eine überlastete Anwendung gibt.
    • Im PSH-Dashboard sind keine Benachrichtigungen zu sehen.

Google empfiehlt nicht, direkt eine Benachrichtigung für den Degraded-Status zu erstellen, sondern Benachrichtigungen für den Anwendungsstatus auf höherer Ebene zu verwenden und diesen Messwert zur Fehlerbehebung zu nutzen.

Severely Degraded

Bei einem Laufwerk mit dem Leistungsstatus Severely Degraded liegt ein Leistungsproblem vor. Dieses Problem kann auf einen Vorfall oder Fehler zurückzuführen sein und ist möglicherweise bereits im PSH-Dashboard oder im Google Cloud Service Health-Dashboard zu sehen.

Was muss ich tun?

Wenn der Leistungsstatus Ihres Laufwerks Severely Degraded ist, gehen Sie so vor:

  1. Prüfen Sie im PSH-Dashboard und im allgemeinen Google Cloud-Dashboard für den Zustand, ob es einen Vorfall gibt, der sich auf das Laufwerk auswirkt. Wenden Sie sich bei einem Notfall nicht an den Support, da Google bereits über das Problem informiert ist und daran arbeitet, es zu beheben.
  2. Wenn in beiden Dashboards keine bekannten Probleme vorliegen, wenden Sie sich bitte an den Support.

Entscheidungsbaum

Das folgende Diagramm veranschaulicht, wie Sie vorgehen, wenn ein Laufwerk ein Leistungsproblem aufweist, und fasst die Informationen aus den vorherigen Abschnitten zusammen.

Flussdiagramm, das die Schritte zur Interpretation des Messwerts für den Laufwerkstatus beschreibt

Wie im Flussdiagramm dargestellt, sollten Sie sich nur an den Support wenden, wenn in den PSH- und Cloud-Dienst-Dashboards keine bekannten Benachrichtigungen vorhanden sind und der Laufwerkstatus Severely Degraded ist. Wenn das Laufwerk Degraded ist, wenden Sie sich nur an den Support, wenn alle der folgenden Bedingungen erfüllt sind:

  • Der Datenträger ist seit mehr als 5 Minuten Degraded
  • Sie haben einen Arbeitslastfehler oder eine Fehlkonfiguration ausgeschlossen (z. B. Netzwerkprobleme).
  • Es können keine weiteren Optimierungen auf Anwendungs-, Arbeitslast- oder Laufwerkebene durchgeführt werden.
  • Sie haben alle Messwerte des Laufwerks überprüft.
  • Sie haben die Logs Ihrer Arbeitslast und Ihrer virtuellen Maschine (VM) geprüft.

Nächste Schritte