Sie können den Zustand eines Persistent Disk- oder Google Cloud-Hyperdisk-Volumes anhand des Messwerts Laufwerksleistungsstatus prüfen. Dieser Messwert gibt an, ob die Leistung des Laufwerks möglicherweise durch negative Ereignisse in der Compute Engine beeinträchtigt wird.
Ein Problem, das sich auf den Status der Laufwerksleistung auswirkt, wird möglicherweise auch im Dashboard Personal Service Health (PSH) oder im Dashboard Google Cloud Service Health Ihres Projekts angezeigt.
In diesem Dokument wird der Status der Laufwerkleistung beschrieben und wie Sie ihn zur Behebung von Leistungsproblemen verwenden können.
Wann sollten Sie die Integrität eines Laufwerks prüfen?
Wenn Sie ein Leistungsproblem mit einem Laufwerk bemerken, prüfen Sie den Zustand des Laufwerks anhand des Messwerts für den Laufwerksleistungsstatus. Der Messwert für den Laufwerkstatus wird jede Minute aktualisiert und entspricht der Laufwerkleistung der letzten Minute. Eine Anleitung zum Prüfen des Zustands des Laufwerks finden Sie unter Laufwerkleistungsstatus ansehen.
In der folgenden Tabelle sind die möglichen Werte des Laufwerkleistungsstatus zusammengefasst.
Status | Bedeutung |
---|---|
Healthy |
Die Laufwerksleistung entspricht den Erwartungen. |
Degraded |
Die E/A-Latenz kann vorübergehend höher als erwartet sein. |
Severely degraded |
Hohe I/O-Latenz oder andere Fehler treten auf. |
Wenn der Leistungsstatus nicht Healthy
lautet, finden Sie unter Status der einzelnen Status Informationen zu den nächsten Schritten.
Wenn der Leistungsstatus Healthy
ist, funktioniert das Laufwerk normal und Sie müssen nach anderen Ursachen für das Leistungsproblem suchen.
Prüfen Sie, ob Anwendungs- oder Betriebssystemfehler vorliegen, und achten Sie darauf, dass Ihr Laufwerk richtig optimiert ist. Informationen zu Optimierungsrichtlinien finden Sie unter Hyperdisk optimieren und Persistent Disk optimieren.
Zusammenhang zwischen Laufwerkzustand und anderen Laufwerksleistungsmesswerten
Der Zustand des Laufwerks, der durch den Messwert „Leistungsstatus“ angegeben wird, ist der interne Status des Laufwerks aus Sicht von Google. Wenn der Status eines Laufwerks Degraded
oder Severely Degraded
ist, liegt die Ursache immer in der Compute Engine-Infrastruktur.
Sie können den Zustand eines Laufwerks in der Regel nicht durch Ändern der Arbeitslast ändern. In seltenen Fällen kann eine Änderung der Arbeitslast jedoch ein internes Problem auslösen. In diesem Fall kann es möglich sein, das Problem durch Ändern der Arbeitslast zu beheben.
Weitere Informationen zu den anderen verfügbaren Leistungsmesswerten für Laufwerke finden Sie unter Leistungsmesswerte für Laufwerke prüfen.
Szenarien, die sich nicht auf den Status der Laufwerksleistung auswirken
Der Status der Laufwerksleistung hat keinen Einfluss auf Leistungsprobleme, die durch die folgenden Faktoren verursacht werden:
- Unvollständige oder unzureichende Laufwerkoptimierung
- Leistungslimit, das mit dem Laufwerk und dem Maschinentyp verknüpft ist (wenn der ausgewählte Maschinentyp die Leistungsanforderungen Ihrer Arbeitslast nicht erfüllen kann)
- Erhöhte Auslastung des Laufwerks durch Arbeitslast-Traffic
- Nutzer-, Anwendungs- oder Betriebssystemfehler
- Volle oder beschädigte Laufwerke
- Für Hyperdisk- und Extreme Persistent Disk-Volumes: Nicht ausreichend bereitgestellte IOPS oder Durchsatz
In diesen Fällen liegt es in Ihrer Verantwortung, die Leistung zu verbessern, z. B. durch Optimieren des Laufwerks, Skalieren der Arbeitslast, Ändern des Maschinentyps und Bereitstellen von mehr Kapazität, IOPS oder Durchsatz.
Zustand eines Laufwerks in Cloud Monitoring ansehen
Wenn Sie den Zustand eines Laufwerks prüfen möchten, erstellen Sie ein Diagramm im Metrics Explorer.
Erforderliche Rollen und Berechtigungen
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für das Projekt zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Prüfen des Messwerts für den Laufwerkstatus benötigen:
-
Monitoring Viewer (
roles/monitoring.viewer
) -
So speichern Sie ein Diagramm in einem Dashboard:
Monitoring Editor (
roles/monitoring.editor
)
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Diagramm im Metrics Explorer erstellen
Um ein Diagramm zu erstellen, erstellen Sie eine Abfrage entweder über die menügesteuerte Benutzeroberfläche, Monitoring Query Language (MQL) oder PromQL.
Menügesteuerte Benutzeroberfläche
So rufen Sie die Integrität eines oder mehrerer Laufwerke in einem Diagramm auf:
-
Rufen Sie in der Google Cloud Console die Seite leaderboard Metrics Explorer auf.
Wenn Sie diese Seite über die Suchleiste suchen, wählen Sie das Ergebnis aus, dessen Zwischenüberschrift Monitoring ist.
- Maximieren Sie im Element Messwert das Menü Messwert auswählen, geben Sie
VM Instance
in die Filterleiste ein und wählen Sie dann über die Untermenüs einen bestimmten Ressourcentyp und Messwert aus:- Wählen Sie im Menü Aktive Ressourcen die Option VM-Instanz aus.
- Wählen Sie im Menü Aktive Messwertkategorien die Option Instanz aus.
- Wählen Sie im Menü Aktive Messwerte die Option Laufwerksleistungsstatus aus.
- Klicken Sie auf Anwenden.
compute.googleapis.com/instance/disk/performance_status
. - Konfigurieren Sie, wie die Daten angezeigt werden.
Deaktivieren Sie die Aggregation. Achten Sie darauf, dass im Element Aggregation das erste Menü auf Nicht aggregiert und das zweite Menü auf Keine gesetzt ist.
Wenn Sie den Zustand eines bestimmten Laufwerks aufrufen möchten, filtern Sie nachdevice_name
.
Weitere Informationen zum Konfigurieren eines Diagramms finden Sie unter Messwerte bei Verwendung von Metrics Explorer auswählen.
MQL
Öffnen Sie den Abfrageeditor. Folgen Sie dazu der Anleitung unter MQL-Abfragen schreiben.
Geben Sie Ihre Abfrage in den Abfrageeditor ein. Wenn Sie beispielsweise den Leistungsstatus eines bestimmten Laufwerks aufrufen möchten, geben Sie die folgende Abfrage ein:
fetch gce_instance | metric 'compute.googleapis.com/instance/disk/performance_status' | filter metric.device_name == 'DISK_NAME' | group_by 1m, [value_performance_status_fraction_true: fraction_true(value.performance_status)] | every 1m
Ersetzen Sie
DISK_NAME
durch den Laufwerksnamen, z. B.disk-1
.
PromQL
Öffnen Sie den Abfrageeditor. Folgen Sie dazu der Anleitung unter PromQL-Abfragen schreiben.
Geben Sie Ihre Abfrage in den Abfrageeditor ein. Wenn Sie beispielsweise den Leistungsstatus eines bestimmten Laufwerks aufrufen möchten, geben Sie die folgende Abfrage ein:
last_over_time (compute_googleapis_com:instance_disk_performance_status {monitored_resource="gce_instance", project_id ="PROJECT_ID", device_name="DISK_NAME"}[${__interval}])
Ersetzen Sie DISK_NAME
durch den Laufwerksnamen, z. B. disk-1
.
Wenn Sie die Ergebnisse in einem Diagramm ansehen, sind für jeden Datenträger drei Linien zu sehen, eine für jeden möglichen Status. Wenn Sie sich das Abfrageergebnis in einer Tabelle ansehen, enthält die Tabelle ebenfalls drei Zeilen für jeden Datenträger.
Wenn Sie die Abfrage mit PromQL oder MQL erstellt haben, hat jede Zeile den Wert 1
oder 0
. Bei Abfragen, die mit den Menüs erstellt wurden, sind die Werte für 100%
oder 0
.
Der aktuelle Zustand des Laufwerks wird durch die Zeile mit dem Wert 100%
oder 1
dargestellt.
Der folgende Screenshot zeigt beispielsweise das Diagramm für ein Laufwerk mit dem Namen a-test-VM
und dem Status Healthy
:
Wenn Sie die Abfrageergebnisse als Tabelle aufrufen, sehen Sie in der folgenden Tabelle ein Beispiel für die Ergebnisse für einen Datenträger mit Healthy
:
performance_status | Wert |
---|---|
Healthy |
1 |
Degraded |
0 |
Severely Degraded |
0 |
Der folgende Screenshot zeigt das Diagramm für ein Laufwerk namens replica-23509
mit dem Status Eingeschränkt:
Informationen zur Bedeutung der einzelnen Leistungsstatus finden Sie hier. Nachdem Sie das Diagramm erstellt haben, können Sie es für die spätere Verwendung in einem Dashboard speichern.
Teilergebnisse
Wenn Ihre Abfrage Bruchteile enthält, wie in der folgenden Tabelle, ist das in der Regel darauf zurückzuführen, dass der ausgewählte Zeitraum lang war. Daher wurden die Daten in Cloud Monitoring im Laufe der Zeit aggregiert.
Ein Wert von 77%
für den Status Healthy
bedeutet, dass der Status des Laufwerks Healthy
77% des ausgewählten Anzeigezeitraums war.
performance_status | Wert |
---|---|
Healthy |
77% |
Degraded |
23% |
Severely Degraded |
0 |
Wenn Sie sich ein detaillierteres Bild des Zustands eines Laufwerks machen möchten, verwenden Sie einen Anzeigezeitraum von einigen Stunden oder Minuten.
Bedeutung der einzelnen Status
In diesem Abschnitt erfahren Sie, was die einzelnen Status bedeuten und wann Sie möglicherweise weitere Maßnahmen ergreifen müssen.
Healthy
Der Healthy
-Status gibt an, dass das Laufwerk aus Sicht von Google normal funktioniert.
Wenn bei einem Healthy
-Laufwerk Leistungsprobleme auftreten, wenden Sie sich nicht an den Support. Versuchen Sie stattdessen, das Problem mithilfe der folgenden Vorschläge zu beheben:
- Prüfen Sie die Leistungsmesswerte für Laufwerke, z. B. Latenz und Warteschlangentiefe.
- Prüfen Sie die Logs und Messwerte Ihrer Arbeitslast auf Anomalien und Engpässe.
- Wenn Sie einen nichtflüchtigen Speicher verwenden, achten Sie darauf, dass die bereitgestellte Kapazität die Leistungsanforderungen des Laufwerks erfüllt. Wenn Sie Hyperdisk- oder Extreme Persistent Disk-Volumes verwenden, prüfen Sie, ob Sie genügend IOPS und Durchsatz bereitgestellt haben.
- Prüfen Sie, ob Sie die Richtlinien zur Laufwerkoptimierung befolgt haben. Weitere Informationen finden Sie unter Hyperdisk optimieren und Persistent Disk optimieren.
Degraded
Wenn der Status Ihres Laufwerks Degraded
ist, müssen Sie sich in der Regel nicht an den Support wenden. Ein Degraded status
wird in der Regel durch die normale interne Wartung der Compute Engine-Infrastruktur verursacht.
Wenn der Status Degraded
ist, ist das möglicherweise nicht der Fall. Auch wenn das Leistungsproblem zeitlich mit dem Degraded
-Status übereinstimmt, hat es möglicherweise nichts damit zu tun.Degraded
Falls ein Leistungsproblem auf den Status Degraded
zurückzuführen ist, ist die Auswirkung in der Regel vorübergehend. Der Status des Laufwerks sollte innerhalb weniger Minuten zu Healthy
zurückkehren.
Sie können den Status Degraded
ignorieren, wenn keine Leistungsprobleme mit dem Laufwerk auftreten.
Vorgehen bei Leistungsproblemen
Wenn der Leistungsstatus Ihres Laufwerks Degraded
ist und Sie Leistungsprobleme feststellen, gehen Sie so vor:
- Sehen Sie im PSH-Dashboard nach, ob ein Vorfall vorliegt, der sich auf das Laufwerk auswirkt. Wenden Sie sich bei einem Vorfall nicht an den Support. Google ist bereits informiert und arbeitet an der Lösung des Problems.
- Wenn keine bekannten Probleme vorliegen, warten Sie mindestens fünf Minuten, bis sich das Leistungsproblem von selbst behoben hat.
Wenn das Leistungsproblem nach 5 Minuten nicht behoben ist und der Status weiterhin
Degraded
lautet, prüfen Sie, ob das Problem auf eine unzureichende Optimierung des Laufwerks zurückzuführen ist. Prüfen Sie beispielsweise die Latenz und die Warteschlangentiefe des Laufwerks. Es ist möglich, dass das Leistungsproblem und derDegraded
-Status nicht zusammenhängen und nur zufällig auftreten. Sehen Sie sich dazu die Messwerte des Laufwerks und die Richtlinien zur Leistungsoptimierung an.Wenn die Leistungsprobleme weiterhin auftreten und alle folgenden Bedingungen erfüllt sind, kannst du dich an den Support wenden:
- Der Status des Laufwerks ist seit mehr als 5 Minuten
Degraded
. - Sie sind ziemlich sicher, dass es sich nicht um ein Arbeitslastproblem handelt, da Sie den Datenträger optimiert und geprüft haben, ob es keine anderen Probleme wie ein Engpass oder eine überlastete Anwendung gibt.
- Im PSH-Dashboard sind keine Benachrichtigungen zu sehen.
- Der Status des Laufwerks ist seit mehr als 5 Minuten
Google empfiehlt nicht, direkt eine Benachrichtigung für den Degraded
-Status zu erstellen, sondern Benachrichtigungen für den Anwendungsstatus auf höherer Ebene zu verwenden und diesen Messwert zur Fehlerbehebung zu nutzen.
Severely Degraded
Bei einem Laufwerk mit dem Leistungsstatus Severely Degraded
liegt ein Leistungsproblem vor. Dieses Problem kann auf einen Vorfall oder Fehler zurückzuführen sein und ist möglicherweise bereits im PSH-Dashboard oder im Google Cloud Service Health-Dashboard zu sehen.
Was muss ich tun?
Wenn der Leistungsstatus Ihres Laufwerks Severely Degraded
ist, gehen Sie so vor:
- Prüfen Sie im PSH-Dashboard und im allgemeinen Google Cloud-Dashboard für den Zustand, ob es einen Vorfall gibt, der sich auf das Laufwerk auswirkt. Wenden Sie sich bei einem Notfall nicht an den Support, da Google bereits über das Problem informiert ist und daran arbeitet, es zu beheben.
- Wenn in beiden Dashboards keine bekannten Probleme vorliegen, wenden Sie sich bitte an den Support.
Entscheidungsbaum
Das folgende Diagramm veranschaulicht, wie Sie vorgehen, wenn ein Laufwerk ein Leistungsproblem aufweist, und fasst die Informationen aus den vorherigen Abschnitten zusammen.
Wie im Flussdiagramm dargestellt, sollten Sie sich nur an den Support wenden, wenn in den PSH- und Cloud-Dienst-Dashboards keine bekannten Benachrichtigungen vorhanden sind und der Laufwerkstatus Severely Degraded
ist. Wenn das Laufwerk Degraded
ist, wenden Sie sich nur an den Support, wenn alle der folgenden Bedingungen erfüllt sind:
- Der Datenträger ist seit mehr als 5 Minuten
Degraded
- Sie haben einen Arbeitslastfehler oder eine Fehlkonfiguration ausgeschlossen (z. B. Netzwerkprobleme).
- Es können keine weiteren Optimierungen auf Anwendungs-, Arbeitslast- oder Laufwerkebene durchgeführt werden.
- Sie haben alle Messwerte des Laufwerks überprüft.
- Sie haben die Logs Ihrer Arbeitslast und Ihrer virtuellen Maschine (VM) geprüft.
Nächste Schritte
- Weitere Informationen zum Erstellen von Diagrammen mit dem Metrics Explorer und zum Eingrenzen von Abfrageergebnissen durch Hinzufügen von Filtern zu einem Diagramm
- Im Dashboard „Personalized Service Health“ und im Google Service Health können Sie nach aktiven und vergangenen Ereignissen zur Dienstbereitschaft suchen.
- Informationen zur Leistungsoptimierung finden Sie unter Hyperdisk optimieren und Blockspeicher optimieren.