Auswirkungen von Fehlern in GDCV für Bare Metal verstehen

GDCV für Bare Metal wurde entwickelt, um den Fehlerumfang zu begrenzen und Funktionen zu priorisieren, die für die Geschäftskontinuität entscheidend sind. In diesem Dokument wird erläutert, wie sich ein Fehler auf die Funktionalität Ihrer Cluster auswirkt. Anhand dieser Informationen können Sie feststellen, in welchen Bereichen Sie Probleme beheben sollten.

Die Hauptfunktionalität von GDCV für Bare Metal umfasst die folgenden Kategorien:

Arbeitslasten ausführen: Vorhandene Arbeitslasten können weiterhin ausgeführt werden. Dies ist der wichtigste Aspekt, um die Geschäftskontinuität aufrechtzuerhalten. Selbst wenn bei Ihrem Cluster ein Problem auftritt, werden die vorhandenen Arbeitslasten unter Umständen ohne Unterbrechung weiter ausgeführt.
Arbeitslasten verwalten: Sie können Arbeitslasten erstellen, aktualisieren und löschen. Dies ist der zweitwichtigste Aspekt beim Skalieren von Arbeitslasten, wenn der Traffic zunimmt, auch wenn im Cluster ein Problem auftritt.
Nutzercluster verwalten: Sie können Knoten verwalten und Nutzercluster aktualisieren, aktualisieren und löschen. Das ist weniger wichtig als Überlegungen zum Anwendungslebenszyklus. Wenn auf den vorhandenen Knoten Kapazität verfügbar ist, wirkt sich dies nicht auf die Nutzerarbeitslasten aus, wenn keine Nutzercluster geändert werden können.
Administratorcluster verwalten: Sie können den Administratorcluster aktualisieren und upgraden.
- Bei Bereitstellungen, die separate Administrator- und Nutzercluster verwenden, ist dies die unbedeutendste Überlegung, da der Administratorcluster keine Nutzerarbeitslasten hostet. Wenn in Ihrem Administratorcluster ein Problem auftritt, werden Ihre Anwendungsarbeitslasten in anderen Clustern ohne Unterbrechung weiter ausgeführt.
- Wenn Sie andere Bereitstellungsmodelle verwenden, z. B. Hybrid- oder eigenständige Modelle, führt der Administratorcluster Anwendungsarbeitslasten aus. Wenn im Administratorcluster ein Problem auftritt und die Steuerungsebene ausfällt, können Sie auch keine Anwendungsarbeitslasten oder Nutzerclusterkomponenten verwalten.

In den folgenden Abschnitten werden diese Kategorien von Hauptfunktionen verwendet, um die Auswirkungen bestimmter Arten von Fehlerszenarien zu beschreiben. Wenn es zu einer Unterbrechung im Rahmen eines Fehlerszenarios kommt, wird nach Möglichkeit auch die Dauer (Reihenfolge) der Unterbrechung angegeben.

Knotenfehler

Ein Knoten in GDCV für Bare Metal funktioniert möglicherweise nicht mehr oder ist im Netzwerk nicht mehr erreichbar. Abhängig vom Knotenpool und Cluster, zu dem die ausgefallene Maschine gehört, gibt es mehrere verschiedene Fehlermodi.

Knoten der Steuerungsebene

In der folgenden Tabelle wird das Verhalten von Knoten beschrieben, die Teil der Steuerungsebene in GDCV für Bare Metal sind:

	Arbeitslasten ausführen	Arbeitslasten verwalten	Nutzercluster verwalten	Administratorcluster verwalten
Unterbrechung (Dauer)	Keine Unterbrechung	Mögliche Störung (unbekannt)	Mögliche Störung (unbekannt)	Mögliche Störung (unbekannt)
Erläuterung	—	Wenn der Knotenfehler den einzelnen Knoten der Steuerungsebene in einem nicht hochverfügbaren Nutzercluster oder nicht weniger als die Hälfte der Knoten der Steuerungsebene in einem Nutzercluster mit Hochverfügbarkeit betrifft, kommt es zu einer Störung. Das Quorum der Steuerungsebene des Nutzerclusters ist verloren.	Wenn der Knotenfehler den einzelnen Knoten der Steuerungsebene in einem Administratorcluster ohne Hochverfügbarkeit oder nicht weniger als die Hälfte der Knoten der Steuerungsebene in einem Administratorcluster mit Hochverfügbarkeit betrifft, kommt es zu einer Störung. Das Quorum der Steuerungsebene des Administratorclusters ist verloren.	Wenn der Knotenfehler den einzelnen Knoten der Steuerungsebene in einem Administratorcluster ohne Hochverfügbarkeit oder nicht weniger als die Hälfte der Knoten der Steuerungsebene in einem Administratorcluster mit Hochverfügbarkeit betrifft, kommt es zu einer Störung. Das Quorum der Steuerungsebene des Administratorclusters ist verloren.
Wiederherstellung	—	Weitere Informationen finden Sie unter Wiederherstellung nach einem Quorumverlust.	Weitere Informationen finden Sie unter Wiederherstellung nach einem Quorumverlust.	Weitere Informationen finden Sie unter Wiederherstellung nach einem Quorumverlust.
Prävention	—	Stellen Sie Nutzercluster im Hochverfügbarkeitsmodus bereit, um die Gefahr von Unterbrechungen zu minimieren.	Stellen Sie Administratorcluster im Hochverfügbarkeitsmodus bereit, um die Gefahr von Unterbrechungen zu minimieren.	Stellen Sie Administratorcluster im Hochverfügbarkeitsmodus bereit, um die Gefahr von Unterbrechungen zu minimieren.

Load-Balancer-Knoten

In der folgenden Tabelle wird das Verhalten von Knoten beschrieben, die die Load-Balancer in GDCV für Bare Metal hosten. Diese Anleitung gilt nur für gebündelte Load-Balancer mit Ebene-2-Modus. Sehen Sie sich für das manuelle Load-Balancing die Fehlermodi Ihrer externen Load-Balancer an:

	Arbeitslasten ausführen	Arbeitslasten verwalten	Nutzercluster verwalten	Administratorcluster verwalten
Unterbrechung (Dauer)	Mögliche Störung (variiert)	Mögliche Störung (variiert)	Mögliche Störung (variiert)	Mögliche Störung (variiert)
Erläuterung	Wenn externe Arbeitslasten über den Load-Balancer der Datenebene mit Arbeitslasten im Cluster kommunizieren und Sie nur einen Load-Balancer-Knoten haben, kommt es zu einer Störung.	Die virtuelle IP-Adresse der Steuerungsebene des Nutzerclusters befindet sich auf einem Load-Balancer-Knoten. Wenn der Load-Balancer-Knotenpool des Nutzerclusters nicht für Hochverfügbarkeit verfügbar ist, kommt es zu einer Störung.	Die virtuelle IP-Adresse der Steuerungsebene des Administratorclusters befindet sich auf einem Load-Balancer-Knoten. Wenn der Load-Balancer-Knotenpool des Administratorclusters nicht für Hochverfügbarkeit verfügbar ist, kommt es zu einer Störung.	Die virtuelle IP-Adresse der Steuerungsebene des Administratorclusters befindet sich auf einem Load-Balancer-Knoten. Wenn der Load-Balancer-Knotenpool des Administratorclusters nicht für Hochverfügbarkeit verfügbar ist, kommt es zu einer Störung.
Wiederherstellung	Wenn mehrere Load-Balancer-Knoten vorhanden sind, erfolgt der MetalLB-Failover innerhalb weniger Sekunden. Ist dies nicht der Fall, können Sie zusätzliche Load-Balancer-Knoten bereitstellen.	Bei Hochverfügbarkeit erfolgt der Failover automatisch und in Sekundenschnelle. Wenn keine Hochverfügbarkeit ist, sollten Sie zusätzliche Load-Balancer-Knoten bereitstellen.	Bei Hochverfügbarkeit erfolgt der Failover automatisch und in Sekundenschnelle. Ist dies nicht der Fall, können Sie zusätzliche Load-Balancer-Knoten bereitstellen.	Bei Hochverfügbarkeit erfolgt der Failover automatisch und in Sekundenschnelle. Ist dies nicht der Fall, können Sie zusätzliche Load-Balancer-Knoten bereitstellen.
Prävention	Stellen Sie Load-Balancer-Knotenpools im Hochverfügbarkeitsmodus bereit, um die Möglichkeit von Unterbrechungen zu minimieren.	Stellen Sie Load-Balancer-Knotenpools im Hochverfügbarkeitsmodus bereit, um die Möglichkeit von Unterbrechungen zu minimieren.	Stellen Sie Load-Balancer-Knotenpools im Hochverfügbarkeitsmodus bereit, um die Möglichkeit von Unterbrechungen zu minimieren.	Stellen Sie Load-Balancer-Knotenpools im Hochverfügbarkeitsmodus bereit, um die Möglichkeit von Unterbrechungen zu minimieren.

Worker-Knoten

In der folgenden Tabelle wird das Verhalten von Worker-Knoten in GDCV für Bare Metal dargestellt:

	Arbeitslasten ausführen	Arbeitslasten verwalten	Nutzercluster verwalten	Administratorcluster verwalten
Unterbrechung (Dauer)	Mögliche Unterbrechung (Reihenfolge von Sekunden)	Keine Unterbrechung	Keine Unterbrechung	Keine Unterbrechung
Erläuterung	Die `Pods`, die auf dem ausgefallenen Knoten ausgeführt werden, werden unterbrochen und mit einem Standardzeitlimit von 5 Minuten automatisch auf andere fehlerfreie Knoten neu geplant. Wenn Nutzeranwendungen freie Arbeitslastkapazität haben und auf mehrere Knoten verteilt sind, können Clients, die Wiederholungsversuche implementieren, die Unterbrechung nicht beobachten. Die `Pods` werden auf fehlerfreien Knoten automatisch neu gestartet. Wenn der Cluster keine freien Kapazitäten hat, kann die Unterbrechung so lange andauern, bis dem Cluster neue Knoten hinzugefügt werden.	—	—	—
Wiederherstellung	Wenn der Cluster keine freien Kapazitäten hat, müssen Sie mehr Knoten bereitstellen, die auf mehrere Ausfallzonen verteilt sind, und fehlgeschlagene Arbeitslasten auf die neuen Knoten verschieben.	—	—	—
Prävention	Stellen Sie Knoten bereit, die über mehrere Fehlerzonen verteilt sind. Stellen Sie Arbeitslasten mit mehreren Replikaten bereit, die auf mehrere Ausfallzonen verteilt sind, um die Gefahr von Unterbrechungen zu minimieren.	—	—	—

Speicherfehler

Der Speicher in GDCV für Bare Metal funktioniert möglicherweise nicht mehr oder ist im Netzwerk nicht mehr erreichbar. Abhängig vom Speicher, der ausfällt, gibt es verschiedene Fehlermodi.

etcd

Der Inhalt der Verzeichnisse /var/lib/etcd und /var/lib/etcd-events kann beschädigt werden, wenn der Knoten nicht ordnungsgemäß heruntergefahren wird oder der Speicherfehler zugrunde liegt. In der folgenden Tabelle wird das Verhalten der Hauptfunktion nach etcd-Fehlern beschrieben:

	Arbeitslasten ausführen	Arbeitslasten verwalten	Nutzercluster verwalten	Administratorcluster verwalten
Unterbrechung (Dauer)	Keine Unterbrechung	Mögliche Störung (unbekannt)	Mögliche Störung (unbekannt)	Mögliche Störung (unbekannt)
Erläuterung	Wenn die vorhandenen Arbeitslasten nicht auf der Kubernetes-Steuerungsebene basieren, funktionieren sie weiterhin ohne Unterbrechung.	Wenn `etcd` in einem einzelnen Nutzercluster der Steuerungsebene oder auf mindestens der Hälfte der Knoten der Steuerungsebene in einem Nutzercluster mit Hochverfügbarkeit fehlschlägt, kommt es zu einer Störung. Das Quorum der Steuerungsebene des Nutzerclusters ist verloren.	Wenn `etcd` in einem einzelnen Administratorcluster der Steuerungsebene oder auf mindestens der Hälfte der Knoten der Steuerungsebene in einem Hochverfügbarkeits-Administratorcluster fehlschlägt, kommt es zu einer Störung. Das Quorum der Steuerungsebene des Administratorclusters ist verloren.	Wenn `etcd` in einem einzelnen Administratorcluster der Steuerungsebene oder auf mindestens der Hälfte der Knoten der Steuerungsebene in einem Hochverfügbarkeits-Administratorcluster fehlschlägt, kommt es zu einer Störung. Das Quorum der Steuerungsebene des Administratorclusters ist verloren.
Wiederherstellung	—	Weitere Informationen finden Sie unter Wiederherstellung nach einem Quorumverlust.	Weitere Informationen finden Sie unter Wiederherstellung nach einem Quorumverlust.	Weitere Informationen finden Sie unter Wiederherstellung nach einem Quorumverlust.
Prävention	—	Stellen Sie Nutzercluster im Hochverfügbarkeitsmodus bereit, um die Möglichkeit von Störungen zu minimieren.	Stellen Sie Administratorcluster im Hochverfügbarkeitsmodus bereit, um die Wahrscheinlichkeit von Unterbrechungen zu minimieren.	Stellen Sie Administratorcluster im Hochverfügbarkeitsmodus bereit, um die Wahrscheinlichkeit von Unterbrechungen zu minimieren.

Nutzeranwendung `PersistentVolume`

In der folgenden Tabelle wird das Verhalten der Hauptfunktion nach dem Fehler eines PersistentVolume beschrieben:

	Arbeitslasten ausführen	Arbeitslasten verwalten	Nutzercluster verwalten	Administratorcluster verwalten
Unterbrechung (Dauer)	Mögliche Störung (unbekannt)	Keine Unterbrechung	Keine Unterbrechung	Keine Unterbrechung
Erläuterung	Die Arbeitslasten, die den fehlgeschlagenen `PersistentVolume are affected.` verwenden	—	—	—
Wiederherstellung	—	—	—	—
Prävention	Stellen Sie die Nutzerarbeitslast im Hochverfügbarkeitsmodus bereit, um die Möglichkeit einer Unterbrechung zu minimieren.	—	—	—

Fluent Bit hat das Laufwerk beschädigt.

Eine Beschädigung eines Fluent-Bit-Laufwerks wirkt sich zwar nicht auf die Kernfunktionen, aber auf die Möglichkeit zum Erfassen und Prüfen von Logs in Google Cloud aus.

Das SIGSEGV-Ereignis kann manchmal in Logs von stackdriver-log-forwarder beobachtet werden. Dieser Fehler kann durch beschädigte gepufferte Logs auf dem Laufwerk verursacht werden.

Fluent Bit hat einen Mechanismus, um die zerbrochenen Blöcke herauszufiltern und zu verwerfen. Diese Funktion ist in der Fluent-Bit-Version (Version 1.8.3) verfügbar, die in GDCV für Bare Metal verwendet wird.

Von `LoadBalancer` IP-Adresse

Wenn alle IP-Adressen in den zugewiesenen Pools derzeit belegt sind, können neu erstellte LoadBalancer-Dienste keine LoadBalancer-IP-Adresse übernehmen. Dieses Szenario wirkt sich auf die Fähigkeit der Clients des Dienstes aus, mit den LoadBalancer-Diensten zu kommunizieren.

Zur Wiederherstellung von dieser Ausschöpfung der IP-Adresse weisen Sie dem Adresspool weitere IP-Adressen zu. Ändern Sie dazu die benutzerdefinierte Clusterressource.

Ablauf des Zertifikats

GKE on Bare Metal generiert während der Clusterinstallation eine selbstsignierte Zertifizierungsstelle. Die Zertifizierungsstelle läuft nach zehn Jahren ab und ist für die Erstellung von Zertifikaten verantwortlich, die nach einem Jahr ablaufen. Rotieren Sie Zertifikate regelmäßig, um Ausfallzeiten des Clusters zu vermeiden. Sie können Zertifikate rotieren, indem Sie den Cluster aktualisieren. Dies ist die empfohlene Methode. Wenn Sie Ihren Cluster nicht aktualisieren können, können Sie eine On-Demand-CA-Rotation ausführen. Weitere Informationen zu Clusterzertifikaten finden Sie unter PKI-Zertifikate und -Anforderungen in der Kubernetes-Dokumentation.

Wenn die Clusterzertifikate abgelaufen sind, müssen sie manuell verlängert werden.

	Arbeitslasten ausführen	Arbeitslasten verwalten	Nutzercluster verwalten	Administratorcluster verwalten
Unterbrechung (Dauer)	Keine Störungen	Mögliche Störung (unbekannt)	Mögliche Störung (unbekannt)	Mögliche Störung (unbekannt)
Erläuterung	Wenn die Nutzerarbeitslasten nicht mit den Komponenten der Kubernetes-Steuerungsebene kommunizieren, kommt es nicht zu Unterbrechungen.	Wenn die Zertifizierungsstellen für Nutzercluster ablaufen, kommt es zu einer Störung.	Wenn die Zertifizierungsstellen für Administratorcluster ablaufen, kommt es zu einer Störung.	Wenn die Zertifizierungsstellen für Nutzercluster ablaufen, kommt es zu einer Störung.
Wiederherstellung	—	Führen Sie die Schritte zum manuellen Verlängern von Zertifikaten für den Nutzercluster aus.	Führen Sie die Schritte zum manuellen Verlängern von Zertifikaten für den Nutzercluster aus.	Führen Sie die Schritte zum manuellen Verlängern von Zertifikaten für den Nutzercluster aus.
Prävention	Einrichtung überwacht den Ablauf des Zertifikats. Den Beispielmesswert `kubelet_certificate_manager_server_expiration_seconds` finden Sie in der Liste der Messwerte.

Upgradefehler

	Arbeitslasten ausführen	Arbeitslasten verwalten	Nutzercluster verwalten	Administratorcluster verwalten
Unterbrechung (Dauer)	Keine Störungen	Keine Störungen	Mögliche Störung (unbekannt)	Mögliche Störung (unbekannt)
Erläuterung	Wenn das Upgrade auf der Steuerungsebene des Nutzerclusters fehlschlägt, kommt es zu keiner Unterbrechung bestehender Arbeitslasten. Wenn das Upgrade auf einem bestimmten Worker-Knoten fehlschlägt, werden die Arbeitslasten auf diesem Knoten per Drain beendet und auf andere fehlerfreie Knoten verschoben, wenn auf den fehlerfreien Knoten zusätzliche Kapazitäten vorhanden sind.	Das Upgrade wird beendet, wenn ein Knoten der Steuerungsebene nicht aktualisiert werden kann. Der Cluster funktioniert weiterhin, wenn das Upgrade fehlschlägt und der Nutzercluster Hochverfügbarkeit hat.	Wenn das Upgrade auf der Steuerungsebene des Administratorclusters fehlschlägt, kommt es zu Unterbrechungen, bis das Upgrade abgeschlossen ist.	Wenn das Upgrade auf der Steuerungsebene des Administratorclusters fehlschlägt, kommt es zu Unterbrechungen, bis das Upgrade abgeschlossen ist.
Wiederherstellung	—	—	Das Upgrade kann wiederholt werden. Weitere Informationen finden Sie unter Upgradeprobleme diagnostizieren und fortsetzen.	Das Upgrade kann wiederholt werden. Weitere Informationen finden Sie unter Upgradeprobleme diagnostizieren und fortsetzen.
Prävention	—	—	Weitere Informationen finden Sie unter Vor dem Upgrade eine Sicherung erstellen.	Weitere Informationen finden Sie unter Vor dem Upgrade eine Sicherung erstellen.

Nächste Schritte

Weitere Informationen zu bekannten Produktproblemen und Problemumgehungen finden Sie unter Bekannte Probleme mit GDCV für Bare Metal.