Auswirkungen von Fehlern in GKE auf Bare Metal verstehen

GKE on Bare Metal wurde entwickelt, um den Umfang von Ausfällen zu begrenzen und Funktionen zu priorisieren, die für die Geschäftskontinuität wichtig sind. In diesem Dokument wird erläutert, wie sich ein Fehler auf die Funktionalität Ihrer Cluster auswirkt. Diese Informationen können Ihnen helfen, bei Problemen die Bereiche zu priorisieren, die Sie beheben sollten.

Die Hauptfunktion von GKE on Bare Metal umfasst die folgenden Kategorien:

  • Arbeitslasten ausführen: Vorhandene Arbeitslasten können weiterhin ausgeführt werden. Dies ist der wichtigste Aspekt, wenn es darum geht, die Geschäftskontinuität aufrechtzuerhalten. Selbst wenn in Ihrem Cluster ein Problem auftritt, werden die vorhandenen Arbeitslasten unter Umständen weiterhin ohne Unterbrechung ausgeführt.
  • Arbeitslasten verwalten: Sie können Arbeitslasten erstellen, aktualisieren und löschen. Dies ist der zweitwichtigste Aspekt beim Skalieren von Arbeitslasten, wenn der Traffic zunimmt, auch wenn im Cluster ein Problem vorliegt.
  • Nutzercluster verwalten: Sie können Knoten verwalten sowie Nutzercluster aktualisieren, aktualisieren und löschen. Das ist weniger wichtig als der Anwendungslebenszyklus. Wenn auf den vorhandenen Knoten Kapazität verfügbar ist, wirkt sich dies nicht auf die Nutzerarbeitslasten aus, wenn Nutzercluster nicht geändert werden können.
  • Administratorcluster verwalten: Sie können den Administratorcluster aktualisieren und upgraden.
    • Bei Bereitstellungen, die separate Administrator- und Nutzercluster verwenden, ist dies die am wenigsten wichtige Überlegung, da der Administratorcluster keine Nutzerarbeitslasten hostet. Wenn in Ihrem Administratorcluster ein Problem auftritt, werden Ihre Anwendungsarbeitslasten auf anderen Clustern ohne Unterbrechung weiter ausgeführt.
    • Wenn Sie andere Bereitstellungsmodelle verwenden, z. B. Hybrid- oder eigenständige Bereitstellungsmodelle, führt der Administratorcluster Anwendungsarbeitslasten aus. Wenn im Administratorcluster ein Problem auftritt und die Steuerungsebene ausfällt, können Sie auch keine Anwendungsarbeitslasten oder Komponenten von Nutzerclustern verwalten.

In den folgenden Abschnitten werden diese Kategorien von Hauptfunktionen verwendet, um die Auswirkungen bestimmter Arten von Fehlerszenarien zu beschreiben. Wenn eine Störung als Teil eines Fehlerszenarios auftritt, wird nach Möglichkeit auch die Dauer (Reihenfolge) der Unterbrechung angegeben.

Knotenfehler

Ein Knoten in GKE on Bare Metal funktioniert möglicherweise nicht mehr oder ist im Netzwerk nicht mehr erreichbar. Je nach Knotenpool und Cluster, zu dem die ausgefallene Maschine gehört, gibt es mehrere verschiedene Fehlermodi.

Knoten der Steuerungsebene

In der folgenden Tabelle wird das Verhalten von Knoten beschrieben, die Teil der Steuerungsebene in GKE on Bare Metal sind:

Arbeitslasten ausführen Arbeitslasten verwalten Nutzercluster verwalten Administratorcluster verwalten
Störungen (Dauer) Keine Unterbrechung Mögliche Störung (unbekannt) Mögliche Störung (unbekannt) Mögliche Störung (unbekannt)
Erläuterung Wenn der Knotenfehler den einzelnen Knoten der Steuerungsebene in einem nicht hochverfügbaren Nutzercluster oder nicht weniger als die Hälfte der Knoten der Steuerungsebene in einem Nutzercluster mit Hochverfügbarkeit betrifft, kommt es zu einer Unterbrechung. Das Quorum der Steuerungsebene des Nutzerclusters ist verloren. Wenn der Knotenfehler den einzelnen Knoten der Steuerungsebene in einem Administratorcluster ohne Hochverfügbarkeit oder nicht weniger als die Hälfte der Knoten der Steuerungsebene in einem Administratorcluster mit Hochverfügbarkeit betrifft, kommt es zu einer Störung. Das Quorum der Steuerungsebene des Administratorclusters ist verloren. Wenn der Knotenfehler den einzelnen Knoten der Steuerungsebene in einem Administratorcluster ohne Hochverfügbarkeit oder nicht weniger als die Hälfte der Knoten der Steuerungsebene in einem Administratorcluster mit Hochverfügbarkeit betrifft, kommt es zu einer Störung. Das Quorum der Steuerungsebene des Administratorclusters ist verloren.
Wiederherstellung Weitere Informationen finden Sie unter Wiederaufnahme nach einem Quorumverlust. Weitere Informationen finden Sie unter Wiederaufnahme nach einem Quorumverlust. Weitere Informationen finden Sie unter Wiederaufnahme nach einem Quorumverlust.
Prävention Stellen Sie Nutzercluster im Hochverfügbarkeitsmodus bereit, um die Gefahr einer Unterbrechung zu minimieren. Stellen Sie Administratorcluster im Hochverfügbarkeitsmodus bereit, um die Gefahr von Unterbrechungen zu minimieren. Stellen Sie Administratorcluster im Hochverfügbarkeitsmodus bereit, um die Gefahr von Unterbrechungen zu minimieren.

Load-Balancer-Knoten

In der folgenden Tabelle wird das Verhalten von Knoten beschrieben, die die Load-Balancer in GKE on Bare Metal hosten. Diese Anleitung gilt nur für gebündelte Load-Balancer mit Ebene-2-Modus. Prüfen Sie für das manuelle Load-Balancing die Fehlermodi Ihrer externen Load-Balancer:

Arbeitslasten ausführen Arbeitslasten verwalten Nutzercluster verwalten Administratorcluster verwalten
Störungen (Dauer) Mögliche Störung (variiert) Mögliche Störung (variiert) Mögliche Störung (variiert) Mögliche Störung (variiert)
Erläuterung Wenn externe Arbeitslasten über den Load-Balancer der Datenebene mit Arbeitslasten im Cluster kommunizieren und Sie nur einen Load-Balancer-Knoten haben, kommt es zu einer Unterbrechung. Die virtuelle IP-Adresse der Steuerungsebene des Nutzerclusters befindet sich auf einem Load-Balancer-Knoten. Wenn der Load-Balancer-Knotenpool des Nutzerclusters keine Hochverfügbarkeit hat, kommt es zu einer Störung. Die virtuelle IP-Adresse der Steuerungsebene des Administratorclusters befindet sich auf einem Load-Balancer-Knoten. Wenn der Load-Balancer-Knotenpool des Administratorclusters nicht Hochverfügbarkeit hat, kommt es zu einer Störung. Die virtuelle IP-Adresse der Steuerungsebene des Administratorclusters befindet sich auf einem Load-Balancer-Knoten. Wenn der Load-Balancer-Knotenpool des Administratorclusters nicht Hochverfügbarkeit hat, kommt es zu einer Störung.
Wiederherstellung

Wenn mehrere Load-Balancer-Knoten vorhanden sind, erfolgt das MetalLB-Failover innerhalb weniger Sekunden.

Wenn keine Hochverfügbarkeit ist, sollten Sie zusätzliche Load-Balancer-Knoten bereitstellen.

Bei Hochverfügbarkeit erfolgt der Failover automatisch und liegt im Bereich von Sekunden.

Wenn keine Hochverfügbarkeit ist, sollten Sie zusätzliche Load-Balancer-Knoten bereitstellen.

Bei Hochverfügbarkeit erfolgt der Failover automatisch und liegt im Bereich von Sekunden.

Wenn keine Hochverfügbarkeit ist, sollten Sie zusätzliche Load-Balancer-Knoten bereitstellen.

Bei Hochverfügbarkeit erfolgt der Failover automatisch und liegt im Bereich von Sekunden.

Wenn keine Hochverfügbarkeit ist, sollten Sie zusätzliche Load-Balancer-Knoten bereitstellen.

Prävention Stellen Sie Load-Balancer-Knotenpools im Hochverfügbarkeitsmodus bereit, um die Gefahr von Unterbrechungen zu minimieren. Stellen Sie Load-Balancer-Knotenpools im Hochverfügbarkeitsmodus bereit, um die Gefahr von Unterbrechungen zu minimieren. Stellen Sie Load-Balancer-Knotenpools im Hochverfügbarkeitsmodus bereit, um die Gefahr von Unterbrechungen zu minimieren. Stellen Sie Load-Balancer-Knotenpools im Hochverfügbarkeitsmodus bereit, um die Gefahr von Unterbrechungen zu minimieren.

Worker-Knoten

In der folgenden Tabelle wird das Verhalten von Worker-Knoten in GKE on Bare Metal dargestellt:

Arbeitslasten ausführen Arbeitslasten verwalten Nutzercluster verwalten Administratorcluster verwalten
Störungen (Dauer) Mögliche Störung (Reihenfolge von Sekunden) Keine Unterbrechung Keine Unterbrechung Keine Unterbrechung
Erläuterung

Die Pods, die auf dem ausgefallenen Knoten ausgeführt werden, werden unterbrochen und automatisch auf andere fehlerfreie Knoten verschoben, mit einem Standardzeitlimit von 5 Minuten für die Bereinigung.

Wenn Nutzeranwendungen freie Arbeitslastkapazität haben und auf mehrere Knoten verteilt sind, können Clients, die Wiederholungsversuche implementieren, die Unterbrechung nicht beobachten.

Die Pods werden auf fehlerfreien Knoten automatisch neu gestartet.

Wenn der Cluster keine freien Kapazitäten hat, kann die Unterbrechung so lange andauern, bis dem Cluster neue Knoten hinzugefügt werden.

Wiederherstellung Wenn der Cluster keine freien Kapazitäten hat, müssen Sie mehr Knoten über mehrere Ausfallzonen verteilt bereitstellen und fehlgeschlagene Arbeitslasten auf die neuen Knoten verschieben.
Prävention

Stellen Sie Knoten bereit, die über mehrere Fehlerzonen verteilt sind.

Stellen Sie Arbeitslasten mit mehreren Replikaten, die auf mehrere Ausfallzonen verteilt sind, bereit, um Unterbrechungen zu minimieren.

Speicherfehler

Der Speicher in GKE on Bare Metal funktioniert möglicherweise nicht mehr oder ist im Netzwerk nicht mehr erreichbar. Je nachdem, welcher Speicher fehlschlägt, gibt es verschiedene Fehlermodi.

etcd

Der Inhalt von etcd kann aufgrund eines nicht ordnungsgemäßen Herunterfahrens des Knotens oder aufgrund eines zugrunde liegenden Speicherfehlers beschädigt werden. In der folgenden Tabelle wird das Verhalten der Hauptfunktion nach etcd-Fehlern beschrieben:

Arbeitslasten ausführen Arbeitslasten verwalten Nutzercluster verwalten Administratorcluster verwalten
Störungen (Dauer) Keine Unterbrechung Mögliche Störung (unbekannt) Mögliche Störung (unbekannt) Mögliche Störung (unbekannt)
Erläuterung Wenn die vorhandenen Arbeitslasten nicht auf der Kubernetes-Steuerungsebene basieren, funktionieren sie ohne Unterbrechung weiter. Wenn etcd in einem einzelnen Nutzercluster der Steuerungsebene oder auf mindestens der Hälfte der Knoten der Steuerungsebene in einem Nutzercluster für Hochverfügbarkeit ausfällt, kommt es zu einer Unterbrechung. Das Quorum der Steuerungsebene des Nutzerclusters ist verloren. Wenn etcd auf einem einzelnen Administratorcluster der Steuerungsebene oder auf mindestens der Hälfte der Knoten der Steuerungsebene in einem Hochverfügbarkeits-Administratorcluster fehlschlägt, kommt es zu einer Unterbrechung. Das Quorum der Steuerungsebene des Administratorclusters ist verloren. Wenn etcd auf einem einzelnen Administratorcluster der Steuerungsebene oder auf mindestens der Hälfte der Knoten der Steuerungsebene in einem Hochverfügbarkeits-Administratorcluster fehlschlägt, kommt es zu einer Unterbrechung. Das Quorum der Steuerungsebene des Administratorclusters ist verloren.
Wiederherstellung Weitere Informationen finden Sie unter Wiederaufnahme nach einem Quorumverlust. Weitere Informationen finden Sie unter Wiederaufnahme nach einem Quorumverlust. Weitere Informationen finden Sie unter Wiederaufnahme nach einem Quorumverlust.
Prävention Stellen Sie Nutzercluster im Hochverfügbarkeitsmodus bereit, um die Gefahr von Unterbrechungen zu minimieren. Stellen Sie Administratorcluster im Hochverfügbarkeitsmodus bereit, um die Möglichkeit einer Unterbrechung zu minimieren. Stellen Sie Administratorcluster im Hochverfügbarkeitsmodus bereit, um die Möglichkeit einer Unterbrechung zu minimieren.

Nutzeranwendung PersistentVolume

In der folgenden Tabelle wird das Verhalten der Hauptfunktion nach dem Ausfall eines PersistentVolume beschrieben:

Arbeitslasten ausführen Arbeitslasten verwalten Nutzercluster verwalten Administratorcluster verwalten
Störungen (Dauer) Mögliche Störung (unbekannt) Keine Unterbrechung Keine Unterbrechung Keine Unterbrechung
Erläuterung Die Arbeitslasten, die den fehlgeschlagenen PersistentVolume are affected. verwenden
Wiederherstellung
Prävention Stellen Sie die Nutzerarbeitslast im Hochverfügbarkeitsmodus bereit, um die Möglichkeit einer Unterbrechung zu minimieren.

Fluent Bit: beschädigtes Laufwerk

Die Beschädigung eines Fluent-Bit-Laufwerks wirkt sich nicht auf die Kernfunktionen aus, wirkt sich aber auf die Möglichkeit zum Erfassen und Prüfen von Logs in Google Cloud aus.

Das SIGSEGV-Ereignis wird manchmal in Logs von stackdriver-log-forwarder beobachtet. Dieser Fehler kann durch beschädigte, gepufferte Logs auf dem Laufwerk verursacht werden.

Fluent Bit hat einen Mechanismus, mit dem die zerbrochenen Teile herausgefiltert und verworfen werden. Dieses Feature ist in der in GKE on Bare Metal verwendeten Version 1.8.3 der Fluent-Bit-Version verfügbar.

Von LoadBalancer IP-Adresse

Wenn alle IP-Adressen in den zugewiesenen Pools derzeit belegt sind, können neu erstellte LoadBalancer-Dienste keine LoadBalancer-IP-Adresse übernehmen. Dieses Szenario wirkt sich auf die Fähigkeit der Clients des Dienstes aus, mit den LoadBalancer-Diensten zu kommunizieren.

Wenn Sie diese Ausschöpfung der IP-Adressen wiederherstellen möchten, weisen Sie dem Adresspool weitere IP-Adressen zu. Ändern Sie dazu die benutzerdefinierte Clusterressource.

Ablauf des Zertifikats

GKE on Bare Metal generiert während der Clusterinstallation eine selbstsignierte Zertifizierungsstelle. Die Zertifizierungsstelle läuft nach zehn Jahren ab und ist für die Erstellung von Zertifikaten verantwortlich, die nach einem Jahr ablaufen. Rotieren Sie Zertifikate regelmäßig, um Ausfallzeiten des Clusters zu vermeiden. Sie können Zertifikate rotieren, indem Sie den Cluster aktualisieren. Dies ist die empfohlene Methode. Wenn Sie Ihren Cluster nicht aktualisieren können, können Sie eine On-Demand-CA-Rotation durchführen. Weitere Informationen zu Clusterzertifikaten finden Sie in der Kubernetes-Dokumentation unter PKI-Zertifikate und -Anforderungen.

Wenn die Clusterzertifikate abgelaufen sind, müssen sie manuell verlängert werden.

Arbeitslasten ausführen Arbeitslasten verwalten Nutzercluster verwalten Administratorcluster verwalten
Störungen (Dauer) Keine Unterbrechung Mögliche Störung (unbekannt) Mögliche Störung (unbekannt) Mögliche Störung (unbekannt)
Erläuterung Wenn die Nutzerarbeitslasten nicht mit den Komponenten der Kubernetes-Steuerungsebene kommunizieren, kommt es zu keinen Unterbrechungen. Wenn die Zertifizierungsstellen für Nutzercluster ablaufen, kommt es zu einer Störung. Wenn die Zertifizierungsstellen für Administratorcluster ablaufen, kommt es zu einer Störung. Wenn die Zertifizierungsstellen für Nutzercluster ablaufen, kommt es zu einer Störung.
Wiederherstellung

Führen Sie die Schritte zum manuellen Erneuern von Zertifikaten für den Nutzercluster aus.

Führen Sie die Schritte zum manuellen Erneuern von Zertifikaten für den Nutzercluster aus.

Führen Sie die Schritte zum manuellen Erneuern von Zertifikaten für den Nutzercluster aus.

Prävention Einrichtung Monitorings für den Ablauf des Zertifikats. Ein Beispiel für den Messwert kubelet_certificate_manager_server_expiration_seconds finden Sie in der Liste der Messwerte.

Upgradefehler

Arbeitslasten ausführen Arbeitslasten verwalten Nutzercluster verwalten Administratorcluster verwalten
Störungen (Dauer) Keine Unterbrechung Keine Unterbrechung Mögliche Störung (unbekannt) Mögliche Störung (unbekannt)
Erläuterung

Wenn das Upgrade auf der Steuerungsebene des Nutzerclusters fehlschlägt, werden vorhandene Arbeitslasten NICHT unterbrochen.

Wenn das Upgrade auf einem bestimmten Worker-Knoten fehlschlägt, werden die Arbeitslasten auf diesem Knoten per Drain beendet und auf andere fehlerfreie Knoten verschoben, wenn auf den fehlerfreien Knoten zusätzliche Kapazitäten vorhanden sind.

Das Upgrade wird beendet, wenn ein Knoten der Steuerungsebene nicht aktualisiert werden kann. Der Cluster ist weiterhin funktionsfähig, wenn das Upgrade fehlschlägt und der Nutzercluster Hochverfügbarkeit hat. Wenn das Upgrade auf der Steuerungsebene des Administratorclusters fehlschlägt, kommt es zu Unterbrechungen, bis das Upgrade abgeschlossen ist. Wenn das Upgrade auf der Steuerungsebene des Administratorclusters fehlschlägt, kommt es zu Unterbrechungen, bis das Upgrade abgeschlossen ist.
Wiederherstellung Das Upgrade kann wiederholt werden. Weitere Informationen finden Sie unter Upgradeprobleme diagnostizieren und fortsetzen. Das Upgrade kann wiederholt werden. Weitere Informationen finden Sie unter Upgradeprobleme diagnostizieren und fortsetzen.
Prävention Weitere Informationen finden Sie unter Sicherung vor dem Upgrade erstellen. Weitere Informationen finden Sie unter Sicherung vor dem Upgrade erstellen.

Nächste Schritte

Weitere Informationen zu bekannten Produktproblemen und Problemumgehungen finden Sie unter Bekannte Probleme mit GKE on Bare Metal.