Auswirkungen von Fehlern in Anthos-Clustern auf Bare Metal verstehen

Anthos-Cluster auf Bare Metal wurden entwickelt, um den Umfang von Fehlern zu begrenzen und Funktionen zu priorisieren, die für die Geschäftskontinuität entscheidend sind. In diesem Dokument wird erläutert, wie die Funktion Ihrer Cluster bei einem Fehler beeinträchtigt wird. Anhand dieser Informationen können Sie Probleme priorisieren.

Die Hauptfunktionen von Anthos-Clustern auf Bare Metal umfassen die folgenden Kategorien:

  • Arbeitslasten ausführen: Vorhandene Arbeitslasten können weiterhin ausgeführt werden. Dies ist der wichtigste Aspekt, um die Geschäftskontinuität aufrechtzuerhalten. Selbst wenn Ihr Cluster ein Problem hat, werden die vorhandenen Arbeitslasten möglicherweise ohne Unterbrechung weiter ausgeführt.
  • Arbeitslasten verwalten: Sie können Arbeitslasten erstellen, aktualisieren und löschen. Dies ist die zweitwichtigste Überlegung, Arbeitslasten zu skalieren, wenn der Traffic zunimmt, auch wenn der Cluster ein Problem hat.
  • Nutzercluster verwalten: Sie können Knoten verwalten sowie Nutzercluster aktualisieren, aktualisieren und löschen. Dies ist weniger wichtig als die Überlegungen zum Anwendungslebenszyklus. Wenn auf den vorhandenen Knoten Kapazität verfügbar ist, wirkt sich die Unmöglichkeit, Nutzercluster zu ändern, nicht auf Nutzerarbeitslasten aus.
  • Administratorcluster verwalten: Sie können den Administratorcluster aktualisieren und upgraden.
    • Bei Bereitstellungen mit separaten Administrator- und Nutzerclustern ist dies die geringste Überlegungen, da der Administratorcluster keine Nutzerarbeitslasten hostet. Wenn in Ihrem Administratorcluster ein Problem auftritt, werden Ihre Anwendungsarbeitslasten auf anderen Clustern weiterhin ohne Unterbrechung ausgeführt.
    • Wenn Sie andere Bereitstellungsmodelle verwenden, z. B. hybrid oder eigenständig, führt der Administratorcluster Anwendungsarbeitslasten aus. Wenn der Administratorcluster ein Problem hat und die Steuerungsebene ausgefallen ist, können Sie auch keine Anwendungsarbeitslasten oder Nutzerclusterkomponenten verwalten.

In den folgenden Abschnitten werden diese Kategorien von Kernfunktionen verwendet, um die Auswirkungen bestimmter Arten von Fehlerszenarien zu beschreiben. Wenn eine Unterbrechung im Rahmen eines Fehlerszenarios auftritt, wird nach Möglichkeit auch die Dauer (Reihenfolge) der Unterbrechung angegeben.

Knotenfehler

Ein Knoten in Anthos-Clustern auf Bare Metal funktioniert möglicherweise nicht mehr oder ist im Netzwerk nicht mehr erreichbar. Je nach Knotenpool und Cluster, zu dem die fehlgeschlagene Maschine gehört, gibt es verschiedene Fehlermodi.

Knoten der Steuerungsebene

In der folgenden Tabelle wird das Verhalten für Knoten beschrieben, die Teil der Steuerungsebene in Anthos-Clustern auf Bare Metal sind:

Arbeitslasten ausführen Arbeitslasten verwalten Nutzercluster verwalten Administratorcluster verwalten
Unterbrechung (Dauer) Keine Unterbrechung Mögliche Störung (unbekannt) Mögliche Störung (unbekannt) Mögliche Störung (unbekannt)
Erläuterung Wenn der Knotenfehler den einzelnen Knoten der Steuerungsebene in einem nicht hochverfügbaren Nutzercluster (HA) oder mindestens die Hälfte der Knoten der Steuerungsebene in einem HA-Nutzercluster betrifft, kommt es zu einer Unterbrechung. Das Quorum der Steuerungsebene des Nutzerclusters ist verloren gegangen. Wenn der Knotenfehler den einzelnen Knoten der Steuerungsebene in einem Administratorcluster ohne Hochverfügbarkeit oder mindestens die Hälfte der Knoten der Steuerungsebene in einem Administratorcluster mit hoher Verfügbarkeit betrifft, kommt es zu einer Unterbrechung. Das Quorum der Steuerungsebene des Administratorclusters geht verloren. Wenn der Knotenfehler den einzelnen Knoten der Steuerungsebene in einem Administratorcluster ohne Hochverfügbarkeit oder mindestens die Hälfte der Knoten der Steuerungsebene in einem Administratorcluster mit hoher Verfügbarkeit betrifft, kommt es zu einer Unterbrechung. Das Quorum der Steuerungsebene des Administratorclusters geht verloren.
Wiederherstellung Weitere Informationen finden Sie unter Wiederaufbau nach Quorumverlust. Weitere Informationen finden Sie unter Wiederaufbau nach Quorumverlust. Weitere Informationen finden Sie unter Wiederaufbau nach Quorumverlust.
Prävention Stellen Sie Nutzercluster im Hochverfügbarkeitsmodus bereit, um die Gefahr einer Unterbrechung zu minimieren. Stellen Sie Administratorcluster im Hochverfügbarkeitsmodus bereit, um die Gefahr von Unterbrechungen zu minimieren. Stellen Sie Administratorcluster im Hochverfügbarkeitsmodus bereit, um die Gefahr von Unterbrechungen zu minimieren.

Load-Balancer-Knoten

In der folgenden Tabelle wird das Verhalten für Knoten beschrieben, die die Load-Balancer in Anthos-Clustern auf Bare Metal hosten. Diese Anleitung gilt nur für gebündelte Load-Balancer mit dem Ebene-2-Modus. Informationen zum manuellen Load-Balancing finden Sie in den Fehlermodi Ihrer externen Load-Balancer:

Arbeitslasten ausführen Arbeitslasten verwalten Nutzercluster verwalten Administratorcluster verwalten
Unterbrechung (Dauer) Mögliche Störung (variiert) Mögliche Störung (variiert) Mögliche Störung (variiert) Mögliche Störung (variiert)
Erläuterung Wenn externe Arbeitslasten auf den Load-Balancer der Datenebene angewiesen sind, um mit Arbeitslasten im Cluster zu kommunizieren, und Sie nur einen Load-Balancer-Knoten haben, kommt es zu einer Unterbrechung. Die virtuelle IP-Adresse der Steuerungsebene des Nutzerclusters befindet sich auf einem Load-Balancer-Knoten. Wenn der Load-Balancer-Knotenpool des Nutzerclusters nicht HA ist, kommt es zu einer Unterbrechung. Die virtuelle IP-Adresse der Steuerungsebene des Administratorclusters befindet sich auf einem Load-Balancer-Knoten. Wenn der Load-Balancer-Knotenpool des Administratorclusters nicht Hochverfügbarkeit ist, kommt es zu einer Unterbrechung. Die virtuelle IP-Adresse der Steuerungsebene des Administratorclusters befindet sich auf einem Load-Balancer-Knoten. Wenn der Load-Balancer-Knotenpool des Administratorclusters nicht Hochverfügbarkeit ist, kommt es zu einer Unterbrechung.
Wiederherstellung

Wenn es mehrere Load-Balancer-Knoten gibt, wird ein MetalLB-Failover innerhalb weniger Sekunden ausgeführt.

Wenn dies nicht der Fall ist, sollten Sie zusätzliche Load-Balancer-Knoten bereitstellen.

Bei Hochverfügbarkeit erfolgt das Failover automatisch und dauert einige Sekunden.

Wenn nicht HA, sollten Sie zusätzliche Load-Balancer-Knoten bereitstellen

Bei Hochverfügbarkeit erfolgt das Failover automatisch und dauert einige Sekunden.

Wenn dies nicht der Fall ist, sollten Sie zusätzliche Load-Balancer-Knoten bereitstellen.

Bei Hochverfügbarkeit erfolgt das Failover automatisch und dauert einige Sekunden.

Wenn dies nicht der Fall ist, sollten Sie zusätzliche Load-Balancer-Knoten bereitstellen.

Prävention Stellen Sie Load-Balancer-Knotenpools im Hochverfügbarkeitsmodus bereit, um die Gefahr einer Unterbrechung zu minimieren. Stellen Sie Load-Balancer-Knotenpools im Hochverfügbarkeitsmodus bereit, um die Gefahr einer Unterbrechung zu minimieren. Stellen Sie Load-Balancer-Knotenpools im Hochverfügbarkeitsmodus bereit, um die Gefahr einer Unterbrechung zu minimieren. Stellen Sie Load-Balancer-Knotenpools im Hochverfügbarkeitsmodus bereit, um die Gefahr einer Unterbrechung zu minimieren.

Worker-Knoten

In der folgenden Tabelle wird das Verhalten von Worker-Knoten in Anthos-Clustern auf Bare Metal beschrieben:

Arbeitslasten ausführen Arbeitslasten verwalten Nutzercluster verwalten Administratorcluster verwalten
Unterbrechung (Dauer) Mögliche Störung (in Sekunden) Keine Unterbrechung Keine Unterbrechung Keine Unterbrechung
Erläuterung

Die Pods, die auf dem fehlgeschlagenen Knoten ausgeführt werden, werden unterbrochen und automatisch auf andere fehlerfreie Knoten verschoben. Das Standardzeitlimit für die Bereinigung beträgt 5 Minuten.

Wenn Nutzeranwendungen freie Kapazitäten haben und auf mehrere Knoten verteilt sind, kann die Unterbrechung nicht von Clients beobachtet werden, die Wiederholungen implementieren.

Die Pods werden auf fehlerfreien Knoten automatisch neu gestartet.

Wenn der Cluster keine freie Kapazität hat, kann die Unterbrechung dauern, bis dem Cluster neue Knoten hinzugefügt werden.

Wiederherstellung Wenn der Cluster keine freien Kapazitäten hat, müssen Sie mehr Knoten über mehrere Fehlerzonen verteilen und fehlgeschlagene Arbeitslasten auf die neuen Knoten verschieben.
Prävention

Knoten bereitstellen, die auf mehrere Fehlerzonen verteilt sind

Stellen Sie Arbeitslasten mit mehreren Replikaten über mehrere Ausfallzonen bereit, um die Gefahr einer Unterbrechung zu minimieren.

Speicherfehler

Der Speicher in Anthos-Clustern auf Bare Metal funktioniert möglicherweise nicht mehr oder ist im Netzwerk nicht mehr erreichbar. Je nach fehlgeschlagenem Speicher gibt es verschiedene Fehlermodi.

etcd

Der Inhalt von etcd kann beschädigt werden, weil der Knoten nicht ordnungsgemäß heruntergefahren wurde oder der Speicher ausfällt. In der folgenden Tabelle wird das Verhalten der Hauptfunktion aufgrund von etcd-Fehlern beschrieben:

Arbeitslasten ausführen Arbeitslasten verwalten Nutzercluster verwalten Administratorcluster verwalten
Unterbrechung (Dauer) Keine Unterbrechung Mögliche Störung (unbekannt) Mögliche Störung (unbekannt) Mögliche Störung (unbekannt)
Erläuterung Wenn die vorhandenen Arbeitslasten nicht auf der Kubernetes-Steuerungsebene beruhen, funktionieren sie ohne Unterbrechung weiter. Wenn etcd in einem einzelnen Nutzercluster der Steuerungsebene oder in weniger als der Hälfte der Knoten der Steuerungsebene in einem Nutzercluster mit Hochverfügbarkeit fehlschlägt. Das Quorum der Steuerungsebene des Nutzerclusters geht verloren. Wenn etcd in einem einzelnen Administratorcluster der Steuerungsebene oder in mindestens der Hälfte der Knoten der Steuerungsebene in einem HA-Administratorcluster fehlschlägt, kommt es zu einer Unterbrechung. Das Quorum der Steuerungsebene des Administratorclusters geht verloren. Wenn etcd in einem einzelnen Administratorcluster der Steuerungsebene oder in mindestens der Hälfte der Knoten der Steuerungsebene in einem HA-Administratorcluster fehlschlägt, kommt es zu einer Unterbrechung. Das Quorum der Steuerungsebene des Administratorclusters geht verloren.
Wiederherstellung Weitere Informationen finden Sie unter Wiederaufbau nach Quorumverlust. Weitere Informationen finden Sie unter Wiederaufbau nach Quorumverlust. Weitere Informationen finden Sie unter Wiederaufbau nach Quorumverlust.
Prävention Stellen Sie Nutzercluster im Hochverfügbarkeitsmodus bereit, um die Gefahr einer Unterbrechung zu minimieren. Stellen Sie Administratorcluster im Hochverfügbarkeitsmodus bereit, um die Möglichkeit von Unterbrechungen zu minimieren. Stellen Sie Administratorcluster im Hochverfügbarkeitsmodus bereit, um die Möglichkeit von Unterbrechungen zu minimieren.

Nutzeranwendung PersistentVolume

In der folgenden Tabelle wird das Verhalten der Hauptfunktion aufgrund des Ausfalls eines PersistentVolume beschrieben:

Arbeitslasten ausführen Arbeitslasten verwalten Nutzercluster verwalten Administratorcluster verwalten
Unterbrechung (Dauer) Mögliche Störung (unbekannt) Keine Unterbrechung Keine Unterbrechung Keine Unterbrechung
Erläuterung Die Arbeitslasten, die den fehlgeschlagenen PersistentVolume are affected. verwenden
Wiederherstellung
Prävention Stellen Sie die Nutzerarbeitslast im Hochverfügbarkeitsmodus bereit, um die Gefahr einer Unterbrechung zu minimieren.

Fluent Bit beschädigte Festplatte

Die Beschädigung eines Fluent-Bit-Laufwerks hat keine Auswirkungen auf die Hauptfunktionen, wirkt sich aber auf die Fähigkeit zum Erfassen und Überprüfen von Logs in Google Cloud aus.

Das SIGSEGV-Ereignis kann manchmal aus den Logs von stackdriver-log-forwarder beobachtet werden. Dieser Fehler kann durch die beschädigten zwischengespeicherten Logs auf dem Laufwerk verursacht werden.

Fluent Bit hat einen Mechanismus, um die zerbrochenen Teile zu filtern und zu verwerfen. Dieses Feature ist in der Fluent-Bit-Version (Version 1.8.3) verfügbar, die in Anthos-Clustern auf Bare Metal verwendet wird.

Von LoadBalancer IP-Adresse

Wenn alle IP-Adressen in den zugewiesenen Pools derzeit belegt sind, können neu erstellte LoadBalancer-Dienste keine LoadBalancer-IP-Adresse erhalten. Dieses Szenario beeinträchtigt die Fähigkeit der Clients des Dienstes, mit den Diensten LoadBalancer zu kommunizieren.

Zur Wiederherstellung nach einer solchen IP-Adresszuweisung weisen Sie dem Adresspool weitere IP-Adressen zu. Ändern Sie dazu die benutzerdefinierte Clusterressource.

Ablauf des Zertifikats

Die im Clustervorgang verwendeten Zertifikate können ablaufen, wenn der Cluster seit einem Jahr kein Upgrade durchgeführt hat und keine On-Demand-Rotation durchgeführt wurde.

Arbeitslasten ausführen Arbeitslasten verwalten Nutzercluster verwalten Administratorcluster verwalten
Unterbrechung (Dauer) Keine Störung Mögliche Störung (unbekannt) Mögliche Störung (unbekannt) Mögliche Störung (unbekannt)
Erläuterung Wenn die Nutzerarbeitslasten nicht mit den Komponenten der Kubernetes-Steuerungsebene kommunizieren, treten keine Unterbrechungen auf. Wenn die Zertifizierungsstellen für Nutzercluster ablaufen, kommt es zu einer Unterbrechung. Wenn die Zertifizierungsstellen für Administratorcluster ablaufen, kommt es zu einer Unterbrechung. Wenn die Zertifizierungsstellen für Nutzercluster ablaufen, kommt es zu einer Unterbrechung.
Wiederherstellung

Folgen Sie den Schritten zum manuellen Auslösen einer Zertifikatsrotation im Nutzercluster.

Während der CA-Rotation kommt es zu einer Unterbrechung.

Folgen Sie der Anleitung, um eine Zertifikatsrotation im Administratorcluster manuell auszulösen.

Während der CA-Rotation kommt es zu einer Unterbrechung.

Folgen Sie der Anleitung, um eine Zertifikatsrotation im Administratorcluster manuell auszulösen.

Während der CA-Rotation kommt es zu einer Unterbrechung.

Prävention Bei der Einrichtung wird der Ablauf des Zertifikats überwacht. Den Beispielmesswert „kubelet_certificate_manager_server_expiration_seconds“ finden Sie in der Liste der Messwerte.

Fehler beim Upgrade

Arbeitslasten ausführen Arbeitslasten verwalten Nutzercluster verwalten Administratorcluster verwalten
Unterbrechung (Dauer) Keine Störung Keine Störung Mögliche Störung (unbekannt) Mögliche Störung (unbekannt)
Erläuterung

Wenn das Upgrade auf der Steuerungsebene des Nutzerclusters fehlschlägt, liegt keine Unterbrechung für vorhandene Arbeitslasten vor.

Wenn das Upgrade auf einem bestimmten Worker-Knoten fehlschlägt, werden die Arbeitslasten auf diesem Knoten entleert und auf andere fehlerfreie Knoten verschoben, wenn auf den fehlerfreien Knoten zusätzliche Kapazität vorhanden ist.

Das Upgrade wird beendet, wenn für einen der Knoten der Steuerungsebene kein Upgrade durchgeführt wird. Der Cluster funktioniert weiterhin, wenn das Upgrade fehlschlägt, wenn der Nutzercluster HA ist. Wenn das Upgrade auf der Steuerungsebene des Administratorclusters fehlschlägt, kommt es zu einer Unterbrechung, bis das Upgrade abgeschlossen ist. Wenn das Upgrade auf der Steuerungsebene des Administratorclusters fehlschlägt, kommt es zu einer Unterbrechung, bis das Upgrade abgeschlossen ist.
Wiederherstellung Das Upgrade kann wiederholt werden. Weitere Informationen finden Sie unter Upgradeprobleme diagnostizieren und fortsetzen. Das Upgrade kann wiederholt werden. Weitere Informationen finden Sie unter Upgradeprobleme diagnostizieren und fortsetzen.
Prävention Weitere Informationen finden Sie im Hilfeartikel Sicherung vor dem Upgrade erstellen. Weitere Informationen finden Sie im Hilfeartikel Sicherung vor dem Upgrade erstellen.

Nächste Schritte

Weitere Informationen zu bekannten Produktproblemen und Behelfslösungen finden Sie unter Anthos-Cluster auf bekannten Bare-Metal-Problemen.