Anthos-Cluster auf Bare Metal wurden entwickelt, um den Umfang von Fehlern zu begrenzen und Funktionen zu priorisieren, die für die Geschäftskontinuität entscheidend sind. In diesem Dokument wird erläutert, wie die Funktion Ihrer Cluster bei einem Fehler beeinträchtigt wird. Anhand dieser Informationen können Sie Probleme priorisieren.
Die Hauptfunktionen von Anthos-Clustern auf Bare Metal umfassen die folgenden Kategorien:
- Arbeitslasten ausführen: Vorhandene Arbeitslasten können weiterhin ausgeführt werden. Dies ist der wichtigste Aspekt, um die Geschäftskontinuität aufrechtzuerhalten. Selbst wenn Ihr Cluster ein Problem hat, werden die vorhandenen Arbeitslasten möglicherweise ohne Unterbrechung weiter ausgeführt.
- Arbeitslasten verwalten: Sie können Arbeitslasten erstellen, aktualisieren und löschen. Dies ist die zweitwichtigste Überlegung, Arbeitslasten zu skalieren, wenn der Traffic zunimmt, auch wenn der Cluster ein Problem hat.
- Nutzercluster verwalten: Sie können Knoten verwalten sowie Nutzercluster aktualisieren, aktualisieren und löschen. Dies ist weniger wichtig als die Überlegungen zum Anwendungslebenszyklus. Wenn auf den vorhandenen Knoten Kapazität verfügbar ist, wirkt sich die Unmöglichkeit, Nutzercluster zu ändern, nicht auf Nutzerarbeitslasten aus.
- Administratorcluster verwalten: Sie können den Administratorcluster aktualisieren und upgraden.
- Bei Bereitstellungen mit separaten Administrator- und Nutzerclustern ist dies die geringste Überlegungen, da der Administratorcluster keine Nutzerarbeitslasten hostet. Wenn in Ihrem Administratorcluster ein Problem auftritt, werden Ihre Anwendungsarbeitslasten auf anderen Clustern weiterhin ohne Unterbrechung ausgeführt.
- Wenn Sie andere Bereitstellungsmodelle verwenden, z. B. hybrid oder eigenständig, führt der Administratorcluster Anwendungsarbeitslasten aus. Wenn der Administratorcluster ein Problem hat und die Steuerungsebene ausgefallen ist, können Sie auch keine Anwendungsarbeitslasten oder Nutzerclusterkomponenten verwalten.
In den folgenden Abschnitten werden diese Kategorien von Kernfunktionen verwendet, um die Auswirkungen bestimmter Arten von Fehlerszenarien zu beschreiben. Wenn eine Unterbrechung im Rahmen eines Fehlerszenarios auftritt, wird nach Möglichkeit auch die Dauer (Reihenfolge) der Unterbrechung angegeben.
Knotenfehler
Ein Knoten in Anthos-Clustern auf Bare Metal funktioniert möglicherweise nicht mehr oder ist im Netzwerk nicht mehr erreichbar. Je nach Knotenpool und Cluster, zu dem die fehlgeschlagene Maschine gehört, gibt es verschiedene Fehlermodi.
Knoten der Steuerungsebene
In der folgenden Tabelle wird das Verhalten für Knoten beschrieben, die Teil der Steuerungsebene in Anthos-Clustern auf Bare Metal sind:
Arbeitslasten ausführen | Arbeitslasten verwalten | Nutzercluster verwalten | Administratorcluster verwalten | |
---|---|---|---|---|
Unterbrechung (Dauer) | Keine Unterbrechung | Mögliche Störung (unbekannt) | Mögliche Störung (unbekannt) | Mögliche Störung (unbekannt) |
Erläuterung | – | Wenn der Knotenfehler den einzelnen Knoten der Steuerungsebene in einem nicht hochverfügbaren Nutzercluster (HA) oder mindestens die Hälfte der Knoten der Steuerungsebene in einem HA-Nutzercluster betrifft, kommt es zu einer Unterbrechung. Das Quorum der Steuerungsebene des Nutzerclusters ist verloren gegangen. | Wenn der Knotenfehler den einzelnen Knoten der Steuerungsebene in einem Administratorcluster ohne Hochverfügbarkeit oder mindestens die Hälfte der Knoten der Steuerungsebene in einem Administratorcluster mit hoher Verfügbarkeit betrifft, kommt es zu einer Unterbrechung. Das Quorum der Steuerungsebene des Administratorclusters geht verloren. | Wenn der Knotenfehler den einzelnen Knoten der Steuerungsebene in einem Administratorcluster ohne Hochverfügbarkeit oder mindestens die Hälfte der Knoten der Steuerungsebene in einem Administratorcluster mit hoher Verfügbarkeit betrifft, kommt es zu einer Unterbrechung. Das Quorum der Steuerungsebene des Administratorclusters geht verloren. |
Wiederherstellung | – | Weitere Informationen finden Sie unter Wiederaufbau nach Quorumverlust. | Weitere Informationen finden Sie unter Wiederaufbau nach Quorumverlust. | Weitere Informationen finden Sie unter Wiederaufbau nach Quorumverlust. |
Prävention | – | Stellen Sie Nutzercluster im Hochverfügbarkeitsmodus bereit, um die Gefahr einer Unterbrechung zu minimieren. | Stellen Sie Administratorcluster im Hochverfügbarkeitsmodus bereit, um die Gefahr von Unterbrechungen zu minimieren. | Stellen Sie Administratorcluster im Hochverfügbarkeitsmodus bereit, um die Gefahr von Unterbrechungen zu minimieren. |
Load-Balancer-Knoten
In der folgenden Tabelle wird das Verhalten für Knoten beschrieben, die die Load-Balancer in Anthos-Clustern auf Bare Metal hosten. Diese Anleitung gilt nur für gebündelte Load-Balancer mit dem Ebene-2-Modus. Informationen zum manuellen Load-Balancing finden Sie in den Fehlermodi Ihrer externen Load-Balancer:
Arbeitslasten ausführen | Arbeitslasten verwalten | Nutzercluster verwalten | Administratorcluster verwalten | |
---|---|---|---|---|
Unterbrechung (Dauer) | Mögliche Störung (variiert) | Mögliche Störung (variiert) | Mögliche Störung (variiert) | Mögliche Störung (variiert) |
Erläuterung | Wenn externe Arbeitslasten auf den Load-Balancer der Datenebene angewiesen sind, um mit Arbeitslasten im Cluster zu kommunizieren, und Sie nur einen Load-Balancer-Knoten haben, kommt es zu einer Unterbrechung. | Die virtuelle IP-Adresse der Steuerungsebene des Nutzerclusters befindet sich auf einem Load-Balancer-Knoten. Wenn der Load-Balancer-Knotenpool des Nutzerclusters nicht HA ist, kommt es zu einer Unterbrechung. | Die virtuelle IP-Adresse der Steuerungsebene des Administratorclusters befindet sich auf einem Load-Balancer-Knoten. Wenn der Load-Balancer-Knotenpool des Administratorclusters nicht Hochverfügbarkeit ist, kommt es zu einer Unterbrechung. | Die virtuelle IP-Adresse der Steuerungsebene des Administratorclusters befindet sich auf einem Load-Balancer-Knoten. Wenn der Load-Balancer-Knotenpool des Administratorclusters nicht Hochverfügbarkeit ist, kommt es zu einer Unterbrechung. |
Wiederherstellung | Wenn es mehrere Load-Balancer-Knoten gibt, wird ein MetalLB-Failover innerhalb weniger Sekunden ausgeführt. Wenn dies nicht der Fall ist, sollten Sie zusätzliche Load-Balancer-Knoten bereitstellen. |
Bei Hochverfügbarkeit erfolgt das Failover automatisch und dauert einige Sekunden. Wenn nicht HA, sollten Sie zusätzliche Load-Balancer-Knoten bereitstellen |
Bei Hochverfügbarkeit erfolgt das Failover automatisch und dauert einige Sekunden. Wenn dies nicht der Fall ist, sollten Sie zusätzliche Load-Balancer-Knoten bereitstellen. |
Bei Hochverfügbarkeit erfolgt das Failover automatisch und dauert einige Sekunden. Wenn dies nicht der Fall ist, sollten Sie zusätzliche Load-Balancer-Knoten bereitstellen. |
Prävention | Stellen Sie Load-Balancer-Knotenpools im Hochverfügbarkeitsmodus bereit, um die Gefahr einer Unterbrechung zu minimieren. | Stellen Sie Load-Balancer-Knotenpools im Hochverfügbarkeitsmodus bereit, um die Gefahr einer Unterbrechung zu minimieren. | Stellen Sie Load-Balancer-Knotenpools im Hochverfügbarkeitsmodus bereit, um die Gefahr einer Unterbrechung zu minimieren. | Stellen Sie Load-Balancer-Knotenpools im Hochverfügbarkeitsmodus bereit, um die Gefahr einer Unterbrechung zu minimieren. |
Worker-Knoten
In der folgenden Tabelle wird das Verhalten von Worker-Knoten in Anthos-Clustern auf Bare Metal beschrieben:
Arbeitslasten ausführen | Arbeitslasten verwalten | Nutzercluster verwalten | Administratorcluster verwalten | |
---|---|---|---|---|
Unterbrechung (Dauer) | Mögliche Störung (in Sekunden) | Keine Unterbrechung | Keine Unterbrechung | Keine Unterbrechung |
Erläuterung | Die Wenn Nutzeranwendungen freie Kapazitäten haben und auf mehrere Knoten verteilt sind, kann die Unterbrechung nicht von Clients beobachtet werden, die Wiederholungen implementieren. Die |
– | – | – |
Wiederherstellung | Wenn der Cluster keine freien Kapazitäten hat, müssen Sie mehr Knoten über mehrere Fehlerzonen verteilen und fehlgeschlagene Arbeitslasten auf die neuen Knoten verschieben. | – | – | – |
Prävention | Knoten bereitstellen, die auf mehrere Fehlerzonen verteilt sind Stellen Sie Arbeitslasten mit mehreren Replikaten über mehrere Ausfallzonen bereit, um die Gefahr einer Unterbrechung zu minimieren. |
– | – | – |
Speicherfehler
Der Speicher in Anthos-Clustern auf Bare Metal funktioniert möglicherweise nicht mehr oder ist im Netzwerk nicht mehr erreichbar. Je nach fehlgeschlagenem Speicher gibt es verschiedene Fehlermodi.
etcd
Der Inhalt von etcd
kann beschädigt werden, weil der Knoten nicht ordnungsgemäß heruntergefahren wurde oder der Speicher ausfällt. In der folgenden Tabelle wird das Verhalten der Hauptfunktion aufgrund von etcd
-Fehlern beschrieben:
Arbeitslasten ausführen | Arbeitslasten verwalten | Nutzercluster verwalten | Administratorcluster verwalten | |
---|---|---|---|---|
Unterbrechung (Dauer) | Keine Unterbrechung | Mögliche Störung (unbekannt) | Mögliche Störung (unbekannt) | Mögliche Störung (unbekannt) |
Erläuterung | Wenn die vorhandenen Arbeitslasten nicht auf der Kubernetes-Steuerungsebene beruhen, funktionieren sie ohne Unterbrechung weiter. | Wenn etcd in einem einzelnen Nutzercluster der Steuerungsebene oder in weniger als der Hälfte der Knoten der Steuerungsebene in einem Nutzercluster mit Hochverfügbarkeit fehlschlägt. Das Quorum der Steuerungsebene des Nutzerclusters geht verloren. |
Wenn etcd in einem einzelnen Administratorcluster der Steuerungsebene oder in mindestens der Hälfte der Knoten der Steuerungsebene in einem HA-Administratorcluster fehlschlägt, kommt es zu einer Unterbrechung. Das Quorum der Steuerungsebene des Administratorclusters geht verloren. |
Wenn etcd in einem einzelnen Administratorcluster der Steuerungsebene oder in mindestens der Hälfte der Knoten der Steuerungsebene in einem HA-Administratorcluster fehlschlägt, kommt es zu einer Unterbrechung. Das Quorum der Steuerungsebene des Administratorclusters geht verloren. |
Wiederherstellung | – | Weitere Informationen finden Sie unter Wiederaufbau nach Quorumverlust. | Weitere Informationen finden Sie unter Wiederaufbau nach Quorumverlust. | Weitere Informationen finden Sie unter Wiederaufbau nach Quorumverlust. |
Prävention | – | Stellen Sie Nutzercluster im Hochverfügbarkeitsmodus bereit, um die Gefahr einer Unterbrechung zu minimieren. | Stellen Sie Administratorcluster im Hochverfügbarkeitsmodus bereit, um die Möglichkeit von Unterbrechungen zu minimieren. | Stellen Sie Administratorcluster im Hochverfügbarkeitsmodus bereit, um die Möglichkeit von Unterbrechungen zu minimieren. |
Nutzeranwendung PersistentVolume
In der folgenden Tabelle wird das Verhalten der Hauptfunktion aufgrund des Ausfalls eines PersistentVolume
beschrieben:
Arbeitslasten ausführen | Arbeitslasten verwalten | Nutzercluster verwalten | Administratorcluster verwalten | |
---|---|---|---|---|
Unterbrechung (Dauer) | Mögliche Störung (unbekannt) | Keine Unterbrechung | Keine Unterbrechung | Keine Unterbrechung |
Erläuterung | Die Arbeitslasten, die den fehlgeschlagenen PersistentVolume verwenden |
– | – | – |
Wiederherstellung | – | – | – | – |
Prävention | Stellen Sie die Nutzerarbeitslast im Hochverfügbarkeitsmodus bereit, um die Gefahr einer Unterbrechung zu minimieren. | – | – | – |
Fluent Bit beschädigte Festplatte
Die Beschädigung eines Fluent-Bit-Laufwerks hat keine Auswirkungen auf die Hauptfunktionen, wirkt sich aber auf die Fähigkeit zum Erfassen und Überprüfen von Logs in Google Cloud aus.
Das SIGSEGV
-Ereignis kann manchmal aus den Logs von stackdriver-log-forwarder
beobachtet werden. Dieser Fehler kann durch die beschädigten zwischengespeicherten Logs auf dem Laufwerk verursacht werden.
Fluent Bit hat einen Mechanismus, um die zerbrochenen Teile zu filtern und zu verwerfen. Dieses Feature ist in der Fluent-Bit-Version (Version 1.8.3) verfügbar, die in Anthos-Clustern auf Bare Metal verwendet wird.
Von LoadBalancer
IP-Adresse
Wenn alle IP-Adressen in den zugewiesenen Pools derzeit belegt sind, können neu erstellte LoadBalancer
-Dienste keine LoadBalancer
-IP-Adresse erhalten. Dieses Szenario beeinträchtigt die Fähigkeit der Clients des Dienstes, mit den Diensten LoadBalancer
zu kommunizieren.
Zur Wiederherstellung nach einer solchen IP-Adresszuweisung weisen Sie dem Adresspool weitere IP-Adressen zu. Ändern Sie dazu die benutzerdefinierte Clusterressource.
Ablauf des Zertifikats
Die im Clustervorgang verwendeten Zertifikate können ablaufen, wenn der Cluster seit einem Jahr kein Upgrade durchgeführt hat und keine On-Demand-Rotation durchgeführt wurde.
Arbeitslasten ausführen | Arbeitslasten verwalten | Nutzercluster verwalten | Administratorcluster verwalten | |
---|---|---|---|---|
Unterbrechung (Dauer) | Keine Störung | Mögliche Störung (unbekannt) | Mögliche Störung (unbekannt) | Mögliche Störung (unbekannt) |
Erläuterung | Wenn die Nutzerarbeitslasten nicht mit den Komponenten der Kubernetes-Steuerungsebene kommunizieren, treten keine Unterbrechungen auf. | Wenn die Zertifizierungsstellen für Nutzercluster ablaufen, kommt es zu einer Unterbrechung. | Wenn die Zertifizierungsstellen für Administratorcluster ablaufen, kommt es zu einer Unterbrechung. | Wenn die Zertifizierungsstellen für Nutzercluster ablaufen, kommt es zu einer Unterbrechung. |
Wiederherstellung | – | Folgen Sie den Schritten zum manuellen Auslösen einer Zertifikatsrotation im Nutzercluster. Während der CA-Rotation kommt es zu einer Unterbrechung. |
Folgen Sie der Anleitung, um eine Zertifikatsrotation im Administratorcluster manuell auszulösen. Während der CA-Rotation kommt es zu einer Unterbrechung. |
Folgen Sie der Anleitung, um eine Zertifikatsrotation im Administratorcluster manuell auszulösen. Während der CA-Rotation kommt es zu einer Unterbrechung. |
Prävention | Bei der Einrichtung wird der Ablauf des Zertifikats überwacht. Den Beispielmesswert „kubelet_certificate_manager_server_expiration_seconds“ finden Sie in der Liste der Messwerte. |
Fehler beim Upgrade
Arbeitslasten ausführen | Arbeitslasten verwalten | Nutzercluster verwalten | Administratorcluster verwalten | |
---|---|---|---|---|
Unterbrechung (Dauer) | Keine Störung | Keine Störung | Mögliche Störung (unbekannt) | Mögliche Störung (unbekannt) |
Erläuterung | Wenn das Upgrade auf der Steuerungsebene des Nutzerclusters fehlschlägt, liegt keine Unterbrechung für vorhandene Arbeitslasten vor. Wenn das Upgrade auf einem bestimmten Worker-Knoten fehlschlägt, werden die Arbeitslasten auf diesem Knoten entleert und auf andere fehlerfreie Knoten verschoben, wenn auf den fehlerfreien Knoten zusätzliche Kapazität vorhanden ist. |
Das Upgrade wird beendet, wenn für einen der Knoten der Steuerungsebene kein Upgrade durchgeführt wird. Der Cluster funktioniert weiterhin, wenn das Upgrade fehlschlägt, wenn der Nutzercluster HA ist. | Wenn das Upgrade auf der Steuerungsebene des Administratorclusters fehlschlägt, kommt es zu einer Unterbrechung, bis das Upgrade abgeschlossen ist. | Wenn das Upgrade auf der Steuerungsebene des Administratorclusters fehlschlägt, kommt es zu einer Unterbrechung, bis das Upgrade abgeschlossen ist. |
Wiederherstellung | – | – | Das Upgrade kann wiederholt werden. Weitere Informationen finden Sie unter Upgradeprobleme diagnostizieren und fortsetzen. | Das Upgrade kann wiederholt werden. Weitere Informationen finden Sie unter Upgradeprobleme diagnostizieren und fortsetzen. |
Prävention | – | – | Weitere Informationen finden Sie im Hilfeartikel Sicherung vor dem Upgrade erstellen. | Weitere Informationen finden Sie im Hilfeartikel Sicherung vor dem Upgrade erstellen. |
Nächste Schritte
Weitere Informationen zu bekannten Produktproblemen und Behelfslösungen finden Sie unter Anthos-Cluster auf bekannten Bare-Metal-Problemen.