Probleme mit Ressourcenlimits in Anthos Service Mesh beheben

In diesem Abschnitt werden häufig auftretende Anthos Service Mesh-Probleme und deren Behebung erläutert. Weitere Informationen finden Sie unter Support.

Probleme mit Anthos Service Mesh-Ressourcenlimits können folgende Ursachen haben:

LimitRange-Objekte, die im Namespace istio-system oder in einem beliebigen Namespace mit aktivierter automatischer Sidecar-Einfügung erstellt wurden
Zu niedrige benutzerdefinierte Limits
Knoten mit einem Mangel an freiem Arbeitsspeicher oder anderen Ressourcen

Mögliche Symptome bei Ressourcenproblemen:

Anthos Service Mesh empfängt wiederholt keine Konfiguration von Istiod, was durch den Fehler Envoy proxy NOT ready angezeigt wird. Wenn Sie diesen Fehler einige Male beim Start sehen, ist das normal. Ansonsten ist es jedoch ein Problem.
Netzwerkprobleme bei einigen Pods oder Knoten, die nicht mehr erreichbar sind.
Für istioctl proxy-status wird in der Ausgabe der Status STALE angezeigt.
OOMKilled-Nachrichten in den Logs eines Knotens.
Arbeitsspeichernutzung durch Container: kubectl top pod POD_NAME --containers.
Arbeitsspeichernutzung durch Pods in einem Knoten: kubectl top node my-node.
Nicht genügend Arbeitsspeicher: Für kubectl get pods wird in der Ausgabe der Status OOMKilled angezeigt.

Istio-Sidecars benötigen sehr lange, um die Konfiguration zu erhalten

Eine langsame Konfigurationsweitergabe kann auf unzureichende Ressourcen zurückzuführen sein, die Istio zugewiesen sind oder zu viel Cluster enthalten.

Es gibt mehrere Lösungsansätze für dieses Problem:

Wenn Ihre Monitoringtools (prometheus, stackdriver usw.) eine hohe Auslastung einer Ressource von Istio zeigen, erhöhen Sie die Zuweisung dieser Ressource, beispielsweise um das CPU- oder Arbeitsspeicherlimit der Istio-Bereitstellung zu erhöhen. Dies ist eine temporäre Lösung. Wir empfehlen Ihnen, Methoden zur Reduzierung des Ressourcenverbrauchs zu überprüfen.
Wenn dieses Problem in einem großen Cluster/Deployment auftritt, reduzieren Sie den Konfigurationsstatus, der an jeden Proxy gesendet wird, indem Sie Sidecar-Ressourcen konfigurieren.
Wenn das Problem weiterhin besteht, versuchen Sie, horizontal zu skalieren.
Sollten Sie auch alle anderen Schritte zur Fehlerbehebung ausführen, melden Sie einen Programmfehler, der das Deployment beschreibt, und die beobachteten Probleme. Gehen Sie so vor und fügen Sie nach Möglichkeit ein CPU-/Speicherprofil in den Fehlerbericht ein, zusammen mit einer detaillierten Beschreibung der Clustergröße, der Anzahl der Pods, der Anzahl der Dienste. usw.