Probleme mit Ressourcenlimits in Cloud Service Mesh beheben

In diesem Abschnitt werden häufige Probleme mit Cloud Service Mesh und deren Behebung beschrieben. Weitere Informationen finden Sie unter Support.

Probleme mit Cloud Service Mesh-Ressourcenlimits können folgende Ursachen haben:

  • LimitRange-Objekte, die im Namespace istio-system oder in einem beliebigen Namespace mit aktivierter automatischer Sidecar-Einfügung erstellt wurden
  • Zu niedrige benutzerdefinierte Limits
  • Knoten mit einem Mangel an freiem Arbeitsspeicher oder anderen Ressourcen

Mögliche Symptome bei Ressourcenproblemen:

  • Cloud Service Mesh erhält wiederholt keine Konfiguration von der Steuerungsebene, angezeigt durch den Fehler Envoy proxy NOT ready. Wenn Sie diesen Fehler beim Start einige Male sehen, ist das normal, ansonsten ist es ein Problem.
  • Netzwerkprobleme bei einigen Pods oder Knoten, die nicht mehr erreichbar sind.
  • Für istioctl proxy-status wird in der Ausgabe der Status STALE angezeigt.
  • OOMKilled-Nachrichten in den Logs eines Knotens.
  • Arbeitsspeichernutzung durch Container: kubectl top pod POD_NAME --containers.
  • Arbeitsspeichernutzung durch Pods in einem Knoten: kubectl top node my-node.
  • Nicht genügend Arbeitsspeicher: Für kubectl get pods wird in der Ausgabe der Status OOMKilled angezeigt.

Es dauert sehr lange, bis Sidecars die Konfiguration erhalten.

Eine langsame Konfigurationsweitergabe kann auf unzureichende Ressourcen zurückzuführen sein, die istiod zugewiesen sind oder zu viel Cluster enthalten.

Es gibt mehrere Lösungsansätze für dieses Problem:

  1. Wenn Ihre Monitoring-Tools (Prometheus, Stackdriver usw.) bei einem Cluster im Cluster eine hohe Auslastung einer Ressource um istiod zeigen, erhöhen Sie die Zuweisung dieser Ressource. Erhöhen Sie beispielsweise das CPU- oder Arbeitsspeicherlimit der istiod-Bereitstellung. Dies ist eine vorübergehende Lösung. Wir empfehlen Ihnen, Methoden zur Reduzierung der Ressourcennutzung zu untersuchen.

  2. Wenn dieses Problem in einem großen Cluster oder einer großen Bereitstellung auftritt, reduzieren Sie die Menge an Konfigurationsstatus, die an jeden Proxy übertragen wird. Konfigurieren Sie dazu Sidecar-Ressourcen.

  3. Wenn das Problem bei Cloud Service Mesh im Cluster weiterhin besteht, versuchen Sie, istiod horizontal zu skalieren.

  4. Sollten Sie auch alle anderen Schritte zur Fehlerbehebung ausführen, melden Sie einen Programmfehler, der das Deployment beschreibt, und die beobachteten Probleme. Führen Sie diese Schritte aus, um nach Möglichkeit ein CPU/Arbeitsspeicher-Profil in den Fehlerbericht aufzunehmen. Fügen Sie außerdem eine detaillierte Beschreibung der Clustergröße, der Anzahl der Pods und der Anzahl der Dienste hinzu.