Diese Seite wurde von der Cloud Translation API übersetzt.

Fehlerbehebung für GKE

Autopilot Standard

Auf dieser Seite finden Sie Links zu Seiten zur Fehlerbehebung für häufige Probleme, die bei der Verwendung von Google Kubernetes Engine (GKE) auftreten können. Diese Seite richtet sich an Administratoren und Architekten, Sicherheitsspezialisten, Netzwerkspezialisten oder Speicherspezialisten, die Probleme mit GKE-Konfigurationen beheben. Weitere Informationen zu GKE-Rollen finden Sie unter Häufig verwendete GKE-Nutzerrollen und -Aufgaben.

Wenn Sie noch nicht mit der Fehlerbehebung in GKE vertraut sind oder einen allgemeinen Überblick über grundlegende Tools und Techniken benötigen, lesen Sie zuerst Einführung in die Fehlerbehebung.

Informationen zum Diagnostizieren und Beheben von Problemen, die in verschiedenen Phasen der Arbeit mit Ihrer GKE-Infrastruktur auftreten, finden Sie in den folgenden Abschnitten:

Cluster einrichten
Autoscaling
Speicherplatz
Clustersicherheit
Arbeitslasten
Clusterverwaltung
Monitoring

Auf dieser Seite finden Sie auch allgemeine Themen zur Fehlerbehebung:

4xx-Fehler
Bekannte Probleme

Informationen zur Fehlerbehebung bei GKE-Netzwerken finden Sie in der GKE-Netzwerkdokumentation unter Fehlerbehebung bei GKE-Netzwerken.

Einführung in die Fehlerbehebung

Thema	Beschreibung
Einführung in die Fehlerbehebung für GKE	Machen Sie sich mit dem allgemeinen Prozess und den grundlegenden Konzepten vertraut, um mit der Fehlerbehebung in GKE zu beginnen.
Service Health und Vorfälle prüfen	Hier erfahren Sie, wie Sie den Status von GKE und zugehörigen Google Cloud -Diensten prüfen, um Plattformprobleme auszuschließen.
Cluster- und Arbeitslaststatus in der Google Cloud -Konsole prüfen	Hier erfahren Sie, wie Sie mit der Google Cloud Console GKE-Probleme untersuchen und beheben.
Clusterstatus mit `kubectl` untersuchen	Häufig verwendete `kubectl`-Befehle und -Techniken zur Diagnose von Problemen in Ihren Clustern und Arbeitslasten.
Verlaufsanalyse mit Cloud Logging durchführen	Sie wissen, wie Sie Cloud Logging effektiv nutzen, um die Ursachen von Problemen in GKE zu ermitteln.
Proaktives Monitoring mit Cloud Monitoring durchführen	Verwenden Sie Cloud Monitoring-Dashboards und -Messwerte, um GKE-Probleme zu identifizieren, zu diagnostizieren und zu beheben.
Diagnose mit Gemini Cloud Assist beschleunigen	Hier erfahren Sie, wie Gemini Sie bei der Diagnose und Behebung von GKE-Problemen unterstützen kann.
Alles zusammenführen: Beispiel für ein Szenario zur Fehlerbehebung	Folgen Sie einem detaillierten Beispiel für die Fehlerbehebung in einem häufigen Szenario in GKE.

Clustereinrichtung

Thema	Beschreibung
Cluster erstellen	Probleme beim Erstellen von Clustern beheben
Autopilot-Cluster	Diagnostizieren und beheben Sie Probleme mit GKE Autopilot-Clustern, einschließlich Problemen beim Erstellen von Clustern, beim Löschen von Namespaces, beim Skalieren und bei Arbeitslasten.
Kubectl-Befehlszeilentool	Fehlerbehebung für das `kubectl`-Befehlszeilentool in GKE, einschließlich Problemen mit Authentifizierung und Autorisierung. Auf dieser Seite finden Sie auch Informationen zur Fehlerbehebung beim Konnectivity-Proxy, um zu prüfen, ob er die Ursache dafür ist, dass die Befehle `kubectl logs`, `attach`, `exec` oder `port-forward` nicht mehr reagieren.
Standardknotenpools	Fehlerbehebung bei GKE Standard-Knotenpools, einschließlich Problemen beim Erstellen von Knotenpools, Best-Effort-Bereitstellung, beschädigten Instanzmetadaten und der Migration von Arbeitslasten zu neuen Knotenpools.
Knotenregistrierung	Hier erfahren Sie, wie Sie Probleme beheben, die beim Hinzufügen von Knoten zu Ihrem GKE Standard-Cluster auftreten können, z. B. Fehler bei der Knotenregistrierung und fehlende Voraussetzungen für die erfolgreiche Knotenregistrierung.
Containerlaufzeit	Fehlerbehebung bei Container-Runtimes in GKE, einschließlich Problemen mit `containerd` und `dockershim` sowie privaten Registries.

Autoscaling

Thema	Beschreibung
Cluster Autoscaler skaliert nicht herunter	Häufige Gründe dafür, dass in Ihrem Cluster nicht ausgelastete Knoten nicht entfernt werden, ermitteln und beheben Hier erfahren Sie, wie Sie nach Problemen wie restriktiven `PodDisruptionBudgets`, Pods mit lokalem Speicher oder bestimmten Annotationen (z. B. `"cluster-autoscaler.kubernetes.io/safe-to-evict": "false"`) suchen, die das Entfernen von Knoten verhindern.
Cluster Autoscaler skaliert nicht hoch	Hier erfahren Sie, warum der Cluster Autoscaler keine neuen Knoten hinzufügt, um die Nachfrage zu decken. Prüfen Sie, ob es Pods gibt, die nicht geplant werden können, ob Sie die Größenlimits für Cluster oder Knotenpools erreicht haben, und ermitteln Sie potenzielle Probleme mit Ressourcenkontingenten oder der regionalen VM-Verfügbarkeit.
Horizontales Pod-Autoscaling	Fehlerbehebung bei Problemen mit dem horizontalen Pod-Autoscaler, der die Pod-Replikate Ihrer Anwendung nicht skaliert. Häufige Probleme beheben, z. B. falsch konfigurierte HorizontalPodAutoscaler-Objekte oder Probleme mit der Metrikpipeline.

Speicher

Thema	Beschreibung
Speicherplatz	Speicherprobleme beheben, einschließlich Probleme mit regionalen nichtflüchtigen Speichern, der Laufwerksleistung und der Volume-Erweiterung.

Clustersicherheit

Thema	Beschreibung
Authentifizierung	Beheben Sie Authentifizierungsprobleme in GKE, einschließlich Problemen mit RBAC, Workload Identity Federation for GKE und dem GKE-Metadatenserver.
Dienstkonten	Fehlerbehebung bei Dienstkonten, einschließlich der Wiederherstellung des Standarddienstkontos und der Aktivierung des Compute Engine-Standarddienstkontos.
Secrets auf Anwendungsebene	Hier finden Sie Informationen zur Fehlerbehebung bei Problemen, die bei der Konfiguration der Verschlüsselung von Secrets auf Anwendungsebene auftreten können, einschließlich fehlgeschlagener Updates und Fehlern, bei denen Sie einen Cloud KMS-Schlüssel nicht verwenden können oder bei denen die Cloud KMS-Schlüsselversion gelöscht wurde.

Die Stammzertifizierungsstelle des Clusters läuft bald ab

Thema	Beschreibung
Ablauf der Stammzertifizierungsstelle (CA)	Wenn die Stammzertifizierungsstelle (CA) Ihres Clusters bald abläuft, erfahren Sie hier, wie Sie eine Rotation der Anmeldedaten durchführen, um Unterbrechungen des normalen Clusterbetriebs zu vermeiden.

Arbeitslasten

Thema	Beschreibung
Bereitgestellte Arbeitslasten	Fehlerbehebung für Arbeitslasten, die in einem GKE-Cluster ausgeführt werden, einschließlich `PodUnschedulable`. Im Abschnitt „PodUnschedulable“ finden Sie Informationen zu Fehlern wie `MatchNodeSelector` und `Does not have minimum availability`.
Image-Pulls	Fehlerbehebung beim Abrufen von Images Hier erfahren Sie, was die Ursachen für Status wie `ImagePullBackOff` und `ErrImagePull` sind und wie Sie diese Status beheben können, indem Sie häufige Probleme wie Authentifizierung und Netzwerkverbindung beheben.
CrashLoopBackOff-Ereignisse	Fehlerbehebung bei `CrashLoopBackOff`-Ereignissen in GKE. Probleme wie Ressourcenerschöpfung, Fehlkonfigurationen von Apps und Fehler bei Aktivitätsprüfungen diagnostizieren
OOM-Ereignisse	Fehlerbehebung bei Kubernetes-Ereignissen vom Typ „Out of Memory“ (OOM) Ursachen ermitteln, Ereignistypen unterscheiden und effektive Lösungen für OOM-Kills auf Container- und Knotenebene anwenden.
Arm-Arbeitslasten	Beheben Sie Probleme mit Arm-Arbeitslasten, einschließlich abstürzender Pods auf Arm-Knoten.
TPUs	Fehlerbehebung bei TPUs, einschließlich Problemen mit Kontingenten, der automatischen Knotenbereitstellung, der Arbeitslastkonfiguration und der Planung.
GPUs	Fehlerbehebung bei GPUs, einschließlich Problemen mit der GPU-Treiberinstallation, Geräte-Plug-in-Fehlern und Container-Images.

Clusterverwaltung

Thema	Beschreibung
Cluster-Upgrades	Fehlerbehebung und Behebung von Problemen bei GKE-Cluster- und Knotenupgrades, einschließlich langer oder unvollständiger Upgrades, unerwarteter automatischer Upgrades, Fehler und Probleme nach dem Upgrade.
Webhooks	Hier erfahren Sie, wie Sie Probleme beheben und für die Stabilität der Steuerungsebene Ihres Clusters sorgen, wenn Sie Zulassungs-Webhooks verwenden.
Namespace bleibt im Status `Terminating` hängen	Beheben Sie Probleme mit Namespaces, die im Status `Terminating` festhängen, indem Sie die fehlerhaften Komponenten, die das Löschen blockieren, identifizieren und entfernen.
Gleichzeitige Vorgänge	Hier erfahren Sie, wie Sie Fehler bei gleichzeitig ausgeführten Vorgängen beheben, indem Sie diese Fehler identifizieren und beheben, indem Sie warten, bis die Vorgänge abgeschlossen sind.

Monitoring

Thema	Beschreibung
Systemmesswerte	Fehlerbehebung, wenn Systemmesswerte nicht in Cloud Monitoring angezeigt werden.
Monitoring-Dashboards	Fehlerbehebung bei Monitoring-Dashboards, einschließlich Problemen beim Aktivieren des Monitorings, fehlenden Kubernetes-Ressourcen und Berechtigungen.
Logging	Beheben Sie Probleme mit dem Logging, einschließlich Probleme beim Aktivieren des Loggings, fehlender Logs und Kontingente.

4xx-Fehler

Thema	Beschreibung
4xx-Fehler	Beheben Sie einige der 400-, 401-, 403- und 404-Fehler, die bei der Verwendung von GKE auftreten können. Auf dieser Seite finden Sie auch Informationen zur Fehlerbehebung bei Fehlern aufgrund fehlender Bearbeitungsberechtigungen für das Konto.

Bekannte Probleme

Thema	Beschreibung
Bekannte Probleme	Bekannte Probleme, die sich auf die Verwendung von GKE auswirken können, identifizieren und beheben

Nächste Schritte

Wenn Sie in der Dokumentation keine Lösung für Ihr Problem finden, lesen Sie den Abschnitt Support erhalten. Dort finden Sie weitere Hilfe, z. B. zu den folgenden Themen:
- Sie können eine Supportanfrage erstellen, indem Sie sich an den Cloud Customer Care wenden.
- Support von der Community erhalten, indem Sie Fragen auf Stack Overflow stellen und mit dem Tag google-kubernetes-engine nach ähnlichen Problemen suchen. Sie können auch dem #kubernetes-engine-Slack-Kanal beitreten, um weiteren Community-Support zu erhalten.
- Sie können Fehler melden oder Funktionsanfragen stellen, indem Sie die öffentliche Problemverfolgung verwenden.