Fehlerdiagnose von Clusterproblemen

Auf dieser Seite wird beschrieben, wie Sie mit dem actl-Befehlszeilentool im privaten Anthos-Modus Probleme mit Clustern diagnostizieren. Der Befehl diagnose generiert eine Archivdatei mit einer Sammlung von Logs, die den Status des Clusters erfassen.

Einführung

Sie können den Status der erstellten Cluster mit dem Befehl actl diagnose erfassen. Mithilfe der Diagnoseinformationen können Sie Probleme entdecken und Fehler in Ihren Bereitstellungen effektiver beheben. Der Befehl erfasst alle relevanten Cluster- und Knotenkonfigurationsdateien für Ihren definierten Bereich und verpackt die Informationen dann in einem einzigen TAR-Archiv. Mit den Flags für den Befehl können Sie den Diagnosebereich des Befehls auswählen.

actl diagnose

Verwenden Sie den Befehl actl diagnose, um Probleme mit Clustern zu beheben. Dieser Befehl komprimiert den Status, die Konfigurationen und die Logs eines Clusters in einer TAR-Datei. Die Standardkonfiguration des Befehls erfasst die folgenden Informationen zu Ihrem Cluster:

  • Kubernetes-Version
  • Status von Kubernetes-Ressourcen in den Namespaces „kube-system“ und „APM's controllers“: Cluster, Maschine, Knoten, Services, Endpunkte, ConfigMaps, ReplicaSets, CronJobs, Pods und die Inhaber dieser Pods, einschließlich Deployments, DaemonSets und StatefulSets.
  • Status der Nutzersteuerungsebene, wenn der Zielcluster ein Nutzercluster ist (die Steuerungsebene des Nutzerclusters wird im Administratorcluster ausgeführt).
  • Details zu jeder Knotenkonfiguration, einschließlich IP-Adressen, iptables-Regeln, Bereitstellungspunkten, Dateisystem, Netzwerkverbindungen und ausgeführten Prozessen
  • Containerlogs vom Knoten der Steuerungsebene des Administratorclusters, wenn der Kubernetes API-Server nicht verfügbar ist.
  • Informationen im Istio-System, einschließlich Pods, Diensten, Deployments, Endpunkten, Secrets, ConfigMaps, aktuellen und vorherigen Logs aus allen Istio-Komponenten und Sidecar-Dateien sowie allen Istio-Konfigurationsartefakten.
  • Informationen in Config Sync, einschließlich Konfigurationen in Namespaces im Konfigurationsmanagementsystem.
  • Logs aus dem Befehl actl diagnose.

Snapshot aus einem Szenario erstellen

Der Befehl actl diagnose unterstützt fünf Szenarien. Verwenden Sie zum Festlegen eines Szenarios das Flag --scenario, um Snapshots für jede der folgenden Konfigurationen zu erfassen:

  • Alle (Standard): Enthält alle vordefinierten Szenarien, einschließlich Authentifizierung, Konfigurationskonfiguration, Kubernetes, Management-Center und Service-Mesh.
  • auth
  • config-management
  • Kubernetes
  • management-center
  • service-mesh

Sie können jedes der fünf Szenarien mit dem Administratorcluster verwenden. So erstellen Sie einen Snapshot des Administratorclusters mit dem folgenden Szenario:

actl diagnose \
    --kubeconfig=ADMIN_CLUSTER_KUBECONFIG\
    --cluster=CLUSTER_NAME\
    --scenario=all

Ersetzen Sie Folgendes:

  • ADMIN_CLUSTER_KUBECONFIG: Die kubeconfig-Datei des Administratorclusters.
  • (Optional) CLUSTER_NAME: der Name des Administratorclusters. Wenn Sie den Clusternamen nicht kennen, lassen Sie dieses Flag weg. Sie werden dann aufgefordert, einen Cluster für den Snapshot auszuwählen.

Die Ausgabe enthält eine Liste von Dateien und den Namen einer Tar-Datei.

Using ["all"] snapshot configuration...
? Choose a cluster (namespace/name) cluster-admin/admin
Taking snapshots throttled at 10 in-flight requests...
  kubectlCommands/anthos-management-center-operator/kubectl_get_updateitems
  kubectlCommands/kubectl_cluster-info
  kubectlCommands/kubectl_version
  kubectlCommands/anthos-management-center/kubectl_logs_git-server-0_--container_git-server_--since_24h0m0s
  kubectlCommands/anthos-management-center/kubectl_get_deployments
  ...
  nodes/10.200.0.5/files/lib/systemd/system/docker.service
  nodes/10.200.0.4/files/lib/systemd/system/docker.service
  ...
  istioCommands/istioctl_bug-report

Snapshot succeeded.
Snapshots saved in "[TAR_FILE_PATH]/[TAR_FILE_NAME].tar.gz".

Snapshot auf einen Zeitraum beschränken

Mit dem Flag --log-since können Sie die Logerfassung auf einen aktuellen Zeitraum beschränken. Beispielsweise können Sie die Logs der letzten zwei Tage oder der letzten drei Stunden erfassen. Standardmäßig erfasst diagnose Logs der letzten 24 Stunden. Dieses Flag wird nur für kubectl-Logs unterstützt.

So begrenzen Sie den Zeitraum für die Logerfassung:

actl diagnose \
    --kubeconfig=ADMIN_CLUSTER_KUBECONFIG \
    --cluster=CLUSTER_NAME \
    --scenario=all \
    --log-since=DURATION

Ersetzen Sie DURATION durch einen Zeitwert, z. B. 2d oder 3h. Die Standarddauer beträgt 24 Stunden.

Probelauf für einen Snapshot durchführen

Sie können das Flag --dry-run verwenden, um die auszuführenden Aktionen und die Snapshot-Konfiguration anzeigen zu lassen.

So führen Sie einen Probelauf für Ihren Administratorcluster aus:

actl diagnose \
    --kubeconfig=ADMIN_CLUSTER_KUBECONFIG \
    --cluster=CLUSTER_NAME \
    --dry-run

Snapshot-Konfiguration anpassen

Wenn die fünf Szenarien Ihren Anforderungen nicht entsprechen, können Sie einen benutzerdefinierten Snapshot erstellen. Sie können entweder eine Konfiguration generieren, diese kopieren und in eine neue Konfigurationsdatei einfügen oder eine neue Konfigurationsdatei erstellen. Anschließend können Sie den Snapshot aus der benutzerdefinierten Konfigurationsdatei erstellen.

Option 1: Snapshot-Konfiguration generieren

Sie können für das jeweilige Szenario eine Snapshot-Konfiguration generieren, indem Sie die Flags --scenario und --dry-run übergeben. Um beispielsweise die Snapshot-Konfiguration für das all(default)-Szenario eines Clusters anzuzeigen, geben Sie den folgenden Befehl ein:

actl diagnose \
    --scenario=all  \
    --dry-run \

Hier ein Beispiel für die Ausgabe:

ExcludeWords:
- certificateAuthorityData
- password
InFlightRequests: 10
KubectlCommands:
- Commands:
  - kubectl get deployments
  - kubectl get deployments -o yaml
  - kubectl get pods
  - kubectl get pods -o yaml
  - kubectl get secret
  - kubectl logs
  - kubectl get gateways -o yaml
  Namespaces:
  - istio-system
NodeCommands:
- Commands:
  - uptime
  - df --all --inodes
  - ip addr
  - iptables-save --counters
  - mount
  - ip route list table all
  - top -bn1
  - docker info
  - docker ps -a
  - ps -edF
  - ps -eo pid,tid,ppid,class,rtprio,ni,pri,psr,pcpu,stat,wchan:14,comm,args,cgroup
  - conntrack --count
  Nodes: []
NodeFiles:
- Files:
  - /proc/sys/fs/file-nr
  - /proc/sys/net/netfilter/nf_conntrack_max
  - /lib/systemd/system/kubelet.service
  - /etc/systemd/system/kubelet.service.d/10-kubeadm.conf
  - /lib/systemd/system/docker.service
  - /etc/docker/daemon.json
  Nodes: []
NomosBugReport:
  Enabled: true
IstioBugReport:
  Enabled: true

Sie können die Ausgabe dieses Befehls von der Befehlszeilenschnittstelle in eine neue von Ihnen erstellte Konfigurationsdatei kopieren, z. B. myconfig.yaml. Sie können folgende Werte bearbeiten:

  • InFlightRequests: Anzahl der parallelen Threads, die zum Erstellen von Snapshots verwendet werden.
  • excludeWords: Liste der Wörter, die aus dem Snapshot ausgeschlossen werden sollen. Dabei wird die Groß- und Kleinschreibung nicht berücksichtigt. Zeilen, die diese Wörter enthalten, werden aus den Snapshot-Ergebnissen entfernt. "Passwort" ist immer ausgeschlossen, unabhängig davon, ob Sie das angeben oder nicht.
  • kubectlCommands: Liste der auszuführenden kubectl-Befehle. Die Befehle werden für die entsprechenden Namespaces ausgeführt. Bei kubectl logs-Befehlen werden alle Pods und Container in den entsprechenden Namespaces automatisch hinzugefügt. Reguläre Ausdrücke werden für die Angabe von Namespaces unterstützt. Wenn Sie keinen Namespace angeben, wird der Namespace default angenommen.
  • nodeCommands: Liste der Befehle, die auf den entsprechenden Knoten ausgeführt werden sollen. Die Ergebnisse werden gespeichert. Wenn keine Knoten angegeben sind, werden alle Knoten im Zielcluster berücksichtigt.
  • nodeFiles: Liste der Dateien, die von den entsprechenden Knoten erfasst werden sollen. Die Dateien werden gespeichert. Wenn keine Knoten angegeben sind, werden alle Knoten im Zielcluster berücksichtigt.
  • istioBugReport: Flag zum Aktivieren des Snapshots istioctl bug-report.
  • nomosBugReport: Flag zum Aktivieren des Snapshots nomos bugreport.

Option 2: Benutzerdefinierte Snapshot-Konfigurationsdatei manuell definieren

Erstellen Sie eine YAML-Datei mit den gewünschten Snapshot-Parametern, zum Beispiel:

ExcludeWords:
- certificateAuthorityData
- password
InFlightRequests: 10
KubectlCommands:
- Commands:
  - kubectl get deployments
  - kubectl get deployments -o yaml
  - kubectl get pods
  - kubectl get pods -o yaml
  - kubectl get secret
  - kubectl logs
  - kubectl get gateways -o yaml
  Namespaces:
  - istio-system

Snapshot mithilfe der benutzerdefinierten Snapshot-Konfiguration erstellen

Übergeben Sie Ihre benutzerdefinierte Snapshot-Konfigurationsdatei mit dem Flag --snapshot-config:

actl diagnose \
    --kubeconfig=ADMIN_CLUSTER_KUBECONFIG \
    --cluster=CLUSTER_NAME \
    --snapshot-config=SNAPSHOT_CONFIG_FILE

Ersetzen Sie SNAPSHOT_CONFIG_FILE durch den Namen Ihrer benutzerdefinierten Snapshot-Konfigurationsdatei, z. B. myconfig.yaml.

Snapshot-Inhalt prüfen

Extrahieren Sie den Inhalt der TAR-Datei mit dem folgenden Befehl:

tar -zxf TAR_FILE_PATHTAR_FILENAME.tar.gz  --directory EXTRACTION_DIRECTORY_NAME

Überprüfen Sie den Inhalt der TAR-Datei, bevor Sie sie den Interaktionen mit dem Support hinzufügen.