Informationen zur Fehlerbehebung für den Ops-Agent finden

In diesem Dokument werden Quellen von Diagnoseinformationen beschrieben, mit denen Sie Probleme bei der Installation oder Ausführung des Ops-Agents identifizieren können.

Agent-Systemdiagnosen

In Version 2.25.1 wurden Systemdiagnosen für den Start für den Ops-Agent eingeführt. Wenn der Ops-Agent gestartet wird, führt er eine Reihe von Prüfungen für Bedingungen durch, die verhindern, dass der Agent ordnungsgemäß ausgeführt wird. Wenn der Agent eine der Bedingungen erkennt, protokolliert er eine Nachricht, die das Problem beschreibt. Der Ops-Agent prüft Folgendes:

  • Verbindungsprobleme
  • Verfügbarkeit von Ports, die vom Agent verwendet werden, um Messwerte über sich selbst zu melden
  • Berechtigungsprobleme
  • Verfügbarkeit der vom Agent zum Schreiben von Logs oder Messwerten verwendeten APIs
  • Ein Problem in der Systemdiagnose-Routine selbst.
Informationen zum Suchen von Startfehlern finden Sie unter Startfehler finden.

In Version 2.37.0 werden Laufzeit-Systemdiagnosen für den Ops-Agent eingeführt. Diese Fehler werden an Cloud Logging und Error Reporting gemeldet. Informationen zum Suchen von Laufzeitfehlern finden Sie unter Laufzeitfehler finden.

In Version 2.46.0 wurde der Informationscode LogPingOpsAgent eingeführt. Dieser Code stellt keinen Fehler dar. Weitere Informationen finden Sie unter Erfolgreiche Logerfassung prüfen.

In der folgenden Tabelle sind die Codes der Systemdiagnosen in alphabetischer Reihenfolge aufgeführt und eine Beschreibung ihrer Bedeutung. Codes, die mit dem String Err enden, zeigen Fehler an. Andere Codes dienen der Information.

Systemdiagnose-Code Kategorie Bedeutung Vorschlag
DLApiConnErr Verbindung Anfrage an die Download-Subdomain dl.google.com fehlgeschlagen. Prüfen Sie Ihre Internetverbindung und Ihre Firewallregeln. Weitere Informationen finden Sie unter Probleme mit der Netzwerkverbindung.
FbMetricsPortErr Portverfügbarkeit Port 20202, das für die Ops-Agent-Self-Messwerte erforderlich ist, ist nicht verfügbar. Prüfen Sie, ob Port 20202 geöffnet ist. Weitere Informationen finden Sie unter Erforderlicher Port ist nicht verfügbar.
HcFailureErr Allgemein Bei der Systemdiagnose-Routine des Ops-Agents ist ein interner Fehler aufgetreten. Reichen Sie eine Supportanfrage über die Google Cloud Console ein. Weitere Informationen erhalten Sie unter Support.
LogApiConnErr Verbindung Anfrage an die Logging API fehlgeschlagen. Prüfen Sie Ihre Internetverbindung und Ihre Firewallregeln. Weitere Informationen finden Sie unter Probleme mit der Netzwerkverbindung.
LogApiDisabledErr API Die Logging API ist im aktuellen Google Cloud-Projekt deaktiviert. Logging API aktivieren
LogApiPermissionErr Berechtigung Dem Dienstkonto fehlt die Rolle des Logautors (roles/logging.logWriter). Weisen Sie dem Dienstkonto die Rolle „Log-Autor“ zu. Weitere Informationen finden Sie unter Agent fehlen API-Berechtigungen.
LogApiScopeErr Berechtigung Für die VM fehlt der Zugriffsbereich https://www.googleapis.com/auth/logging.write. Fügen Sie der VM den Bereich https://www.googleapis.com/auth/logging.write hinzu. Weitere Informationen finden Sie unter Zugriffsbereiche überprüfen.
LogApiUnauthenticatedErr API Die aktuelle VM konnte nicht bei der Logging API authentifiziert werden. Überprüfen Sie, ob Ihre Anmeldedatendateien, VM-Zugriffsbereiche und Berechtigungen korrekt eingerichtet sind. Weitere Informationen finden Sie unter Ops-Agent autorisieren.
LogPingOpsAgent   Eine Informationsnutzlastnachricht, die alle zehn Minuten in das Log ops-agent-health geschrieben wird. Anhand der resultierenden Logeinträge können Sie prüfen, ob der Agent Logs sendet. Diese Meldung ist kein Fehler. Diese Meldung wird voraussichtlich alle zehn Minuten angezeigt. Wenn die Meldung mindestens 20 Minuten lang nicht angezeigt wird, ist möglicherweise ein Problem beim Agent aufgetreten. Informationen zur Fehlerbehebung finden Sie unter Fehlerbehebung beim Ops-Agent.
LogParseErr Laufzeit Der Ops-Agent konnte ein oder mehrere Logs nicht parsen. Prüfen Sie die Konfiguration aller Logging-Prozessoren, die Sie erstellt haben. Weitere Informationen finden Sie unter Log-Parsing-Fehler.
LogPipeLineErr Laufzeit Die Logging-Pipeline des Ops-Agents ist fehlgeschlagen. Prüfen Sie, ob der Agent Zugriff auf die Zwischenspeicherdateien hat. Prüfen Sie, ob ein volles Laufwerk vorhanden ist, und ob die Ops-Agent-Konfiguration korrekt ist. Weitere Informationen finden Sie unter Pipelinefehler.
MetaApiConnErr Verbindung Die Anfrage an den G C E-Metadatenserver zum Abfragen von VM-Zugriffsbereichen, OAuth-Tokens und Ressourcenlabels ist fehlgeschlagen. Prüfen Sie Ihre Internetverbindung und Ihre Firewallregeln. Weitere Informationen finden Sie unter Probleme mit der Netzwerkverbindung.
MonApiConnErr Verbindung Eine Anfrage an die Monitoring API ist fehlgeschlagen. Prüfen Sie Ihre Internetverbindung und Ihre Firewallregeln. Weitere Informationen finden Sie unter Probleme mit der Netzwerkverbindung.
MonApiDisabledErr API Die Monitoring API ist im aktuellen Google Cloud-Projekt deaktiviert. Aktivieren Sie die Monitoring-API.
MonApiPermissionErr Berechtigung Dem Dienstkonto fehlt die Rolle „Monitoring-Messwert-Autor“ (roles/monitoring.metricWriter). Weisen Sie dem Dienstkonto die Rolle „Monitoring-Messwert-Autor“ zu: Weitere Informationen finden Sie unter Agent fehlen API-Berechtigungen.
MonApiScopeErr Berechtigung Der VM fehlt der Zugriffsbereich https://www.googleapis.com/auth/monitoring.write. Fügen Sie der VM den Bereich https://www.googleapis.com/auth/monitoring.write hinzu. Weitere Informationen finden Sie unter Zugriffsbereiche überprüfen.
MonApiUnauthenticatedErr API Die aktuelle VM konnte keine Authentifizierung bei der Monitoring API durchführen. Überprüfen Sie, ob Ihre Anmeldedatendateien, VM-Zugriffsbereiche und Berechtigungen korrekt eingerichtet sind. Weitere Informationen finden Sie unter Ops-Agent autorisieren.
OtelMetricsPortErr Portverfügbarkeit Port 20201, erforderlich für die Ops-Agent-Self-Messwerte, ist nicht verfügbar. Prüfen Sie, ob Port 20201 geöffnet ist. Weitere Informationen finden Sie unter Ein erforderlicher Port ist nicht verfügbar.
PacApiConnErr Verbindung Dieser Systemdiagnosecode ist unzuverlässig. Dieser Code ist in der Ops-Agent-Version 2.46.1 deaktiviert. Aktualisieren Sie auf Version Ops-Agent Version 2.46.1 oder höher.

Startzeitfehler finden

Ab Version 2.35.0 werden Systemdiagnoseinformationen von der Cloud Logging API in das Log ops-agent-health geschrieben (Versionen 2.33.0, 2.34.0 verwenden ops-agent-health-checks). Dieselben Informationen werden auch so in eine health-checks.log-Datei geschrieben:

  • Linux: /var/log/google-cloud-ops-agent/health-checks.log
  • Windows: C:\ProgramData\Google\Cloud Operations\Ops Agent\log\health-checks.log

Um Systemdiagnose-Nachrichten aufzurufen, können Sie auch den Status des Ops-Agent-Dienstes so abfragen:

  • Führen Sie unter Linux den folgenden Befehl aus:
       sudo systemctl status google-cloud-ops-agent"*"
       

    Suchen Sie nach Nachrichten wie „[Ports Check] Ergebnis: PASS“. Weitere Ergebnisse sind „FEHLER“ und „FEHLGESCHLAGEN“.

  • Verwenden Sie unter Windows die Windows-Ereignisanzeige. Suchen Sie nach Nachrichten vom Typ „Informationen“, „Fehler“ oder „Fehlgeschlagen“ im Zusammenhang mit dem Dienst google-cloud-ops-agent.

Nachdem Sie Probleme behoben haben, müssen Sie den Agent neu starten. Die Systemdiagnosen werden beim Start des Agents ausgeführt. Wenn Sie die Systemdiagnosen noch einmal ausführen möchten, müssen Sie den Agent neu starten.

Laufzeitfehler finden

Die Systemdiagnosen der Laufzeit werden sowohl an Cloud Logging als auch an Error Reporting gemeldet. Wenn der Agent nicht gestartet werden konnte, aber trotzdem zuvor Fehler melden konnte, werden möglicherweise auch Startzeitfehler gemeldet.

So rufen Sie Laufzeitfehler über den Ops-Agents in Logging auf:

  1. Wählen Sie im Navigationsbereich der Google Cloud Console Logging und anschließend Log-Explorer aus:

    Zum Log-Explorer

  2. Geben Sie die folgende Abfrage ein und klicken Sie auf Abfrage ausführen:
    log_id("ops-agent-health")

So rufen Sie Laufzeitfehler des Ops-Agents in Error Reporting auf:

  1. Rufen Sie in der Google Cloud Console die Seite Error Reporting auf:

    Error Reporting aufrufen

    Sie können diese Seite auch über die Suchleiste finden.

  2. Wenn Sie Fehler des Ops-Agents sehen möchten, filtern Sie die Fehler für Ops Agent.

Erfolgreiche Logerfassung prüfen

In Version 2.46.0 des Ops-Agents wurde die informative Systemdiagnose LogPingOpsAgent eingeführt. Bei dieser Prüfung wird alle 10 Minuten eine Informationsnachricht in ops-agent-health geschrieben. Mit diesen Nachrichten können Sie prüfen, ob der Ops-Agent Logs schreibt:

Wenn eine dieser Optionen anzeigt, dass die Lognachrichten nicht aufgenommen werden, können Sie so vorgehen:

Sie benötigen die Instanz-ID der VM, um den Status des Ops-Agents auf einer bestimmten VM zu prüfen. So finden Sie die Instanz-ID:

  • Rufen Sie in der Google Cloud Console die Seite VM-Instanzen auf:

    Zu Seite VM-Instanzen

    Wenn Sie diese Seite über die Suchleiste finden, wählen Sie das Ergebnis aus, dessen Zwischenüberschrift Compute Engine ist.

  • Klicken Sie auf den Namen einer VM-Instanz.
  • Suchen Sie auf dem Tab Details den Abschnitt Allgemeine Informationen. Die Instanz-ID wird als numerischer String angezeigt. Verwenden Sie diesen String in den nachfolgenden Abschnitten für den Wert INSTANCE_ID.

Agent-Diagnosetool für VMs

Das Agent-Diagnosetool erfasst wichtige lokale Debugging-Informationen von Ihren VMs für alle folgenden Agents: Ops-Agent, Legacy-Logging-Agent und Legacy-Monitoring-Agent. Die Debugging-Informationen umfassen Informationen wie Projektinformationen, VM-Informationen, Agent-Konfiguration, Agent-Logs, Agent-Dienststatus und Informationen, die normalerweise manuell erfasst werden müssen. Das Tool prüft auch die lokale VM-Umgebung, um sicherzustellen, dass sie bestimmte Anforderungen erfüllt, damit die Agents ordnungsgemäß funktionieren, z. B. Netzwerkverbindung und erforderliche Berechtigungen.

Wenn Sie einen Kundenfall für einen Agent auf einer VM einreichen, führen Sie das Agent-Diagnosetool aus und hängen Sie die erfassten Informationen an den Fall an. Durch die Bereitstellung dieser Informationen reduziert sich der Zeitaufwand für die Fehlerbehebung in Ihrem Supportfall. Bevor Sie die Informationen an den Supportfall anhängen, entfernen Sie alle vertraulichen Informationen wie Passwörter.

Das Agent-Diagnosetool muss innerhalb der VM ausgeführt werden. Daher müssen Sie in der Regel zuerst eine SSH-Verbindung zur VM herstellen. Mit dem folgenden Befehl wird das Agent-Diagnosetool abgerufen und ausgeführt:

Linux

curl -sSO https://dl.google.com/cloudagents/diagnose-agents.sh
sudo bash diagnose-agents.sh

Windows

(New-Object Net.WebClient).DownloadFile("https://dl.google.com/cloudagents/diagnose-agents.ps1", "${env:UserProfile}\diagnose-agents.ps1")
Invoke-Expression "${env:UserProfile}\diagnose-agents.ps1"

Folgen Sie der Ausgabe der Skriptausführung, um die Dateien zu finden, die die erfassten Informationen enthalten. In der Regel finden Sie diese im Verzeichnis /var/tmp/google-agents unter Linux und im Verzeichnis $env:LOCALAPPDATA/Temp unter Windows, es sei denn, Sie haben das Ausgabeverzeichnis beim Ausführen des Skripts angepasst.

Ausführliche Informationen finden Sie im Skript diagnose-agents.sh unter Linux oder im Skript diagnose-agents.ps1 unter Windows.

Agent-Diagnosetool für Richtlinien zur automatischen Installation

Wenn der Ops-Agent mithilfe einer Ops-Agent-Betriebssystemrichtlinie fehlschlägt, können Sie das in diesem Abschnitt beschriebene Diagnosescript zum Debugging verwenden. Sie können beispielsweise einen der folgenden Fälle sehen:

  • Die Installation des Ops-Agents schlägt fehl, wenn Sie das Kästchen Ops-Agent für Monitoring und Logging installieren verwendet haben, um den Ops-Agent während der VM-Erstellung zu installieren.
  • Der Agent-Status im Cloud Monitoring-Dashboard VM-Instanzen oder der Tab Beobachtbarkeit auf einer Compute Engine-VM-Detailseite verbleibt mehr als 10 Minuten im Status Ausstehend. Ein länger andauernder Status kann auf Folgendes hinweisen:

    • Ein Problem beim Anwenden der Richtlinie.
    • Ein Problem bei der tatsächlichen Installation des Ops-Agents.
    • Ein Verbindungsproblem zwischen der VM und Cloud Monitoring.

    Bei einigen dieser Probleme können auch das allgemeine Script „agent-diagnostics“ und die Systemdiagnosen hilfreich sein.

Führen Sie die folgenden Befehle aus, um das Script „policy-diagnostics“ auszuführen:

curl -sSO https://dl.google.com/cloudagents/diagnose-ui-policies.sh
bash diagnose-ui-policies.sh VM_NAME VM_ZONE

Dieses Script enthält Informationen zu den betroffenen VMs und zugehörigen Richtlinien für die automatische Installation.

Wenn Sie einen Kundenfall für einen Agent auf einer VM einreichen, führen Sie die Agent-Diagnosetools aus und hängen Sie die erfassten Informationen an den Fall an. Durch die Bereitstellung dieser Informationen reduziert sich der Zeitaufwand für die Fehlerbehebung in Ihrem Supportfall. Bevor Sie die Informationen an den Supportfall anhängen, entfernen Sie alle vertraulichen Informationen wie Passwörter.

Agent-Status

Sie können den Status der Ops-Agent-Prozesse auf der VM prüfen, um festzustellen, ob der Agent ausgeführt wird.

Linux

Verwenden Sie den folgenden Befehl, um den Status des Ops-Agents zu prüfen:

sudo systemctl status google-cloud-ops-agent"*"

Prüfen Sie, ob die Komponenten "Metrics Agent" und "Logging Agent" als "aktiv (running)" aufgeführt sind, wie in der folgenden Beispielausgabe gezeigt. Einige Zeilen wurden der Kürze halber entfernt:

● google-cloud-ops-agent.service - Google Cloud Ops Agent
     Loaded: loaded (/lib/systemd/system/google-cloud-ops-agent.service; enabled; vendor preset: enabled)
     Active: active (exited) since Wed 2023-05-03 21:22:28 UTC; 4 weeks 0 days ago
    Process: 3353828 ExecStartPre=/opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_engine -in /etc/go>
    Process: 3353837 ExecStart=/bin/true (code=exited, status=0/SUCCESS)
   Main PID: 3353837 (code=exited, status=0/SUCCESS)
        CPU: 195ms

[...]

● google-cloud-ops-agent-opentelemetry-collector.service - Google Cloud Ops Agent - Metrics Agent
     Loaded: loaded (/lib/systemd/system/google-cloud-ops-agent-opentelemetry-collector.service; static)
     Active: active (running) since Wed 2023-05-03 21:22:29 UTC; 4 weeks 0 days ago
    Process: 3353840 ExecStartPre=/opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_engine -service=ot>
   Main PID: 3353855 (otelopscol)
      Tasks: 9 (limit: 2355)
     Memory: 65.3M
        CPU: 40min 31.555s
     CGroup: /system.slice/google-cloud-ops-agent-opentelemetry-collector.service
             └─3353855 /opt/google-cloud-ops-agent/subagents/opentelemetry-collector/otelopscol --config=/run/g>

[...]

● google-cloud-ops-agent-fluent-bit.service - Google Cloud Ops Agent - Logging Agent
     Loaded: loaded (/lib/systemd/system/google-cloud-ops-agent-fluent-bit.service; static)
     Active: active (running) since Wed 2023-05-03 21:22:29 UTC; 4 weeks 0 days ago
    Process: 3353838 ExecStartPre=/opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_engine -service=fl>
   Main PID: 3353856 (google_cloud_op)
      Tasks: 31 (limit: 2355)
     Memory: 58.3M
        CPU: 29min 6.771s
     CGroup: /system.slice/google-cloud-ops-agent-fluent-bit.service
             ├─3353856 /opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_wrapper -config_path /etc/goo>
             └─3353872 /opt/google-cloud-ops-agent/subagents/fluent-bit/bin/fluent-bit --config /run/google-clo>

[...]

● google-cloud-ops-agent-diagnostics.service - Google Cloud Ops Agent - Diagnostics
     Loaded: loaded (/lib/systemd/system/google-cloud-ops-agent-diagnostics.service; disabled; vendor preset: e>
     Active: active (running) since Wed 2023-05-03 21:22:26 UTC; 4 weeks 0 days ago
   Main PID: 3353819 (google_cloud_op)
      Tasks: 8 (limit: 2355)
     Memory: 36.0M
        CPU: 3min 19.488s
     CGroup: /system.slice/google-cloud-ops-agent-diagnostics.service
             └─3353819 /opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_diagnostics -config /etc/goog>

[...]

Windows

Verwenden Sie den folgenden Befehl, um den Status des Ops-Agents zu prüfen:

Get-Service google-cloud-ops-agent*

Prüfen Sie, ob die Komponenten „Agent für Messwerte“ und „Logging Agent“ als „aktiv“ aufgeführt sind, wie in der folgenden Beispielausgabe gezeigt:

Status   Name               DisplayName
------   ----               -----------
Running  google-cloud-op... Google Cloud Ops Agent
Running  google-cloud-op... Google Cloud Ops Agent - Logging Agent
Running  google-cloud-op... Google Cloud Ops Agent - Metrics Agent
Running  google-cloud-op... Google Cloud Ops Agent - Diagnostics

Agent-Self-Logs

Wenn der Agent keine Logs in Cloud Logging aufnimmt, müssen Sie möglicherweise die Logs des Agents lokal auf der VM zur Fehlerbehebung prüfen. Sie können auch die Logrotation verwenden, um die selbstbezogenen Logs des Agents zu verwalten.

Linux

Führen Sie den folgenden Befehl aus, um in Journald geschriebene self-Logs zu prüfen:

journalctl -u google-cloud-ops-agent*

Führen Sie den folgenden Befehl aus, um die Self-logs zu prüfen, die vom Logging-Modul auf das Laufwerk geschrieben werden:

vim -M /var/log/google-cloud-ops-agent/subagents/logging-module.log

Windows

Führen Sie den folgenden Befehl aus, um in Windows Event Logs geschriebene self-Logs zu prüfen:

Get-WinEvent -FilterHashtable @{ Logname='Application'; ProviderName='google-cloud-ops-agent*' } | Format-Table -AutoSize -Wrap

Führen Sie den folgenden Befehl aus, um die Self-logs zu prüfen, die vom Logging-Modul auf das Laufwerk geschrieben werden:

notepad "C:\ProgramData\Google\Cloud Operations\Ops Agent\log\logging-module.log"

Führen Sie den folgenden Befehl aus, um die Logs des Windows Service Control Manager für Ops-Agent-Dienste zu prüfen:

Get-WinEvent -FilterHashtable @{ Logname='System'; ProviderName='Service Control Manager' } | Where-Object -Property Message -Match 'Google Cloud Ops Agent' | Format-Table -AutoSize -Wrap

Messwertnutzung und -diagnose in Cloud Monitoring ansehen

Auf der Cloud Monitoring-Seite Messwertverwaltung finden Sie Informationen, mit denen Sie den Betrag steuern können, den Sie für kostenpflichtige Messwerte ausgeben, ohne die Beobachtbarkeit zu beeinträchtigen. Die Seite Messwertverwaltung enthält folgende Informationen:

  • Aufnahmevolumen für byte- und probenbasierte Abrechnung für Messwertdomains und einzelne Messwerte
  • Daten zu Labels und zur Kardinalität von Messwerten
  • Verwenden Messwerten in Benachrichtigungsrichtlinien und benutzerdefinierten Dashboards
  • Rate von Messwert-Schreibfehlern

So rufen Sie die Seite Messwertverwaltung auf:

  1. Wählen Sie im Navigationsbereich der Google Cloud Console Monitoring und anschließend  Messwertverwaltung aus:

    Zur Messwertverwaltung

  2. Wählen Sie in der Symbolleiste das Zeitfenster aus. Standardmäßig werden auf der Seite Messwertverwaltung Informationen zu den Messwerten angezeigt, die am Vortag erfasst wurden.

Weitere Informationen zur Seite Messwertverwaltung finden Sie unter Messwertnutzung ansehen und verwalten.