Umgebungen in der Cloud Console überwachen

Auf dieser Seite wird beschrieben, wie Sie auf das Monitoring-Dashboard für eine Cloud Composer-Umgebung zugreifen und es verwenden. Dieses Dashboard enthält Messwerte und Diagramme zur Überwachung von Trends in den DAG-Ausführungen in Ihrer Umgebung sowie zur Identifizierung von Problemen mit Airflow-Komponenten und Cloud Composer-Ressourcen.

Zugriff auf das Monitoring-Dashboard

  1. Öffnen Sie in der Cloud Console die Seite Umgebungen.

    Seite "Umgebungen" öffnen

  2. Suchen Sie in der Liste nach dem Namen der Umgebung, die Sie überwachen möchten. Klicken Sie auf den Namen der Umgebung, um den Tab "Monitoring" der Seite Umgebungsdetails zu öffnen.

Einen Zeitraum auswählen

Mit der Liste von Bereichen rechts oben auf der Seite können Sie einen Zeitraum für die Daten im Dashboard auswählen.

Zeitraumauswahl

Sie können einen größeren Zeitraum vergrößern, indem Sie auf ein Diagramm klicken und ziehen. Der neue Zeitraum wird auf alle Messwerte angewendet. Setzen Sie den Zoom zurück, indem Sie links neben den Zeiträumen auf die Schaltfläche ZURÜCKSETZEN klicken.

Messwertbeschreibungen

Jede Cloud Composer-Umgebung hat ein eigenes Monitoring-Dashboard. Die Messwerte unten erfassen nur DAG-Ausführungen, Airflow-Komponenten und Umgebungsdetails für die aktuell ausgewählte Umgebung.

DAG-Ausführungen

DAG-Ausführungsmesswert Beschreibung
Erfolgreiche DAG-Ausführungen Die Gesamtzahl der erfolgreichen Ausführungen für alle DAGs in der Umgebung während des ausgewählten Zeitraums. Wenn diese Werte unter den erwarteten Niveau fallen, kann das auf Fehler (Fehlgeschlagene DAG-Ausführungen) oder auf ein Problem hinweisen.
Nicht erfolgreiche DAG-Ausführungen Gesamtzahl der fehlgeschlagenen Ausführungen für alle DAGs in der Umgebung im ausgewählten Zeitraum.
Fehlgeschlagene Aufgaben1 Die Gesamtzahl der Aufgaben, die im ausgewählten Zeitraum in der Umgebung fehlgeschlagen sind. Fehlgeschlagene Aufgaben führen nicht immer zu einem Fehler bei der Ausführung eines DAG. Sie können jedoch ein nützliches Signal für die Fehlerbehebung von DAG-Fehlern sein.
Abgeschlossene DAG-Ausführungen Balkendiagramm, das die Anzahl der erfolgreichen und fehlgeschlagenen DAG-Intervalle im ausgewählten Zeitraum zeigt. Dies ist nützlich, um vorübergehende Probleme mit DAG-Ausführungen zu identifizieren und mit anderen Ereignissen zu korrelieren, z. B. Worker-Pod-Entfernungen.
Ausführungsdauer Median-DAG Ein Diagramm, das die mittlere Dauer von DAG-Ausführungen zeigt, die innerhalb eines kleinen Zeitfensters abgeschlossen wurden. Mithilfe dieses Diagramms lassen sich Leistungsprobleme erkennen und Trends in der DAG-Dauer erkennen.
Erledigte Aufgaben1 Ein Diagramm, das die Anzahl der in einem kurzen Zeitfenster in der Umgebung ausgeführten Aufgaben zeigt und diese in erfolgreiche und fehlgeschlagene Aufgaben aufgeschlüsselt.
Laufende1 Aufgaben und Aufgaben in der Warteschlange Diagramm, das die Anzahl der laufenden und zu einer bestimmten Zeit ausgeführten Aufgaben in der Warteschlange anzeigt. Sehen Sie sich die Anzahl der Aufgaben in der Warteschlange an, um Leistungsengpässe oder übermäßige Lasten zu ermitteln. Die Warteschlange wird länger, wenn Aufgaben nicht sofort ausgeführt werden können. Sehen Sie sich die Anzahl der laufenden Aufgaben an, um Planungsprobleme zu erkennen. Wenn beispielsweise die Anzahl der laufenden Aufgaben deutlich sinkt, kann dies auf ein Planungsproblem hinweisen.
Größe der DAG-Bags1 Diagramm, das die Anzahl der DAGs zeigt, die in einem Cloud Storage-Bucket bereitgestellt und von Airflow zu einem bestimmten Zeitpunkt verarbeitet werden. Dies kann bei der Analyse von Leistungsengpässen hilfreich sein. Beispielsweise kann eine erhöhte Anzahl von DAG-Bereitstellungen die Leistung aufgrund einer übermäßigen Last beeinträchtigen.
Importfehler bei DAG-Dateien1 Diagramm, das die Anzahl der DAG-Parsing-Fehler in einem kleinen Zeitfenster zeigt. Auf diese Weise können Sie feststellen, wann beschädigte DAGs von Airflow verarbeitet wurden und auf Probleme im DAG-Quellcode verweisen.
Gesamte Parsingzeit für alle DAGs 1 Ein Diagramm mit der Gesamtzeit, die Airflow benötigt, um alle DAGs in der Umgebung zu verarbeiten. Eine längere Parsing-Zeit kann sich auf die Effizienz auswirken.

Airflow-Komponenten

Airflow-Messwert Beschreibung
Aktive Worker Ein Diagramm, das die Anzahl der aktiven Worker im ausgewählten Zeitraum zeigt. Dies sollte standardmäßig der Anzahl der Knoten im Airflow-Cluster entsprechen, kann aber bei skalierter Umgebung größer werden. Wenn die Anzahl der aktiven Worker sinkt, kann dies auf Worker-Prozessfehler hinweisen (siehe Diagramm "Worker-Pod-Entfernungen").
Bereinigte Worker-Pods1 Diagramm, das die Anzahl der GKE-Worker-Pod-Entfernungen im Zeitverlauf zeigt. Pod-Bereinigungen werden häufig durch erschöpfte GKE-Ressourcen verursacht. Weitere Informationen finden Sie im Diagramm zur CPU-/Speicherauslastung pro Knoten.
Zombie-Aufgaben gelöscht1 Ein Diagramm mit der Anzahl der Zombie-Aufgaben, die in einem kleinen Zeitfenster beendet wurden. Zombie-Aufgaben werden häufig durch die externe Beendigung von Airflow-Prozessen verursacht. Der Airflow-Planer beendet Zombieaufgaben regelmäßig, was in diesem Diagramm angezeigt werden sollte.
Planer-Heartbeat Eine Zeitachse, die anzeigt, wann der Airflow-Planer einen fehlerfreien Herzschlag lieferte (z. B., als er geantwortet hat). Suchen Sie nach roten Bereichen, um Probleme mit Airflow-Planern zu identifizieren.

Umgebungsübersicht

Umgebungsmesswert Beschreibung
Umgebungsstatus Eine Zeitachse, die den Zustand der Composer-Bereitstellung zeigt. Der grüne Status bedeutet nicht, dass alle Airflow-Komponenten betriebsbereit sind und DAGs ausgeführt werden konnten. Er spiegelt lediglich den Status der Composer-Bereitstellung wider.
Datenbankstatus Zeitachse mit Status der Verbindung zur Composer-Cloud SQL-Instanz.
Webserverstatus Eine Zeitachse mit dem Status des Airflow-Webservers. Die Daten werden auf Grundlage der vom UI-Server zurückgegebenen HTTP-Statuscodes generiert.
CPU-Nutzung pro Knoten Diagramm, das die Nutzung von CPU-Kernen aggregiert, die über alle ausgeführten Pods im Knoten aggregiert werden, gemessen als Kernzeitnutzungsverhältnis misst. Dies gilt nicht für die CPU-Auslastung der App Engine-Instanz, die für die Airflow-UI oder Cloud SQL-Instanz verwendet wird. Eine hohe CPU-Auslastung ist häufig die Ursache des Worker-Bereinigungs-Workers. Wenn die Nutzung sehr hoch ist, sollten Sie überlegen, Ihre Composer-Umgebung zu skalieren oder den Zeitplan für die DAG-Ausführungen zu ändern.
Arbeitsspeichernutzung pro Knoten Arbeitsspeichernutzung pro Knoten im GKE-Cluster Die Speicherauslastung der App Engine-Instanz, die für die Airflow-UI oder Cloud SQL-Instanz verwendet wird, ist nicht enthalten. Eine hohe Arbeitsspeichernutzung ist häufig die Ursache des Worker-Bereinigungs-Workers, was zu DAG-Fehlern führen kann.

1 Verfügbar für Umgebungen mit Composer Version 1.10.0 oder höher und Airflow-Version 1.10.6 oder höher.