Umgebungen in der Cloud Console überwachen

Auf dieser Seite wird beschrieben, wie Sie auf das Monitoring-Dashboard für eine Cloud Composer-Umgebung zugreifen und es verwenden. Dieses Dashboard enthält Messwerte und Diagramme zur Überwachung von Trends in den DAG-Ausführungen in Ihrer Umgebung sowie zur Identifizierung von Problemen mit Airflow-Komponenten und Cloud Composer-Ressourcen.

Zugriff auf das Monitoring-Dashboard

  1. Öffnen Sie in der Cloud Console die Seite Umgebungen.

    Seite "Umgebungen" öffnen

  2. Suchen Sie in der Liste nach dem Namen der Umgebung, die Sie überwachen möchten. Klicken Sie auf den Namen der Umgebung, um den Tab „Monitoring“ der Seite Umgebungsdetails zu öffnen.

Einen Zeitraum auswählen

Mit der Liste von Bereichen oben rechts auf der Seite können Sie einen Zeitraum für die Daten im Dashboard auswählen.

Zeitraumauswahl

Sie können auch einen bestimmten Zeitraum heranzoomen, indem Sie auf ein Diagramm klicken und ziehen. Der neue Zeitraum wird auf alle Messwerte angewendet. Setzen Sie den Zoom zurück, indem Sie links neben den Zeiträumen auf die Schaltfläche ZURÜCKSETZEN klicken.

Benachrichtigungen einrichten

Sie können Benachrichtigungen für einen Messwert einrichten, indem Sie auf das Glockensymbol in der Ecke der Monitoring-Karte klicken.

Benachrichtigungen überwachen

Messwert in Monitoring ansehen

Sie können einen Messwert genauer untersuchen, indem Sie ihn in Monitoring anzeigen. Klicken Sie auf das Dreipunkt-Menü rechts oben in einer Messwertkarte und wählen Sie Im Metrics Explorer ansehen aus, um das Cloud Composer-Monitoring-Dashboard aufzurufen.

Im Metrics Explorer ansehen

Messwertbeschreibungen

Jede Cloud Composer-Umgebung hat ein eigenes Monitoring-Dashboard. Die Messwerte unten erfassen nur DAG-Ausführungen, Airflow-Komponenten und Umgebungsdetails für die aktuell ausgewählte Umgebung.

Umgebungsübersicht

Umgebungsmesswert Beschreibung
CPU-Nutzung pro Knoten Diagramm, das die Nutzung von CPU-Kernen aggregiert, die über alle ausgeführten Pods im Knoten aggregiert werden, gemessen als Kernzeitnutzungsverhältnis. Dies gilt nicht für die CPU-Auslastung der App Engine-Instanz, die für die Airflow-UI oder Cloud SQL-Instanz verwendet wird. Eine hohe CPU-Auslastung ist häufig die Ursache des Worker-Bereinigungs-Workers. Wenn die Nutzung sehr hoch ist, sollten Sie überlegen, Ihre Composer-Umgebung zu skalieren oder den Zeitplan für die DAG-Ausführungen zu ändern.
Speichernutzung pro Knoten Speichernutzung pro Knoten im GKE-Cluster. Die Speichernutzung der App Engine-Instanz, die für die Airflow-UI oder Cloud SQL-Instanz verwendet wird, ist nicht enthalten. Eine hohe Speichernutzung ist häufig die Ursache von bereinigten Worker-Pods, die zu DAG-Fehlern führen können.
Umgebungsstatus Eine Zeitachse, die den Zustand der Composer-Bereitstellung zeigt. Der grüne Status bedeutet nicht, dass alle Airflow-Komponenten betriebsbereit sind und DAGs ausgeführt werden konnten. Er spiegelt lediglich den Status der Composer-Bereitstellung wider.
Datenbankstatus Zeitachse, die den Status der Verbindung zur Composer-Cloud-SQL-Instanz anzeigt.
Webserverstatus Eine Zeitachse mit dem Status des Airflow-Webservers. Die Daten werden auf Grundlage der vom UI-Server zurückgegebenen HTTP-Statuscodes generiert.

Airflow-Komponenten

Airflow-Messwert Beschreibung
Planer-Heartbeat Eine Zeitachse, die anzeigt, wann der Airflow-Planer einen fehlerfreien Herzschlag lieferte (z. B., wann er reagierte). Suchen Sie nach roten Bereichen, um Probleme mit Airflow-Planern zu identifizieren.
Aktive Worker Ein Diagramm, das die Anzahl aktiver Worker im ausgewählten Zeitraum zeigt. Dies sollte standardmäßig der Anzahl der Knoten im Airflow-Cluster entsprechen, kann aber bei skalierter Umgebung größer werden. Wenn die Anzahl der aktiven Worker sinkt, kann dies auf Worker-Prozessfehler hinweisen (siehe Diagramm „Worker-Pod-Entfernungen“).
Bereinigte Worker-Pods1 Diagramm, das die Anzahl der GKE-Worker-Pod-Entfernungen im Zeitverlauf zeigt. Pod-Bereinigungen werden häufig durch erschöpfte GKE-Ressourcen verursacht. Weitere Informationen finden Sie im Diagramm zur CPU-/Speicherauslastung pro Knoten.
Zombie-Aufgaben gelöscht1 Ein Diagramm mit der Anzahl der Zombie-Aufgaben, die in einem kleinen Zeitfenster beendet wurden. Zombie-Aufgaben werden häufig durch die externe Beendigung von Airflow-Prozessen verursacht. Der Airflow-Planer beendet Zombieaufgaben regelmäßig, was in diesem Diagramm angezeigt werden sollte.

DAG-Ausführungen

DAG-Ausführungsmesswert Beschreibung
Erfolgreiche DAG-Ausführungen Die Gesamtzahl der erfolgreichen Ausführungen für alle DAGs in der Umgebung während des ausgewählten Zeitraums. Wenn diese Werte unter den erwarteten Niveau fallen, kann das auf Fehler (Fehlgeschlagene DAG-Ausführungen) oder auf ein Problem hinweisen.
Nicht erfolgreiche DAG-Ausführungen Gesamtzahl der nicht erfolgreiche Ausführungen für alle DAGs in der Umgebung im ausgewählten Zeitraum.
Fehlgeschlagene Aufgaben1 Die Gesamtzahl der Aufgaben, die im ausgewählten Zeitraum in der Umgebung fehlgeschlagen sind. Fehlgeschlagene Aufgaben führen nicht immer zu einem Fehler bei der Ausführung eines DAG. Sie können jedoch ein nützliches Signal für die Fehlerbehebung von DAG-Fehlern sein.
Abgeschlossene DAG-Ausführungen Balkendiagramm, das die Anzahl der erfolgreichen und fehlgeschlagenen DAG-Fehler im ausgewählten Zeitraum zeigt. Dies ist nützlich, um vorübergehende Probleme mit DAG-Ausführungen zu identifizieren und sie mit anderen Ereignissen zu korrelieren, z. B. Worker-Pod-Entfernungen.
Ausführungsdauer Median-DAG Diagramm, das die mittlere Dauer von DAG-Ausführungen zeigt, die innerhalb eines kleinen Zeitfensters abgeschlossen wurden. Mithilfe dieses Diagramms lassen sich Leistungsprobleme erkennen und Trends in der DAG-Dauer erkennen.
Erledigte Aufgaben1 Ein Diagramm, das die Anzahl der in einem kurzen Zeitfenster in der Umgebung ausgeführten Aufgaben zeigt und diese in erfolgreiche und fehlgeschlagene Aufgaben aufgeschlüsselt.
Laufende1 Aufgaben und Aufgaben in der Warteschlange Diagramm, das die Anzahl der laufenden und zu einer bestimmten Zeit ausgeführten Aufgaben in der Warteschlange anzeigt. Sehen Sie sich die Anzahl der Aufgaben in der Warteschlange an, um Leistungsengpässe oder übermäßige Lasten zu ermitteln. Die Warteschlange wird länger, wenn Aufgaben nicht sofort ausgeführt werden können. Sehen Sie sich die Anzahl der laufenden Aufgaben an, um Planungsprobleme zu erkennen. Wenn beispielsweise die Anzahl der laufenden Aufgaben deutlich sinkt, kann dies auf ein Planungsproblem hinweisen.
Größe der DAG-Bags1 Diagramm, das die Anzahl der DAGs zeigt, die in einem Cloud Storage-Bucket bereitgestellt und von Airflow zu einem bestimmten Zeitpunkt verarbeitet werden. Dies kann bei der Analyse von Leistungsengpässen hilfreich sein. Beispielsweise kann eine erhöhte Anzahl von DAG-Bereitstellungen die Leistung aufgrund einer übermäßigen Last beeinträchtigen.
Importfehler bei DAG-Dateien1 Diagramm, das die Anzahl der DAG-Parsing-Fehler in einem kleinen Zeitfenster zeigt. Auf diese Weise können Sie feststellen, wann beschädigte DAGs von Airflow verarbeitet wurden und auf Probleme im DAG-Quellcode verweisen.
Gesamte Parsingzeit für alle DAGs 1 Ein Diagramm mit der Gesamtzeit, die Airflow benötigt, um alle DAGs in der Umgebung zu verarbeiten. Eine längere Parsing-Zeit kann sich auf die Effizienz auswirken.

Unterschied zwischen DAG-Parsen und DAG-Ausführungszeit

Das Parsen eines DAG und das Planen von Aufgaben aus einem DAG für die Ausführung sind zwei separate Vorgänge, die vom Airflow-Planer ausgeführt werden:

Die DAG-Parsing-Zeit ist die Zeit, die der Airflow-Planer zum Lesen und Parsen einer DAG-Datei benötigt.

Damit der Airflow-Planer eine Aufgabe aus einem DAG planen kann, muss der Planer die DAG-Datei parsen, um die Struktur des DAG und die definierten Aufgaben zu erkennen. Nachdem die DAG-Datei geparst wurde, kann der Planer Aufgaben aus dem DAG planen.

DAG-Ausführungszeit ist die Summe aller Aufgabenausführungszeiten für einen DAG. Die im Lauf der Zeit dargestellte Airflow-Aufgabe über einen DAG imAirflow-Weboberfläche einen DAG aus und öffnen Sie dasDauer der Aufgabe Tabulator auf. Auf diesem Tab werden die Ausführungszeiten von Aufgaben für die angegebene Anzahl von DAG-Ausführungen angezeigt.

Im Monitoring-Dashboard einer Umgebung wird die Gesamtzeit angezeigt, die zum Parsen aller DAGs in Ihrer Cloud Composer-Umgebung erforderlich ist, sowie die durchschnittliche Zeit für die Ausführung eines DAG.

1 Verfügbar für Umgebungen mit Composer Version 1.10.0 oder höher und Airflow-Version 1.10.6 oder höher.