Cloud Composer 3 | Cloud Composer 2 | Cloud Composer 1
Sie können Cloud Monitoring und Cloud Logging für Cloud Composer verwenden.
Mit Cloud Monitoring erhalten Sie Einblick in die Leistung, die Betriebszeit und die reibungslose Funktion cloudbasierter Anwendungen. Cloud Monitoring sammelt und erfasst Messwerte, Ereignisse und Metadaten aus Cloud Composer, um Informationen in Dashboards und Diagrammen zu generieren. Mit Cloud Monitoring können Sie die Leistung und den Status Ihrer Cloud Composer-Umgebungen sowie Airflow-Messwerte ermitteln.
Mit Logging werden die vom Planer und von den Worker-Containern im Cluster Ihrer Umgebung erstellten Logs erfasst. Diese Logs enthalten Informationen zu Komponenten auf Systemebene und zu Airflow-Abhängigkeiten, die bei der Fehlerbehebung helfen. Informationen zum Aufrufen von Logs finden Sie auf der Seite Airflow-Logs aufrufen.
Hinweise
Die folgenden Berechtigungen sind erforderlich, um auf Logs und Messwerte für Ihre Cloud Composer-Umgebung zuzugreifen:
- Schreibgeschützter Zugriff auf Logs und Messwerte:
logging.viewer
undmonitoring.viewer
- Lesezugriff auf Logs, einschließlich privater Logs:
logging.privateLogViewer
- Lese-/Schreibzugriff auf Messwerte:
monitoring.editor
Weitere Informationen zu anderen Berechtigungen und Rollen für Cloud Composer finden Sie unter Zugriffssteuerung.
- Schreibgeschützter Zugriff auf Logs und Messwerte:
Zur Vermeidung einer doppelten Logging-Aktivität ist Cloud Logging für Google Kubernetes Engine deaktiviert.
Cloud Logging generiert für jeden Status und jedes Ereignis in Ihrem Google Cloud -Projekt einen Eintrag. Mithilfe von Ausschlussfiltern können Sie das Logvolumen reduzieren. Dies gilt auch für die Logs, die Cloud Logging für Cloud Composer erstellt.
Umgebungsmesswerte
Mit Umgebungsmesswerten können Sie die Ressourcennutzung und den Zustand Ihrer Cloud Composer-Umgebungen prüfen.
Umgebungsstatus
Den Status Ihrer Umgebung können Sie mit folgendem Messwert prüfen:
Messwert | API |
---|---|
Gesundheit einer Umgebung |
composer.googleapis.com/environment/healthy |
Cloud Composer führt den Aktivitäts-DAG airflow_monitoring
nach einem Zeitplan aus und meldet den Umgebungsstatus folgendermaßen:
- Wenn die Ausführung des DAG für die Dienstbereitschaft erfolgreich abgeschlossen wurde, lautet der Systemstatus
True
. - Schlägt sie fehl, wird
False
angezeigt.
Der Aktivitäts-DAG wird im Ordner dags/
gespeichert und in der Airflow-Benutzeroberfläche angezeigt. Häufigkeit und Inhalt des Aktivitäts-DAG sind unveränderlich und dürfen nicht geändert werden. Änderungen am Aktivitäts-DAG werden nicht beibehalten.
Abhängigkeitsprüfungen der Umgebung
Cloud Composer prüft regelmäßig, ob die Umgebung die für ihren Betrieb erforderlichen Dienste erreichen kann und ob sie ausreichend Berechtigungen für die Interaktion mit ihnen hat. Beispiele für Dienste, die für den Betrieb der Umgebung erforderlich sind, sind Artifact Registry, Cloud Logging und Cloud Monitoring.
Für die Abhängigkeitsprüfungen der Umgebung sind die folgenden Messwerte verfügbar:
Messwert | API | Beschreibung |
---|---|---|
Anzahl der Abhängigkeitsprüfungen |
composer.googleapis.com/environment/health/dependency_check_count
|
Dieser Messwert gibt Aufschluss über die Häufigkeit, mit der Erreichbarkeitsüberprüfungen für Dienste durchgeführt werden, die für den Betrieb der Umgebung erforderlich sind. |
Anzahl der Prüfungen von Abhängigkeitsberechtigungen |
composer.googleapis.com/environment/health/dependency_permissions_check_count
|
Mit diesem Messwert wird erfasst, wie oft Berechtigungsprüfungen für Dienste durchgeführt werden, die für den Betrieb der Umgebung erforderlich sind. |
Datenbankstatus
Zum Prüfen des Status Ihrer Datenbank verwenden Sie folgenden Messwert für den Systemstatus: composer.googleapis.com/environment/database_health
.
Der Airflow-Monitoring-Pod kontaktiert die Datenbank jede Minute und meldet den Systemstatus als True
, wenn eine SQL-Verbindung hergestellt werden kann. Andernfalls wird False
ausgegeben.
Datenbankmesswerte
Folgenden Umgebungsmesswerte sind für die Airflow-Metadatendatenbank verfügbar, die von Cloud Composer-Umgebungen verwendet wird. Mit diesen Messwerten können Sie die Leistung und Ressourcennutzung der Datenbankinstanz Ihrer Umgebung überwachen.
Beispielsweise bietet es sich an, den Cloud SQL-Maschinentyp Ihrer Umgebung zu aktualisieren, wenn sich die Umgebung den Ressourcenlimits nähert. Sie können auch die Kosten im Zusammenhang mit der Nutzung von Airflow-Metadatendatenbanken durch eine Datenbankbereinigung optimieren, um den Speicher unter einem bestimmten Grenzwert zu halten.
Datenbankmesswert | API | Beschreibung |
---|---|---|
CPU-Nutzung der Datenbank |
composer.googleapis.com/environment/database/cpu/usage_time
|
|
Datenbank-CPU-Kerne |
composer.googleapis.com/environment/database/cpu/reserved_cores
|
|
CPU-Auslastung der Datenbank |
composer.googleapis.com/environment/database/cpu/utilization
|
|
Arbeitsspeichernutzung der Datenbank |
composer.googleapis.com/environment/database/memory/bytes_used
|
|
Arbeitsspeicherkontingent der Datenbank |
composer.googleapis.com/environment/database/memory/quota
|
|
Speichernutzung der Datenbank |
composer.googleapis.com/environment/database/memory/utilization
|
|
Datenträgerbelegung der Datenbank |
composer.googleapis.com/environment/database/disk/bytes_used
|
|
Laufwerkskontingent der Datenbank |
composer.googleapis.com/environment/database/disk/quota
|
|
Laufwerksauslastung der Datenbank |
composer.googleapis.com/environment/database/disk/utilization
|
|
Limit für Datenbankverbindungen |
composer.googleapis.com/environment/database/network/max_connections
|
|
Datenbankverbindungen |
composer.googleapis.com/environment/database/network/connections
|
|
Datenbank für Failover verfügbar |
composer.googleapis.com/environment/database/available_for_failover
|
Ist True , wenn die Cloud SQL-Instanz der Umgebung sich im Modus „Hochverfügbarkeit“ befindet und für ein Failover bereit ist. |
Anzahl der Anfragen für automatisches Datenbank-Failover |
composer.googleapis.com/environment/database/auto_failover_request_count
|
Gesamtzahl der automatischen Failover-Anfragen für die Cloud SQL-Instanz der Umgebung. |
Worker-Messwerte
Die folgenden Umgebungsmesswerte sind für Airflow-Worker in Cloud Composer 3- und Cloud Composer 2-Umgebungen verfügbar.
Mit diesem Messwert wird die Anzahl der Worker in Ihrer Umgebung automatisch skaliert. Der Horizontal Pod Autoscaler legt diesen Messwert fest. Die Umgebungskomponente Airflow Worker Set Controller verwendet diesen Messwert dann, um die Anzahl der Airflow-Worker je nach Wert dieses Messwerts zu erhöhen oder zu verringern.
Worker-Messwert | API |
---|---|
Ziel für Skalierungsfaktor |
composer.googleapis.com/environment/worker/scale_factor_target |
Planermesswerte
Name | API | Beschreibung |
---|---|---|
Aktive Planer |
composer.googleapis.com/environment/active_schedulers
|
Anzahl der aktiven Planerinstanzen. |
Triggermesswerte
Name | API | Beschreibung |
---|---|---|
Aktive Trigger |
composer.googleapis.com/environment/active_triggerers
|
Die Anzahl der aktiven Triggerinstanzen. |
Webservermesswerte
Folgende Umgebungsmesswerte sind für den Airflow-Webserver verfügbar, der von Cloud Composer-Umgebungen verwendet wird. Mit diesen Messwerten können Sie die Leistung und Ressourcennutzung der Airflow-Webserverinstanz Ihrer Umgebung prüfen.
Sie können beispielsweise den Maschinentyp des Webservers aktualisieren, wenn er sich ständig den Ressourcenlimits nähert.
Name | API | Beschreibung |
---|---|---|
Aktive Webserver |
composer.googleapis.com/environment/active_webservers
|
Anzahl der aktiven Webserverinstanzen. |
Webserver-CPU-Nutzung |
composer.googleapis.com/environment/web_server/cpu/usage_time
|
|
Webserver-CPU-Kontingent |
composer.googleapis.com/environment/web_server/cpu/reserved_cores
|
|
Webserver-Arbeitsspeichernutzung |
composer.googleapis.com/environment/web_server/memory/bytes_used
|
|
Webserver-Arbeitsspeicherkontingent |
composer.googleapis.com/environment/web_server/memory/quota
|
Kontingente für Dienste, die von der Umgebung verwendet werden
Cloud Composer nutzt weitere Google Cloud Dienste. Für diese Dienste gelten Kontingente auf Projektebene, die bei der Nutzung von Cloud Composer gelten.
In Cloud Composer 3 befindet sich der Cluster der Umgebung im Mandantenprojekt. Cloud Composer 3 bietet die folgenden Messwerte, die die Auslastung von Kontingenten und die entsprechenden Kontingentlimits für von Ihrer Umgebung verwendete Dienste im Kundenprojekt melden.
Messwert | API | Beschreibung |
---|---|---|
CPU-Kontingentlimit für Cloud Composer-Arbeitslasten |
composer.googleapis.com/environment/workloads_cpu_quota
|
(Nur Cloud Composer 3) Das CPU-Allokationskontingent der Compute Engine für die Gesamtzahl der virtuellen CPUs, die von einer Umgebung verwendet werden. Das Limit gilt pro Umgebung. Wenn Ihr Projekt mehrere Cloud Composer 3-Umgebungen hat, hat jede Umgebung ein eigenes Kontingentlimit. |
CPU-Kontingentnutzung für Cloud Composer-Arbeitslasten |
composer.googleapis.com/environment/workloads_cpu_quota_usage
|
(Nur Cloud Composer 3) Die Nutzung des Compute Engine-CPU-Allokationskontingents durch eine Umgebung. |
DAG-Messwerte
Mit den folgenden DAG-Messwerten können Sie die Effizienz der DAG-Ausführungen prüfen und Aufgaben ermitteln, die eine hohe Latenz verursachen.
DAG-Messwert | API |
---|---|
Anzahl der DAG-Ausführungen |
composer.googleapis.com/workflow/run_count |
Dauer der einzelnen DAG-Ausführungen |
composer.googleapis.com/workflow/run_duration |
Anzahl der Aufgabenausführungen |
composer.googleapis.com/workflow/task/run_count |
Dauer der einzelnen Aufgabenausführung |
composer.googleapis.com/workflow/task/run_duration |
Cloud Monitoring stellt nur die Messwerte für abgeschlossene Workflows und Aufgaben (als erfolgreich oder fehlgeschlagen) dar. No Data (Keine Daten) wird angezeigt, wenn keine Workflowaktivität vorhanden ist, oder für Workflow- und Aufgabenausführungen, die sich in Bearbeitung befinden.
Celery Executor-Messwerte
Die folgenden Celery Executor-Messwerte sind verfügbar. Mithilfe dieser Messwerte können Sie feststellen, ob in Ihrer Umgebung genügend Worker-Ressourcen vorhanden sind.
Celery Executor-Messwert | API |
---|---|
Anzahl der Aufgaben in der Warteschlange |
composer.googleapis.com/environment/task_queue_length |
Anzahl der Online-Celery-Worker |
composer.googleapis.com/environment/num_celery_workers |
Airflow-Messwerte
Die folgenden Airflow-Messwerte sind verfügbar. Diese Messwerte entsprechen den von Airflow bereitgestellten Messwerten.
Name | API | Name in Airflow | Beschreibung |
---|---|---|---|
Exit-Codes ungleich null von Celery-Aufgaben |
composer.googleapis.com/environment/celery/execute_command_failure_count
|
celery.execute_command.failure
|
Anzahl der Exit-Codes ungleich null aus Celery-Tasks. |
Zeitüberschreitungen beim Veröffentlichen von Celery-Aufgaben |
composer.googleapis.com/environment/celery/task_timeout_error_count
|
celery.task_timeout_error
|
Anzahl der AirflowTaskTimeout -Fehler, die beim Veröffentlichen der Task in Celery Broker aufgetreten sind. |
Dauer des Abrufens von serialisierten DAGs |
composer.googleapis.com/environment/collect_db_dag_duration
|
collect_db_dags
|
Zeit, die zum Abrufen aller serialisierten DAGs aus der Datenbank benötigt wird. |
Fehler beim Aktualisieren des DAG |
composer.googleapis.com/environment/dag_callback/exception_count
|
dag.callback_exceptions
|
Anzahl der von DAG-Callbacks ausgelösten Ausnahmen. In diesem Fall funktioniert ein DAG-Rückruf nicht. |
Fehler beim Aktualisieren des DAG |
composer.googleapis.com/environment/dag_file/refresh_error_count
|
dag_file_refresh_error
|
Anzahl der Fehler beim Laden von DAG-Dateien. |
Ladezeit der DAG-Datei |
composer.googleapis.com/environment/dag_processing/last_duration
|
dag_processing.last_duration.<dag_file>
|
Zeit, die zum Laden einer bestimmten DAG-Datei benötigt wird. |
Zeit seit der Verarbeitung der DAG-Datei |
composer.googleapis.com/environment/dag_processing/last_run_elapsed_time
|
dag_processing.last_run.seconds_ago.<dag_file>
|
Sekunden, seit eine DAG-Datei zuletzt verarbeitet wurde. |
Anzahl der Aussetzer von DagFileProcessorManager |
composer.googleapis.com/environment/dag_processing/manager_stall_count
|
dag_processing.manager_stalls
|
Anzahl der angehaltenen DagFileProcessorManager -Prozesse. |
Fehler beim DAG-Parsen |
composer.googleapis.com/environment/dag_processing/parse_error_count
|
dag_processing.import_errors
|
Anzahl der beim Parsen von DAG-Dateien generierten Fehler. |
DAG-Parsing-Prozesse ausführen |
composer.googleapis.com/environment/dag_processing/processes
|
dag_processing.processes
|
Anzahl der derzeit laufenden DAG-Parsing-Prozesse. |
Zeitüberschreitungen des Prozessors |
composer.googleapis.com/environment/dag_processing/processor_timeout_count
|
dag_processing.processor_timeouts
|
Anzahl der Dateiprozessoren, die aufgrund zu langer Laufzeit beendet wurden. |
Zeit, die zum Scannen und Importieren aller DAG-Dateien benötigt wird |
composer.googleapis.com/environment/dag_processing/total_parse_time
|
dag_processing.total_parse_time
|
Gesamtzeit, die zum Scannen und Importieren aller DAG-Dateien benötigt wird. |
Aktuelle Größe der DAG-Bags |
composer.googleapis.com/environment/dagbag_size
|
dagbag_size
|
Anzahl der DAGs, die gefunden wurden, als der Scheduler einen Scan basierend auf seiner Konfiguration ausgeführt hat. |
E-Mail-Benachrichtigungen bei nicht eingehaltener SLA-Frist |
composer.googleapis.com/environment/email/sla_notification_failure_count
|
sla_email_notification_failure
|
Anzahl der fehlgeschlagenen Versuche, eine E-Mail-Benachrichtigung zu senden, wenn ein SLA nicht eingehalten wurde. |
Offene Slots auf dem Executor |
composer.googleapis.com/environment/executor/open_slots
|
executor.open_slots
|
Anzahl der offenen Slots auf dem Executor. |
Aufgaben in der Warteschlange des Executors |
composer.googleapis.com/environment/executor/queued_tasks
|
executor.queued_tasks
|
Anzahl der Aufgaben in der Warteschlange des Executors. |
Aufgaben auf dem Executor ausführen |
composer.googleapis.com/environment/executor/running_tasks
|
executor.running_tasks
|
Anzahl der laufenden Aufgaben auf dem Executor. |
Erfolge/Fehler von Aufgabeninstanzen |
composer.googleapis.com/environment/finished_task_instance_count
|
ti_failures , ti_successes
|
Gesamtzahl der erfolgreichen/fehlgeschlagenen Aufgabeninstanzen. |
Gestartete/abgeschlossene Jobs |
composer.googleapis.com/environment/job/count
|
<job_name>_start , <job_name>_end
|
Anzahl der gestarteten/abgeschlossenen Jobs, z. B. SchedulerJob, LocalTaskJob. |
Fehler beim Job-Heartbeat |
composer.googleapis.com/environment/job/heartbeat_failure_count
|
<job_name>_heartbeat_failure
|
Anzahl der fehlgeschlagenen Heartbeats für einen Job. |
Pro Operator erstellte Aufgaben |
composer.googleapis.com/environment/operator/created_task_instance_count
|
task_instance_created-<operator_name>
|
Anzahl der Aufgabeninstanzen, die für einen bestimmten Operator erstellt wurden. |
Operatorausführungen |
composer.googleapis.com/environment/operator/finished_task_instance_count
|
operator_failures_<operator_name> , operator_successes_<operator_name>
|
Anzahl der abgeschlossenen Aufgabeninstanzen pro Operator |
Freie Slots im Pool |
composer.googleapis.com/environment/pool/open_slots
|
pool.open_slots.<pool_name>
|
Anzahl der freien Slots im Pool. |
Angestellte Slots im Pool |
composer.googleapis.com/environment/pool/queued_slots
|
pool.queued_slots.<pool_name>
|
Anzahl der Slots in der Warteschlange im Pool. |
Ausführbare Slots im Pool |
composer.googleapis.com/environment/pool/running_slots
|
pool.running_slots.<pool_name>
|
Anzahl der laufenden Slots im Pool. |
Aufgaben im Pool werden nicht ausgeführt |
composer.googleapis.com/environment/pool/starving_tasks
|
pool.starving_tasks.<pool_name>
|
Anzahl der Aufgaben im Pool, die auf Ressourcen warten. |
Zeit, die im kritischen Abschnitt des Schedulers verbracht wurde |
composer.googleapis.com/environment/scheduler/critical_section_duration
|
scheduler.critical_section_duration
|
Zeit, die im kritischen Abschnitt der Scheduler-Schleife verbracht wird. Diese Schleife kann jeweils nur von einem einzigen Scheduler betreten werden. |
Fehler bei der Sperrung kritischer Abschnitte |
composer.googleapis.com/environment/scheduler/critical_section_lock_failure_count
|
scheduler.critical_section_busy
|
Anzahl der Male, dass ein Scheduler-Prozess versucht hat, eine Sperre für den kritischen Abschnitt zu erhalten (erforderlich, um Aufgaben an den Executor zu senden), und festgestellt hat, dass er von einem anderen Prozess gesperrt wurde. |
Extern beendete Aufgaben |
composer.googleapis.com/environment/scheduler/task/externally_killed_count
|
scheduler.tasks.killed_externally
|
Anzahl der extern beendeten Aufgaben. |
Verwaiste Aufgaben |
composer.googleapis.com/environment/scheduler/task/orphan_count
|
scheduler.orphaned_tasks.cleared , scheduler.orphaned_tasks.adopted
|
Anzahl der verwaisten Aufgaben, die vom Scheduler gelöscht oder übernommen wurden. |
Ausgeführte/ausgehungerte/ausführbare Aufgaben |
composer.googleapis.com/environment/scheduler/tasks
|
scheduler.tasks.running , scheduler.tasks.starving , scheduler.tasks.executable
|
Anzahl der laufenden/ausstehenden/ausführbaren Aufgaben. |
Planer-Heartbeats |
composer.googleapis.com/environment/scheduler_heartbeat_count
|
scheduler_heartbeat
|
Planer-Heartbeats |
Benachrichtigungen zu fehlgeschlagenen SLA-Callback-Aufrufen |
composer.googleapis.com/environment/sla_callback_notification_failure_count
|
sla_callback_notification_failure
|
Anzahl der fehlgeschlagenen Versuche, eine Benachrichtigung zu senden, dass das SLA für den Rückruf nicht eingehalten wurde. |
Smart Sensor Poking-Ausnahmefehler |
composer.googleapis.com/environment/smart_sensor/exception_failures
|
smart_sensor_operator.exception_failures
|
Anzahl der Fehler, die durch eine Ausnahme in der vorherigen Smart-Sensor-Poke-Schleife verursacht wurden. |
Infrastrukturausfälle bei Smart Sensor Poking |
composer.googleapis.com/environment/smart_sensor/infra_failures
|
smart_sensor_operator.infra_failures
|
Anzahl der Infrastrukturfehler in der vorherigen Smart-Sensor-Poke-Schleife. |
Ausnahmen für das Poken von Smart-Sensoren |
composer.googleapis.com/environment/smart_sensor/poked_exception
|
smart_sensor_operator.poked_exception
|
Anzahl der Ausnahmen in der vorherigen Smart-Sensor-Poke-Schleife. |
Aufgaben wurden vom intelligenten Sensor erfolgreich angestoßen |
composer.googleapis.com/environment/smart_sensor/poked_success
|
smart_sensor_operator.poked_success
|
Anzahl der neu abgeschlossenen Aufgaben, die vom intelligenten Sensor in der vorherigen Poke-Schleife angestoßen wurden. |
Aufgaben, die durch intelligente Sensoren ausgelöst wurden |
composer.googleapis.com/environment/smart_sensor/poked_tasks
|
smart_sensor_operator.poked_tasks
|
Anzahl der Aufgaben, die vom intelligenten Sensor in der vorherigen Poke-Schleife angestoßen wurden. |
Zuvor erfolgreich ausgeführte Aufgabeninstanzen |
composer.googleapis.com/environment/task_instance/previously_succeeded_count
|
previously_succeeded
|
Anzahl der zuvor erfolgreich abgeschlossenen Taskinstanzen. |
Gelöschte Zombie-Aufgaben |
composer.googleapis.com/environment/zombie_task_killed_count
|
zombies_killed
|
Anzahl der beendeten Zombie-Aufgaben. |
Dauer der DAG-Ausführung |
composer.googleapis.com/workflow/dag/run_duration
|
dagrun.duration.success.<dag_id> , dagrun.duration.failed.<dag_id>
|
Zeit, die vergeht, bis ein DagRun den Status „Erfolgreich“ oder „Fehlgeschlagen“ erreicht. |
Dauer der DAG-Abhängigkeitsprüfung |
composer.googleapis.com/workflow/dependency_check_duration
|
dagrun.dependency-check.<dag_id>
|
Zeit, die für die Überprüfung von DAG-Abhängigkeiten benötigt wird. Dieser Messwert unterscheidet sich von den Messwerten für Abhängigkeits- und Berechtigungsprüfungen der Umgebung und gilt für DAGs. |
Verzögerung beim Zeitplan für die DAG-Ausführung |
composer.googleapis.com/workflow/schedule_delay
|
dagrun.schedule_delay.<dag_id>
|
Verzögerung zwischen dem geplanten Startdatum des DagRuns und dem tatsächlichen Startdatum des DagRuns. |
Erledigte Aufgaben |
composer.googleapis.com/workflow/task_instance/finished_count
|
ti.finish.<dag_id>.<task_id>.<state>
|
Anzahl der abgeschlossenen Aufgaben in einem bestimmten DAG. |
Dauer der Ausführung der Taskinstanz |
composer.googleapis.com/workflow/task_instance/run_duration
|
dag.<dag_id>.<task_id>.duration
|
Die Zeit, die zum Erledigen einer Aufgabe benötigt wird. |
Gestartete Aufgaben |
composer.googleapis.com/workflow/task_instance/started_count
|
ti.start.<dag_id>.<task_id>
|
Anzahl der gestarteten Aufgaben in einem bestimmten DAG. |
Wartezeit der Taskinstanz |
composer.googleapis.com/workflow/task_instance/queued_duration
|
dag.<dag_id>.<task_id>.queued_duration
|
Die Zeit, die eine Aufgabe im Status „In der Warteschlange“ verbringt, bevor sie in den Status „Wird ausgeführt“ wechselt. |
Aufgaben aus DAG entfernt |
composer.googleapis.com/workflow/task/removed_from_dag_count
|
task_removed_from_dag.<dag_id>
|
Anzahl der Aufgaben, die für einen bestimmten DAG entfernt wurden (d. h. die Aufgabe ist nicht mehr im DAG vorhanden). |
Aufgaben im DAG wiederhergestellt |
composer.googleapis.com/workflow/task/restored_to_dag_count
|
task_restored_to_dag.<dag_id>
|
Anzahl der Aufgaben, die für einen bestimmten DAG wiederhergestellt wurden. Das bedeutet, dass die Aufgabeninstanz, die zuvor in der Datenbank den Status „ENTFERNT“ hatte, der DAG-Datei hinzugefügt wird. |
Verzögerung bei der Aufgabenplanung |
composer.googleapis.com/workflow/task/schedule_delay
|
dagrun.schedule_delay.<dag_id>
|
Zeit, die zwischen dem Startdatum der ersten Aufgabe und dem erwarteten Start des Dag-Laufs verstrichen ist. |
Gesamtzahl der laufenden Trigger |
composer.googleapis.com/workload/triggerer/num_running_triggers
|
triggers.running
|
Die Anzahl der laufenden Trigger pro Trigger-Instanz. |
Blockierende Trigger |
composer.googleapis.com/environment/trigger/blocking_count
|
triggers.blocked_main_thread
|
Anzahl der Trigger, die den Hauptthread blockiert haben (wahrscheinlich aufgrund nicht vollständig asynchroner Ausführung). |
Fehlgeschlagene Trigger |
composer.googleapis.com/environment/trigger/failed_count
|
triggers.failed
|
Anzahl der Trigger, die fehlgeschlagen sind, bevor ein Ereignis ausgelöst werden konnte. |
Erfolgreiche Trigger |
composer.googleapis.com/environment/trigger/succeeded_count
|
triggers.succeeded
|
Anzahl der Trigger, die mindestens ein Ereignis ausgelöst haben. |
Monitoring für Cloud Composer-Umgebungen verwenden
Console
Im Metrics Explorer können Sie Messwerte zu Ihren Umgebungen und DAGs aufrufen:
Die Ressource Cloud Composer-Umgebung enthält Messwerte für Umgebungen.
Wenn Sie Messwerte für eine bestimmte Umgebung sehen möchten, filtern Sie die Messwerte nach dem Label
environment_name
. Sie können auch nach anderen Labels filtern, z. B. nach dem Standort oder der Bildversion der Umgebung.Die Ressource Cloud Composer-Workflow enthält Messwerte für DAGs.
Wenn Sie Messwerte für einen bestimmten DAG oder eine bestimmte Aufgabe sehen möchten, filtern Sie die Messwerte nach den Labels
workflow_name
undtask_name
. Sie können auch nach anderen Labels filtern, z. B. nach dem Aufgabenstatus oder dem Namen des Airflow-Bearbeiters.
API und gcloud
Sie können benutzerdefinierte Dashboards und Widgets über die Cloud Monitoring API und den Befehl gcloud monitoring dashboards
erstellen und verwalten. Weitere Informationen finden Sie unter Dashboards nach API verwalten.
Weitere Informationen zu Ressourcen, Messwerten und Filtern finden Sie in der Referenz für die Cloud Monitoring API:
Cloud Monitoring-Benachrichtigungen verwenden
Sie können Benachrichtigungsrichtlinien erstellen, um Messwerte zu beobachten und sich informieren zu lassen, wenn diese gegen eine Bedingung verstoßen.
-
Rufen Sie in der Google Cloud Console die Seite notifications Benachrichtigungen auf:
Wenn Sie diese Seite über die Suchleiste suchen, wählen Sie das Ergebnis aus, dessen Zwischenüberschrift Monitoring ist.
- Wenn Sie keine Benachrichtigungskanäle erstellt haben und Benachrichtigungen erhalten möchten, klicken Sie auf Benachrichtigungskanäle bearbeiten und fügen Sie Benachrichtigungskanäle hinzu. Kehren Sie nach dem Hinzufügen der Kanäle zur Seite Benachrichtigungen zurück.
- Klicken Sie auf der Seite Benachrichtigungen auf Richtlinie erstellen.
- Maximieren Sie zum Auswählen des Messwerts das Menü Messwert auswählen und gehen Sie dann so vor:
- Um das Menü auf relevante Einträge zu beschränken, geben Sie in die Filterleiste
Cloud Composer
ein. Wenn nach dem Filtern des Menüs keine Ergebnisse angezeigt werden, deaktivieren Sie die Option Nur aktive Ressourcen und Messwerte anzeigen. - Wählen Sie als Ressourcentyp Cloud Composer-Umgebung oder Cloud Composer-Workflow aus.
- Wählen Sie eine Messwertkategorie und einen Messwert aus und klicken Sie dann auf Übernehmen.
- Um das Menü auf relevante Einträge zu beschränken, geben Sie in die Filterleiste
- Klicken Sie auf Weiter.
- Die Einstellungen auf der Seite Benachrichtigungstrigger konfigurieren bestimmen, wann die Benachrichtigung ausgelöst wird. Wählen Sie einen Bedingungstyp aus und geben Sie ggf. einen Schwellenwert an. Weitere Informationen finden Sie unter Benachrichtigungsrichtlinien mit Messwertschwellen erstellen.
- Klicken Sie auf Weiter.
- Optional: Klicken Sie auf Benachrichtigungskanäle, um Benachrichtigungen zu Ihrer Benachrichtigungsrichtlinie hinzuzufügen. Wählen Sie im Dialogfeld einen oder mehrere Benachrichtigungskanäle aus dem Menü aus und klicken Sie dann auf OK.
- Optional: Aktualisieren Sie die Dauer bis zur automatischen Schließung von Vorfällen. Dieses Feld bestimmt, wann Monitoring Vorfälle ohne Messwertdaten schließt.
- Optional: Klicken Sie auf Dokumentation und geben Sie alle Informationen ein, die in einer Benachrichtigung angezeigt werden sollen.
- Klicken Sie auf Name der Benachrichtigung und geben Sie einen Namen für die Benachrichtigungsrichtlinie ein.
- Klicken Sie auf Richtlinie erstellen.