Cloud Composer 1 | Cloud Composer 2 | Cloud Composer 3
Auf dieser Seite werden bekannte Cloud Composer-Probleme aufgeführt. Einige Fehlerkorrekturen werden für die Probleme behoben und sind in zukünftigen Versionen verfügbar.
Einige Probleme betreffen ältere Versionen und können durch ein Upgrade Ihrer Umgebung behoben werden.
Adressen außerhalb des RFC 1918-Bereichs werden für Pods und Dienste teilweise unterstützt
Cloud Composer ist von GKE abhängig, um Nicht-RFC 1918-Adressen für Pods und Dienste bereitzustellen. Derzeit wird in Cloud Composer nur die folgende Liste mit Nicht-RFC 1918-Bereichen unterstützt:
- 100.64.0.0/10
- 192.0.0.0/24
- 192.0.2.0/24
- 192.88.99.0/24
- 198.18.0.0/15
- 198.51.100.0/24
- 203.0.113.0/24
- 240.0.0.0/4
In der Airflow-Benutzeroberfläche werden keine Aufgabenlogs angezeigt, wenn sich die DAG-Serialisierung in Composer 1.10.2 und Composer 1.10.3 befindet
Durch Aktivieren der DAG-Serialisierung in Umgebungen mit Composer-Versionen 1.10.2 und 1.10.3 werden die Logs nicht im Airflow-Webserver angezeigt. Führen Sie zur Problembehebung ein Upgrade auf Version 1.10.4 oder höher durch.
Zeitweiliger Aufgabenfehler während der Planung in Cloud Composer
Das Problem tritt in einem Airflow-Scheduler für die Aufgabeninstanz während der Ausführung der Aufgabe auf. Die Protokolle erklären jedoch nicht die Ursache des Aufgabenfehlers und Airflow Worker und Airflow Scheduler sahen relativ gesund aus.
Die Fehlermeldung im Airflow-Scheduler sieht möglicherweise so aus:
Executor reports task instance <TaskInstance: xx.xxxx scheduled__2022-04-21T06:00:00+00:00 [queued]> finished (failed) although the task says its queued. (Info: None) Was the task killed externally?
Möglicherweise gibt es auch einen Fehler beim Airflow-Worker, der dem folgenden ähnelt:
Log file is not found: gs://$BUCKET_NAME/logs/$DAG_NAME/$TASK_NAME/2023-01-25T05:01:17.044759+00:00/1.log.
The task might not have been executed or worker executing it might have finished abnormally (e.g. was evicted).
Es wird dringend empfohlen, proaktiv geeignete Wiederholungsstrategien sowohl auf Aufgaben- als auch auf DAG-Ebene zu implementieren, um die Widerstandsfähigkeit gegen solche Fehler zu gewährleisten, die auf ein langjähriges Problem in Airflow zurückzuführen sind. Durch die Integration dieser Maßnahmen kann das System die Auswirkungen dieser Fehler effektiv mindern und so die Zuverlässigkeit und Robustheit des Workflows insgesamt verbessern.
GKE Workload Identity wird nicht unterstützt
Dieses Problem betrifft nur Cloud Composer 1-Umgebungen. Cloud Composer 2-Umgebungen verwenden Workload Identity.
Sie können Workload Identity für Cluster von Cloud Composer-Umgebungen nicht aktivieren. Daher sehen Sie möglicherweise
WORKLOAD_IDENTITY_DISABLED
Ergebnis in Security Command Center.
Während einer Aktualisierung hinzugefügte Umgebungslabels werden nicht vollständig übernommen
Aktualisierte Umgebungslabels werden nicht auf Compute Engine-VMs angewendet. Als Behelfslösung können diese Labels manuell angewendet werden.
GKE-Upgrades im Zusammenhang mit Problem CVE-2020-14386
Wir arbeiten an der Behebung der Sicherheitslücke CVE-2020-14386 für alle Cloud Composer-Umgebungen. Im Rahmen des werden alle vorhandenen GKE-Cluster von Cloud Composer auf eine neuere Version.
Kunden, die die Sicherheitslücke sofort beheben möchten, können das Upgrade der Composer-GKE-Cluster mit dieser Anleitung unter Berücksichtigung folgender Überlegungen durchführen:
Schritt 1: Wenn Sie eine Cloud Composer-Version vor Version 1.7.2 ausführen, führen Sie ein Upgrade auf eine neuere Version von Cloud Composer durch. Wenn Sie bereits Version 1.7.2 oder höher haben, fahren Sie mit dem nächsten Punkt fort.
Schritt 2: Aktualisieren Sie die GKE-Cluster (Master und Knoten) auf die neueste 1.15-Patch-Version, die den Fehlerbehebung für diese Sicherheitslücke enthält.
Airflow-Aufgabenlogs sind im Airflow-Webserver nach einem Upgrade von Airflow 1.9.0 auf Airflow 1.10.x nicht verfügbar.
In Airflow 1.10.x wurden nicht abwärtskompatible Änderungen an der Namenskonvention für Logdateien vorgenommen. In den Lognamen für Airflow-Aufgaben werden jetzt Zoneninformationen eingefügt.
Airflow 1.9.0 speichert und erwartet, dass die Log-Namen das folgende Format haben:BUCKET/logs/DAG/2020-03-30T10:29:06/1.log
Airflow 1.10.x speichert und erwartet, dass die Log-Namen das folgende Format haben:BUCKET/logs/DAG/2020-03-30T10:29:06+00:00/1.log
Wenn Sie ein Upgrade von Airflow 1.9.0 auf Airflow 1.10.x durchführen und das Log für eine mit Airflow 1.9.0 ausgeführte Aufgabe lesen möchten, zeigt der Airflow-Webserver die folgende Fehlermeldung an: Unable to read remote log from BUCKET/logs/DAG/2020-03-30T10:29:06+00:00/1.log
Problemumgehung: Benennen Sie die von Airflow 1.9.0 im Cloud Storage-Bucket generierten Logs in folgendem Format um: BUCKET/logs/DAG/2020-03-30T10:29:06+00:00/1.log
Es können keine Cloud Composer-Umgebungen mit der erzwungenen Organisationsrichtlinieneinschränkung /compute.disableSerialPortLogging erstellt werden
Wird constraints/compute.disableSerialPortLogging
für das Zielprojekt erzwungen, so schlägt die Erstellung der Cloud Composer-Umgebung fehl.
Diagnose
So ermitteln Sie, ob Sie von diesem Problem betroffen sind:
Rufen Sie in der Google Cloud Console das GKE-Menü auf. Zum GKE-Menü
Wählen Sie anschließend den neu erstellten Cluster aus. Suchen Sie nach folgendem Fehler:
Not all instances running in IGM after 123.45s.
Expect <number of desired instances in IGM>. Current errors:
Constraint constraints/compute.disableSerialPortLogging violated for
project <target project number>.
Problemumgehungen:
Deaktivieren Sie die Organisationsrichtlinie für das Projekt, in dem die Cloud Composer-Umgebung erstellt werden soll.
Eine Organisationsrichtlinie kann jederzeit auf Projektebene deaktiviert werden, auch wenn sie von den übergeordneten Ressourcen (Organisation oder Ordner) aktiviert ist. Weitere Informationen finden Sie auf der Seite Richtlinien für boolesche Einschränkungen anpassen.
Ausschlussfilter verwenden
Durch Verwendung eines Ausschlussfilters für serielle Portlogs wird das gleiche Ziel wie das Deaktivieren der Organisationsrichtlinie verwendet, da es in Logging serielle Konsolenlogs gibt. Weitere Informationen finden Sie auf der Seite Ausschlussfilter.
Deployment Manager zum Verwalten von Google Cloud-Ressourcen verwenden, die durch VPC Service Controls geschützt sind
Composer verwendet Deployment Manager, um Komponenten von Cloud Composer-Umgebungen zu erstellen.
Im Dezember 2020 haben Sie möglicherweise Informationen erhalten, die Sie unter Umständen zur Konfiguration weiterer VPC Service Controls-Ressourcen benötigen, um Deployment Manager zum Verwalten von Ressourcen zu verwenden, die durch VPC Service Controls geschützt sind.
Wir möchten Sie darüber informieren, dass von Ihrer Seite aus keine Aktion erforderlich ist, falls Sie Composer nutzen und nicht direkt Deployment Manager nutzen, um in der Ankündigung von Deployment Manager erwähnte Google Cloud-Ressourcen zu verwalten.
Eine Umgebung kann nicht gelöscht werden, nachdem der GKE-Cluster gelöscht wurde.
Wenn Sie den Cluster der Umgebung vor der Umgebung selbst löschen, führt der Versuch, die Umgebung zu löschen, zu folgendem Fehler:
Got error "" during CP_DEPLOYMENT_DELETING [Rerunning Task. ]
So löschen Sie eine Umgebung, wenn der GKE-Cluster bereits gelöscht ist:
Öffnen Sie in der Google Cloud Console die Seite Deployment Manager.
Alle mit Labels gekennzeichneten Bereitstellungen suchen:
goog-composer-environment:<environment-name>
goog-composer-location:<environment-location>
.
Sie sollten zwei Bereitstellungen sehen, die mit den beschriebenen Labels gekennzeichnet sind:
- Eine Bereitstellung mit dem Namen
<environment-location>-<environment-name-prefix>-<hash>-sd
- Eine Bereitstellung mit dem Namen
addons-<uuid>
Löschen Sie Ressourcen, die noch in diesen beiden Bereitstellungen aufgeführt und im Projekt vorhanden sind (z. B. Pub/Sub-Themen und -Abos). Anleitung:
Wählen Sie die Bereitstellungen aus.
Klicken Sie auf Löschen.
Wählen Sie die Option Zwei Bereitstellungen und alle von ihnen erstellten Ressourcen löschen, z. B. VMs, Load-Balancer und Laufwerke, und klicken Sie auf Alle löschen.
Der Löschvorgang schlägt fehl, die verbleibenden Ressourcen werden jedoch gelöscht.
Löschen Sie die Bereitstellungen mit einer der folgenden Optionen:
Wählen Sie in der Google Cloud Console beide Bereitstellungen noch einmal aus. Klicken Sie auf Löschen und wählen Sie die Option Zwei Bereitstellungen löschen, aber die von ihnen erstellten Ressourcen beibehalten aus.
Führen Sie einen gcloud-Befehl aus, um die Bereitstellungen mit der Richtlinie
ABANDON
zu löschen:gcloud deployment-manager deployments delete addons-<uuid> \ --delete-policy=ABANDON gcloud deployment-manager deployments delete <location>-<env-name-prefix>-<hash>-sd \ --delete-policy=ABANDON
Deployment Manager zeigt Informationen zu einer nicht unterstützten Funktion an.
Im Tab „Deployment Manager“ kann die folgende Warnung angezeigt werden:
The deployment uses actions, which are an unsupported feature. We recommend
that you avoid using actions.
Bei Bereitstellungen von Deployment Manager, die Cloud Composer gehören, können Sie diese Warnung ignorieren.
Warnungen zu doppelten Einträgen der Aufgabe „echo“, die zum DAG „echo-airflow_monitoring“ gehört.
In den Airflow-Logs wird möglicherweise der folgende Eintrag angezeigt:
in _query db.query(q) File "/opt/python3.6/lib/python3.6/site-packages/MySQLdb/
connections.py", line 280, in query _mysql.connection.query(self, query)
_mysql_exceptions.IntegrityError: (1062, "Duplicate entry
'echo-airflow_monitoring-2020-10-20 15:59:40.000000' for key 'PRIMARY'")
Sie können diese Logeinträge ignorieren, da dieser Fehler keine Auswirkungen auf den Airflow-DAG und die Aufgabenverarbeitung hat.
Wir arbeiten an der Verbesserung des Cloud Composer-Dienstes, um diese Warnungen aus Airflow-Logs zu entfernen.
Das Erstellen der Umgebung schlägt in Projekten mit Identity-Aware Proxy APIs fehl, die dem VPC Service Controls-Perimeter hinzugefügt wurden
In Projekten mit aktiviertem VPC Service Controls
Das cloud-airflow-prod@system.gserviceaccount.com
-Konto erfordert eine explizite
Zugriff in Ihrem Sicherheitsperimeter, um Umgebungen zu erstellen.
Sie haben folgende Möglichkeiten, Umgebungen zu erstellen:
Fügen Sie dem Sicherheitsperimeter nicht die Cloud Identity-Aware Proxy API und die Identity-Aware Proxy TCP API hinzu.
Fügen Sie das Dienstkonto
cloud-airflow-prod@system.gserviceaccount.com
hinzu als Mitglied Ihres Sicherheitsperimeters indem Sie die folgende Konfiguration in der YAML-Bedingungsdatei verwenden:- members: - serviceAccount:cloud-airflow-prod@system.gserviceaccount.com
Wird die Richtlinie compute.requireOsLogin
aktiviert, so schlägt die Erstellung der Cloud Composer 1-Umgebung fehl.
Wenn die Richtlinie compute.requireOsLogin
in Ihrem Projekt auf true
gesetzt ist, schlägt das Erstellen der Cloud Composer 1-Umgebung fehl.
Deaktivieren Sie diese Richtlinie in Ihrem Projekt, um Cloud Composer 1-Umgebungen zu erstellen.
Weitere Informationen zu dieser Organisationsrichtlinie finden Sie unter Einschränkungen für Organisationsrichtlinien.
Das Erstellen oder Upgrade der Cloud Composer-Umgebung schlägt fehl, wenn compute.vmExternalIpAccess
deaktiviert ist
Cloud Composer-eigene GKE-Cluster, die im Modus für öffentliche IP-Adressen konfiguriert sind, erfordern eine externe Verbindung für ihre VMs. Aus diesem Grund kann die Erstellung von VMs mit externen IP-Adressen in der Richtlinie compute.vmExternalIpAccess
nicht verboten werden. Weitere Informationen zu dieser Organisationsrichtlinie finden Sie unter Einschränkungen für Organisationsrichtlinien.
Wenn die Richtlinie compute.vmCanIpForward
deaktiviert ist, schlägt das Erstellen der Cloud Composer-Umgebung fehl.
In Cloud Composer 1-Umgebungen, die im Modus nicht VPC-nativ (mit Alias-IP) erstellt werden, ist diese Richtlinie erforderlich, um das Erstellen von VMs mit der aktivierten Funktion "IP-Weiterleitung" zu ermöglichen. Weitere Informationen zu dieser Organisationsrichtlinie finden Sie unter Einschränkungen für Organisationsrichtlinien.
Der erste DAG wird für eine hochgeladene DAG-Datei mit mehreren fehlgeschlagenen Aufgaben ausgeführt.
Wenn Sie eine DAG-Datei hochladen, schlagen manchmal die ersten Aufgaben des ersten DAG mit dem Fehler Unable to read remote log...
fehl. Dieses Problem tritt auf, weil die DAG-Datei zwischen dem Bucket Ihrer Umgebung, den Airflow-Workern und den Airflow-Planern Ihrer Umgebung synchronisiert wird. Diese Synchronisierungen werden unabhängig voneinander durchgeführt. Wenn der Planer die DAG-Datei abruft und plant, sie von einem Worker ausgeführt zu werden, und wenn der Worker noch nicht die DAG-Datei hat, schlägt die Aufgabenausführung fehl.
Als Behelfslösung können Airflow-2-Umgebungen in Cloud Composer 1.17.0-preview.9 und höhere Versionen standardmäßig so konfiguriert werden, dass zwei Wiederholungen für eine fehlgeschlagene Aufgabe ausgeführt werden. Wenn eine Aufgabe fehlschlägt, wird sie zweimal mit Intervallen von 5 Minuten wiederholt.
So verwenden Sie die Problemumgehung in Problem 1: Überschreiben Sie die core-default_task_retries
Airflow-Konfigurationsoption und legen Sie sie auf eine Zahl größer oder gleich 2
fest.
Aufgabe schlägt mit „OSError: [Errno 5] Input/output error“ in Airflow 1.10.15 oder früheren Versionen fehl
Ein Programmfehler in Airflow-1-Versionen führt dazu, dass in einigen seltenen Fällen Aufgaben zweimal in die Redis-Warteschlange gestellt werden.
Manchmal kann dies zu einer Race-Bedingung in der Logdatei und einem nachfolgenden Aufgabenfehler führen. Aufgaben schlagen mit OSError: [Errno 5] Input/output error
in Cloud Logging und Task is in the 'running' state which is not a valid state for execution.
im Aufgabenversuchslog fehl.
Dieser Fehler wurde in Airflow 2 behoben. Wenn dieses Problem in Airflow 1 bei einer lang andauernden Aufgabe auftritt, erhöhen Sie den Wert der Airflow-Konfigurationsoption [celery_broker_transport_options]visibility_timeout
(Standardwert ist 604800
für Composer 1.17.0, 21600
für ältere Umgebungen). Erwägen Sie bei kurz laufenden Aufgaben, zusätzliche Wiederholungen zu den betroffenen Aufgaben hinzuzufügen oder Ihre Umgebung zu Airflow 2 zu migrieren.
Dataproc/Dataflow-Operatoren schlagen mit Negsignal.SIGSEGV
fehl.
Dies ist ein vorübergehendes Problem der grcpio
-Bibliothek, wenn sie von einem Celery-Worker verwendet wird. Dieses Problem betrifft Airflow-Versionen ab 1.10.14.
Das Problem lässt sich dadurch umgehen, dass Sie die Abfragestrategie grpcio
ändern. Dazu fügen Sie der Umgebung die folgende Umgebungsvariable hinzu: GRPC_POLL_STRATEGY=epoll1
. Diese Problemumgehung wurde bereits in Cloud Composer 1.17.1 und höheren Versionen angewendet.
Hinweise zur Einstellung der Unterstützung für verworfene Beta APIs aus GKE-Versionen
Cloud Composer verwaltet zugrunde liegende Cloud Composer-Cluster. Sofern Sie diese APIs nicht explizit in Ihren DAGs und Ihrem Code verwenden, können Sie Ankündigungen zu verworfenen GKE APIs ignorieren. Cloud Composer übernimmt bei Bedarf alle Migrationen.
GKE-Upgrades im Zusammenhang mit Sicherheitsproblemen mit CVE-2021-25741
Alle GKE-Cluster von Cloud Composer werden automatisch auf neuere GKE-Versionen aktualisiert, wobei die in CVE-2021-25741 beschriebenen Probleme behoben werden.
Wenn Sie diese Sicherheitslücke sofort beheben möchten, führen Sie ein Upgrade des GKE-Clusters Ihrer Umgebung durch. Folgen Sie dazu der Anleitung zum Upgrade eines Clusters.
Wenn Sie eine Cloud Composer 1-Umgebung und GKE-Version 1.18.x oder früher haben, aktualisieren Sie auf 1.18.20-gke.4501.
Wenn Sie eine Cloud Composer 1-Umgebung und GKE-Version 1.19.x haben, führen Sie ein Upgrade auf 1.19.14-gke.301 durch.
Wenn Sie eine Cloud Composer 2-Umgebung und GKE-Version 1.21.x haben, führen Sie ein Upgrade auf 1.21.4-gke.301 durch.
Cloud Composer sollte nicht von der Apache Log4j 2-Sicherheitslücke (CVE-2021-44228) betroffen sein
Als Reaktion auf die Apache Log4j 2-Sicherheitslücke (CVE-2021-44228) Cloud Composer hat eine detaillierte Untersuchung durchgeführt Wir sind der Meinung, dass Cloud Composer nicht anfällig für dieses Exploit ist.
Bei Airflow-Workern oder Planern können Probleme beim Zugriff auf den Cloud Storage-Bucket der Umgebung auftreten.
Cloud Composer verwendet gcsfuse, um auf den Ordner /data
im Bucket der Umgebung zuzugreifen und Airflow-Aufgabenprotokolle im Verzeichnis /logs
zu speichern (falls aktiviert). Wenn gcsfuse überlastet oder der Bucket der Umgebung nicht verfügbar ist,
können Instanzen von Airflow-Aufgaben ausfallen
Transport endpoint is not connected
Fehler in Airflow-Logs.
Lösungen:
- Deaktivieren Sie das Speichern von Protokollen im Bucket der Umgebung. Diese Option ist standardmäßig deaktiviert, wenn eine Umgebung erstellt wird mit Cloud Composer 2.8.0 oder höher.
- Führen Sie ein Upgrade auf Cloud Composer 2.8.0 oder höher durch.
- Reduzieren Sie
[celery]worker_concurrency
und erhöhen Sie stattdessen die Anzahl der Airflow-Worker. - Reduzieren Sie die Anzahl der im DAG-Code erstellten Logs.
- Befolgen Sie die Empfehlungen und Best Practices für DAGs implementieren und Aufgabenwiederholungen ermöglichen.
Die Airflow-Benutzeroberfläche lädt ein Plug-in manchmal nicht neu, nachdem es geändert wurde.
Besteht ein Plug-in aus vielen Dateien, die andere Module importieren, Die Airflow-UI erkennt möglicherweise nicht, dass ein Plug-in neu geladen. In diesem Fall muss der Airflow-Webserver neu gestartet werden. Dazu können Sie eine Umgebungsvariable hinzufügen oder PYPI-Abhängigkeiten installieren oder deinstallieren. Sie können auch den Airflow-Webserver neu starten.
Zeitweilige Probleme bei der Kommunikation mit der Airflow-Metadatendatenbank
Dieses bekannte Problem betrifft nur Cloud Composer 1.
Einige ältere Cloud Composer 1-Umgebungen (1.16.3 oder älter), die vor dem Am 12. August 2021 treten möglicherweise vorübergehende Probleme bei der Kommunikation mit Airflow-Metadatendatenbanken.
Wenn dieses Problem auftritt, sehen Sie in den Airflow-Aufgabenlogs folgende Fehlermeldung:
"Can't connect to MySQL server on 'airflow-sqlproxy-service.default.svc.cluster.local' (104)"
Das Cloud Composer-Team arbeitet an der Lösung dieses Problems. In der Zwischenzeit Wenn du glaubst, dass du stark von diesem Problem betroffen bist, kannst du Folgendes tun: um sie zu beseitigen:
- Rufen Sie in der Google Cloud Console die Seite Umgebungskonfiguration auf. der betroffenen Cloud Composer-Umgebungen.
- Folgen Sie dem Link Clusterdetails ansehen, um zwischen zum zugrunde liegenden GKE-Cluster der Umgebung.
Wechseln Sie zum Tab Knoten und klicken Sie im Abschnitt Knotenpools auf den Standardpool.
Klicken Sie oben auf der Seite auf Bearbeiten.
Ändern Sie den Image-Typ in Container-Optimized OS mit containerd und speichern Sie die Konfiguration wie unten gezeigt.
Nachdem die Änderung gesendet wurde, wird der default-pool-Knotenpool neu konfiguriert um "containerd" als Containerlaufzeit zu verwenden. Einige Ihrer Airflow-Aufgaben schlagen möglicherweise fehl, während der Knotenpool neu konfiguriert wird. Wenn für diese Aufgaben Wiederholungen konfiguriert sind, nach Abschluss des Vorgangs noch einmal von Airflow ausgeführt.
Der Cluster der Umgebung hat Arbeitslasten im Status „Nicht planbar“
Dieses bekannte Problem tritt nur bei Cloud Composer 2 auf.
In Cloud Composer 2 bleiben nach dem Erstellen einer Umgebung mehrere Arbeitslasten im Cluster der Umgebung im Status „Nicht planbar“.
Wenn eine Umgebung skaliert wird, werden neue Worker-Pods erstellt und Kubernetes versucht, sie auszuführen. Wenn keine freien Ressourcen zum Ausführen verfügbar sind, werden die Worker-Pods als Nicht planbar.
In diesem Fall fügt der Cluster Autoscaler weitere Knoten hinzu, was einige Minuten dauert. Bis dahin bleiben die Pods im Status „Nicht planbar“ und es werden keine Aufgaben ausgeführt.
Nicht planbare DaemonSet-Arbeitslasten mit den Namen composer-gcsfuse
und composer-fluentd
, die nicht auf Knoten gestartet werden können, auf denen keine Airflow-Komponenten vorhanden sind, wirken sich nicht auf Ihre Umgebung aus.
Wenn das Problem länger als eine Stunde andauert, können Sie die Cluster Autoscaler-Protokolle prüfen. Sie finden sie in der Log-Anzeige mit dem folgenden Filter:
resource.type="k8s_cluster"
logName="projects/<project-name>/logs/container.googleapis.com%2Fcluster-autoscaler-visibility"
resource.labels.cluster_name="<cluster-name>"
Es enthält Informationen zu Entscheidungen, die von Cluster Autoscaler getroffen wurden. Maximieren Sie alle „noDecisionStatus“, um den Grund zu sehen, warum der Cluster nicht hoch- oder herunterskaliert werden kann.
Fehler 504 beim Zugriff auf die Airflow-Benutzeroberfläche
Der Fehler 504 Gateway Timeout
kann beim Zugriff auf die Airflow-Benutzeroberfläche auftreten. Dieser Fehler kann mehrere Ursachen haben:
- Vorübergehendes Kommunikationsproblem. Versuchen Sie in diesem Fall, später auf die Airflow-Benutzeroberfläche zuzugreifen. Sie können auch Starten Sie den Airflow-Webserver neu.
- (Nur Cloud Composer 2) Verbindungsproblem. Wenn Airflow-UI dauerhaft verfügbar ist
nicht verfügbar ist und Zeitüberschreitungs- oder 504-Fehler auftreten, vergewissern Sie sich,
Umgebung kann auf
*.composer.cloud.google.com
zugreifen. Wenn Sie Privater Google-Zugriff und Traffic weiterleitenprivate.googleapis.com
Virtuelle IP-Adressen oder VPC Service Controls und Traffic überrestricted.googleapis.com
virtuelle IP-Adressen senden, achten Sie darauf, ist Ihr Cloud DNS auch für*.composer.cloud.google.com
Domainnamen. - Der Airflow-Webserver reagiert nicht. Wenn der Fehler 504 weiterhin auftritt, Sie aber zu bestimmten Zeiten weiterhin auf die Airflow-Benutzeroberfläche zugreifen können, reagiert der Airflow-Webserver möglicherweise nicht, weil er überlastet ist. Versuchen Sie, die Skalierungs- und Leistungsparameter zu erhöhen, des Webservers.
Fehler 502 beim Zugriff auf die Airflow-UI
Der Fehler 502 Internal server exception
gibt an, dass die Airflow-Benutzeroberfläche keine eingehenden Anfragen bedienen kann. Dieser Fehler kann mehrere Ursachen haben:
Vorübergehendes Kommunikationsproblem. Versuchen Sie später noch einmal, auf die Airflow-UI zuzugreifen.
Der Webserver konnte nicht gestartet werden. Damit der Webserver gestartet werden kann, müssen zuerst die Konfigurationsdateien synchronisiert werden. Webserverprotokolle auf Logeinträge, die etwa so aussehen:
GCS sync exited with 1: gcloud storage cp gs://<bucket-name>/airflow.cfg /home/airflow/gcs/airflow.cfg.tmp
oderGCS sync exited with 1: gcloud storage cp gs://<bucket-name>/env_var.json.cfg /home/airflow/gcs/env_var.json.tmp
. Wenn Sie diese Fehler sehen, prüfen Sie, ob die in den Fehlermeldungen genannten Dateien noch im Bucket der Umgebung vorhanden sind.Bei versehentlichem Entfernen (z. B. weil eine Aufbewahrungsrichtlinie konfiguriert wurde) können Sie sie so wiederherstellen:
Legen Sie eine neue Umgebungsvariable in Ihrer Umgebung fest. Sie können einen beliebigen Variablennamen und -wert verwenden.
Airflow-Konfigurationsoption überschreiben. Sie können eine nicht vorhandene Airflow-Konfigurationsoption.
Die Airflow-Benutzeroberfläche in Airflow 2.2.3 oder niedriger ist anfällig für CVE-2021-45229
Wie in CVE-2021-45229 erwähnt,
den „DAG mit Konfiguration auslösen“ Bildschirm war anfällig für XSS-Angriffe
origin
zurück.
Empfehlung: Führen Sie ein Upgrade auf die neueste Cloud Composer-Version durch. die Airflow 2.2.5 unterstützt.
Worker benötigen mehr Arbeitsspeicher als in früheren Airflow-Versionen
Symptome:
In Ihrer Cloud Composer 2-Umgebung werden alle Clusterarbeitslasten Airflow-Worker haben den Status
CrashLoopBackOff
und werden nicht ausgeführt Aufgaben. Sie können auchOOMKilling
Warnungen sehen, die generiert werden, wenn Sie die von diesem Problem betroffen sind.Dieses Problem kann Umgebungsupgrades verhindern.
Ursache:
- Wenn Sie einen benutzerdefinierten Wert für die
[celery]worker_concurrency
Airflow die Konfigurationsoption und die benutzerdefinierten Arbeitsspeichereinstellungen für Airflow-Worker kann dieses Problem auftreten, wenn der Ressourcenverbrauch den Grenzwert erreicht. - Die Speicheranforderungen von Airflow-Workern in Airflow 2.6.3 mit Python 3.11 sind 10 % höher als bei Workern in früheren Versionen.
- Der Arbeitsspeicherbedarf von Airflow-Workern liegt in Airflow 2.3 und höher bei 30% im Vergleich zu den Workern in Airflow 2.2 oder Airflow 2.1.
Lösungen:
- Entfernen Sie die Überschreibung für
worker_concurrency
, damit Cloud Composer diesen Wert automatisch berechnet. - Wenn Sie einen benutzerdefinierten Wert für
worker_concurrency
verwenden, legen Sie einen niedrigeren Wert fest. Sie können die automatisch berechneter Wert als Ausgangspunkt. - Alternativ können Sie den für Airflow verfügbaren Arbeitsspeicher erhöhen Arbeiter.
- Wenn Sie Ihre Umgebung aufgrund dieses Problems nicht auf eine neuere Version aktualisieren können, wenden Sie vor dem Upgrade eine der vorgeschlagenen Lösungen an.
DAG-Triggerung über private Netzwerke mit Cloud Run-Funktionen
Zum Auslösen von DAGs mit Cloud Run-Funktionen über private Netzwerke unter Verwendung von Der VPC-Connector wird von Cloud Composer nicht unterstützt.
Empfehlung: Verwenden Sie Cloud Run-Funktionen, um Nachrichten in Pub/Sub zu veröffentlichen. Solche Ereignisse können Pub/Sub-Sensoren aktivieren, um Airflow-DAGs auszulösen, oder einen Ansatz auf der Grundlage von verschiebbaren Operatoren implementieren.
Problem mit gcloud composer-Befehlen in Version 410.0.0
In der 410.0.0 Version von gcloud verwenden, führen Sie die folgenden Cloud Composer-Befehle aus:
gcloud composer environments run
gcloud composer environments list-packages
einen Fehlercode ungleich null zurückgeben und folgende Fehlermeldung anzeigen:
(ERROR: gcloud crashed (TypeError): 'NoneType' object is not callable)
Dieses Verhalten tritt zusätzlich zur regulären Ausgabe auf, die durch die gcloud-Befehle generiert wird, und hat keine Auswirkungen auf ihre Funktionalität.
Wenn sich dieses Problem nicht auf Ihre Abläufe auswirkt, können Sie die Version 410.0.0 weiterhin verwenden und die falsche Fehlermeldung ignorieren. Wenn Sie Version 410.0.0 verwenden müssen und den gcloud-Befehl programmatisch nutzen, implementieren Sie eine zusätzliche Logik, um Fehlercode ungleich null und Informationen zum Fehler-Stacktrace in der Ausgabe zu ignorieren. Im Abschnitt „Lösung“ finden Sie weitere Behelfslösungen.
Lösung
- Führen Sie kein Upgrade auf die Version 410.0.0 durch. Sie verwenden Version 409.0.0 oder eine frühere Version.
- Wenn Sie bereits ein Upgrade durchgeführt haben, führen Sie ein Downgrade auf eine vorherige Version durch (z. B. 409.0.0). Weitere Informationen finden Sie unter Versionierte Archive verwenden.
Leere Ordner im Scheduler und in den Workern
Cloud Composer entfernt leere Ordner nicht aktiv aus Airflow-Workern und -Planern. Solche Entitäten werden möglicherweise Bucket-Synchronisierungsprozess, wenn diese Ordner im Bucket vorhanden waren und wurden schließlich entfernt.
Empfehlung: Passen Sie Ihre DAGs so an, dass sie solch leere DAGs überspringen können. Ordner.
Solche Entitäten werden schließlich aus den lokalen Speichern von Airflow-Planern entfernt. und Workern hinzugefügt, wenn diese Komponenten neu gestartet werden (z.B. aufgrund von Betriebs- oder Wartungsvorgänge im Cloud Composer-Cluster).
Unterstützung für Kerberos
Cloud Composer unterstützt noch keine Airflow-Kerberos-Konfiguration.
Unterstützung für Computing-Klassen in Cloud Composer 2
Cloud Composer 2 unterstützt nur die Allzweck-Rechenklasse. Das bedeutet, dass das Ausführen von Pods, die andere Compute-Klassen anfordern (z. B. Balanced oder Scale-Out), nicht möglich ist.
Mit der Klasse general-purpose können Pods mit bis zu 110 GB Arbeitsspeicher und bis zu 30 CPUs ausgeführt werden (wie unter Maximale Anforderungen an Compute-Klassen beschrieben).
Wenn Sie eine ARM-basierte Architektur verwenden oder mehr CPU und Arbeitsspeicher benötigen, müssen Sie eine andere Compute-Klasse verwenden, die in Cloud Composer 2-Clustern nicht unterstützt wird.
Empfehlung: Verwenden Sie GKEStartPodOperator
, um Kubernetes-Pods in einem anderen Cluster auszuführen, der die ausgewählte Compute-Klasse unterstützt. Wenn Sie benutzerdefinierte Pods ausführen, für die eine andere Compute-Klasse erforderlich ist, müssen sie auch in einem Cluster ausgeführt werden, der nicht zu Cloud Composer 2 gehört.
Unterstützung für Google Campaign Manager 360-Operatoren
Google Campaign Manager-Operatoren in früheren Cloud Composer-Versionen als in Version 2.1.13 basieren, basieren auf der Campaign Manager 360 v3.5 API, die eingestellt wurde. und das Datum endet am 1. Mai 2023.
Wenn Sie Google Campaign Manager-Operatoren verwenden, führen Sie ein Upgrade Ihrer Umgebung auf Cloud Composer Version 2.1.13 oder höher durch.
Unterstützung für Google Display & Video 360-Operatoren
Google Display & Video 360-Operatoren in Cloud Composer-Versionen Versionen vor 2.1.13 basieren auf der Display & Video 360 v1.1 API, die und das Ablaufdatum ist der 27. April 2023.
Wenn Sie Google Display & Video 360-Operatoren verwenden, führen Sie ein Upgrade Ihrer Umgebung auf Cloud Composer Version 2.1.13 oder höher durch. Außerdem müssen Sie möglicherweise Ihre DAGs ändern, da einige der Google Display & Video 360-Operatoren eingestellt und durch neue ersetzt werden.
GoogleDisplayVideo360CreateReportOperator
ist jetzt eingestellt. StattdessenGoogleDisplayVideo360CreateQueryOperator
verwenden. Dieser Operator gibtquery_id
anstelle vonreport_id
zurück.GoogleDisplayVideo360RunReportOperator
ist jetzt eingestellt. Verwenden Sie stattdessenGoogleDisplayVideo360RunQueryOperator
. Dieser Operator gibtquery_id
undreport_id
anstelle von nurreport_id
zurück und erfordertquery_id
anstelle vonreport_id
als Parameter.- Mit dem neuen Sensor
GoogleDisplayVideo360RunQuerySensor
, der die Parameterquery_id
undreport_id
verwendet, können Sie prüfen, ob ein Bericht verfügbar ist. Das verworfeneGoogleDisplayVideo360ReportSensor
Sensor nurreport_id
erforderlich. - Für
GoogleDisplayVideo360DownloadReportV2Operator
sind jetzt sowohl derquery_id
- als auch derreport_id
-Parameter erforderlich. - In
GoogleDisplayVideo360DeleteReportOperator
gibt es keine Änderungen, die auf Ihre DAGs auswirken kann.
Einschränkungen für den Namen des sekundären Bereichs
CVE-2023-29247 (Detailseite der Aufgabeninstanz in der Benutzeroberfläche ist anfällig für gespeicherte XSS.)
Die Airflow-Benutzeroberfläche in Airflow-Versionen von 2.0.x bis 2.5.x ist anfällig für CVE-2023-29247.
Wenn Sie eine frühere Version von Cloud Composer als Version 2.4.2 verwenden und wenn Sie vermuten, dass Ihre Umgebung anfällig für den Exploit ist, lesen Sie die folgende Beschreibung und mögliche Lösungen.
In Cloud Composer wird der Zugriff auf die Airflow-Benutzeroberfläche mit IAM und der Zugriffssteuerung der Airflow-Benutzeroberfläche geschützt.
Um die Airflow-UI-Sicherheitslücke auszunutzen, müssen Sie sich zunächst Zugriff auf Ihr Projekt sowie IAM-Berechtigungen und -Rollen
Lösung:
Prüfen Sie die IAM-Berechtigungen und -Rollen in Ihrem Projekt, einschließlich Einzelnen Nutzern zugewiesene Cloud Composer-Rollen. Achten Sie darauf, dass nur genehmigte Nutzer auf die Airflow-UI zugreifen können.
Überprüfen Sie die Rollen, die Nutzern über die Zugriffssteuerung für Airflow-UI Dies ist ein separater Mechanismus, der eine präzisere Zugriffssteuerung ermöglicht. an die Airflow-UI). Achten Sie darauf, dass nur genehmigte Nutzer auf die Airflow-Benutzeroberfläche zugreifen können und dass alle neuen Nutzer mit einer geeigneten Rolle registriert sind.
Sie können die Sicherheit mit VPC Service Controls weiter erhöhen.
Der Airflow-Monitoring-DAG der Cloud Composer 2-Umgebung wird nach dem Löschen nicht neu erstellt
Der Airflow-Monitoring-DAG wird nicht automatisch neu erstellt, wenn er vom Nutzer gelöscht oder in Composer-Umgebungen mit composer-2.1.4-airflow-2.4.3 aus dem Bucket verschoben wird.
Lösung:
- Dieses Problem wurde in neueren Versionen wie composer-2.4.2-airflow-2.5.3 behoben. Wir empfehlen, Ihre Umgebung auf eine neuere Version zu aktualisieren.
- Eine alternative oder vorübergehende Problemumgehung für ein Umgebungsupgrade wäre, den DAG „airflow_monitoring“ aus einer anderen Umgebung mit derselben Version zu kopieren.
Upgradevorgänge können fehlschlagen, wenn Sentry aktiviert ist
Das Upgrade einer Cloud Composer-Umgebung kann fehlschlagen, wenn Sie Sentry in Ihrer Umgebung konfiguriert und die [sentry]sentry_on
-Einstellung auf true
festgelegt haben.
Lösung:
- Deaktivieren Sie Sentry in Ihrer Umgebung, führen Sie das Upgrade durch und konfigurieren Sie Noch einmal Sentry.
Es ist nicht möglich, den Cloud SQL-Speicher zu reduzieren
Cloud Composer verwendet Cloud SQL, um die Airflow-Datenbank auszuführen. Drüber kann der Speicherplatz für die Cloud SQL-Instanz zunehmen, wird vertikal für die von Cloud SQL-Vorgängen gespeicherten Daten skaliert, wenn Airflow-Datenbank wächst.
Es ist nicht möglich, die Cloud SQL-Laufwerksgröße herunterzuskalieren.
Als Behelfslösung, wenn Sie das kleinste Cloud SQL-Laufwerk verwenden möchten können Sie Cloud Composer-Umgebungen mit Snapshots.
Messwert zur Laufwerksnutzung der Datenbank wird nach dem Entfernen von Einträgen aus Cloud SQL nicht verkleinert
Relationale Datenbanken wie Postgres oder MySQL entfernen Zeilen nicht physisch, wenn gelöscht oder aktualisiert werden. Stattdessen werden sie als „tote Tupel“ gekennzeichnet, um die Datenkonsistenz aufrechtzuerhalten und das Blockieren gleichzeitiger Transaktionen zu vermeiden.
Sowohl MySQL als auch Postgres implementieren Mechanismen zur Wiederherstellung von Speicherplatz nach dem Löschen von Einträgen.
Es ist zwar möglich, die Datenbank zu zwingen, nicht verwendeten Speicherplatz zurückzufordern, aber dies ist ein ressourcenintensiver Vorgang, der die Datenbank zusätzlich sperrt und Cloud Composer nicht verfügbar macht. Daher wird empfohlen, die Gebäudemechanismen zu verwenden, um den nicht verwendeten Speicherplatz wiederherzustellen.
Zugriff blockiert: Autorisierungsfehler
Wenn dieses Problem einen Nutzer betrifft,
Das Dialogfeld Zugriff blockiert: Autorisierungsfehler enthält
Error 400: admin_policy_enforced
-Nachricht.
Wenn die API-Steuerung > Nicht konfigurierte Drittanbieter-Apps > Option Nutzer dürfen nicht auf Drittanbieter-Apps zugreifen ist in Google Workspace und Apache Airflow in Die Cloud Composer-Anwendung ist nicht explizit erlaubt, Nutzer können Folgendes nicht tun: Auf die Airflow-UI zugreifen, es sei denn, die Anwendung wird explizit zugelassen.
Um Zugriff zu gewähren, folgen Sie den Schritten unter Zugriff auf die Airflow-UI in Google Workspace gewähren
Aufgabeninstanzen, die in der Vergangenheit erfolgreich waren und als FEHLGESCHLAGEN markiert wurden
In einigen Fällen und seltenen Szenarien können Airflow-Aufgabeninstanzen, die in der Vergangenheit erfolgreich waren, als FAILED
markiert werden.
In der Regel wird sie entweder durch eine Umgebungsaktualisierung oder ein Upgrade oder durch eine GKE-Wartung ausgelöst.
Hinweis:Das Problem selbst weist nicht auf ein Problem in der Umgebung und führt dies zu keinen tatsächlichen Fehlern bei der Aufgabenausführung.
Das Problem wurde in Cloud Composer Version 2.6.5 oder höher behoben.
Airflow-Komponenten haben Probleme bei der Kommunikation mit anderen Teilen der Cloud Composer-Konfiguration
In sehr seltenen Fällen kann die langsame Kommunikation mit dem Compute Engine-Metadatenserver dazu führen, dass Airflow-Komponenten nicht optimal funktionieren. Wenn z. B. der Airflow-Planer neu gestartet wird, müssen Airflow-Aufgaben möglicherweise oder die Startzeit von Aufgaben kann länger sein.
Symptome:
Die folgenden Fehler werden in den Logs von Airflow-Komponenten wie Airflow-Planern, Workern oder dem Webserver angezeigt:
Authentication failed using Compute Engine authentication due to unavailable metadata server
Compute Engine Metadata server unavailable on attempt 1 of 3. Reason: timed out
...
Compute Engine Metadata server unavailable on attempt 2 of 3. Reason: timed out
...
Compute Engine Metadata server unavailable on attempt 3 of 3. Reason: timed out
Lösung
Legen Sie die folgende Umgebungsvariable fest: GCE_METADATA_TIMEOUT=30
.
Der Ordner „/data“ ist auf dem Airflow-Webserver nicht verfügbar
In Cloud Composer 2 ist der Airflow-Webserver größtenteils schreibgeschützt
Komponente und Cloud Composer synchronisiert den Ordner data/
nicht
zu dieser Komponente hinzufügen.
Manchmal möchten Sie gemeinsame Dateien für alle Airflow-Daten freigeben, einschließlich des Airflow-Webservers.
Lösung
Verpacken Sie die Dateien, die für den Webserver freigegeben werden sollen, in ein PYPI-Modul und ein normales PYPI-Paket. Nach der Installation des PYPI-Moduls in der Umgebung werden die Dateien den Airflow-Images hinzugefügt. Komponenten und zur Verfügung stehen.
Fügen Sie dem Ordner „
plugins/
“ Dateien hinzu. Dieser Ordner wird mit dem Airflow-Webserver synchronisiert.
Nicht kontinuierliche DAG-Parsing-Zeiten und Diagramme zur Größe der DAG-Bags im Monitoring
Nicht kontinuierliche DAG-Parsingzeiten und Diagramme zur Größe der DAG-Bags im Monitoring-Dashboard weisen auf Probleme mit langen DAG-Parsingzeiten (mehr als 5 Minuten) hin.
Lösung: Wir empfehlen, die Gesamtzeit für die DAG-Analyse unter 5 Minuten zu halten. Um die DAG-Parsingzeit zu verkürzen, folgen Sie den Richtlinien zum Schreiben von DAGs.
Aufgabenlogs werden verzögert angezeigt
Dieses bekannte Problem tritt bei Cloud Composer 3 auf.
Symptom:
- In Cloud Composer 3 werden Airflow-Task-Logs nicht sofort angezeigt, sondern mit einer Verzögerung von einigen Minuten.
Ursache:
Wenn in Ihrer Umgebung eine große Anzahl von Aufgaben gleichzeitig ausgeführt wird, kann es zu Verzögerungen bei den Aufgabenprotokollen kommen, da die Infrastruktur der Umgebung nicht ausreicht, um alle Protokolle schnell genug zu verarbeiten.
Lösungen:
- Erwägen Sie, die Infrastruktur der Umgebung zu vergrößern, die Leistung.
- DAG-Ausführungen über einen bestimmten Zeitraum verteilen, sodass Aufgaben nicht zur selben Zeit ausgeführt werden .
Nächste Schritte
- Fehlerbehebung beim Erstellen der Umgebung
- Fehlerbehebung bei DAGs
- Fehlerbehebung bei Airflow Scheduler-Problemen