Fehlerbehebung bei KubernetesExecutor-Aufgaben

Cloud Composer 1 | Cloud Composer 2 | Cloud Composer 3

Auf dieser Seite wird beschrieben, wie Sie Probleme mit von KubernetesExecutor ausgeführten Aufgaben beheben. Außerdem finden Sie Lösungen für häufige Probleme.

Allgemeiner Ansatz zur Fehlerbehebung bei KubernetesExecutor

Führen Sie die folgenden Schritte in der angegebenen Reihenfolge aus, um Probleme mit einer Aufgabe zu beheben, die mit KubernetesExecutor ausgeführt wird:

  1. Prüfen Sie die Logs der Aufgabe in der DAG-UI oder Airflow-UI

  2. Prüfen Sie die Planerlogs in der Google Cloud Console:

    1. Rufen Sie in der Google Cloud Console die Seite Umgebungen auf.

      Zur Seite Umgebungen

    2. Klicken Sie in der Liste der Umgebungen auf den Namen Ihrer Umgebung. Die Seite Umgebungsdetails wird geöffnet.

    3. Rufen Sie den Tab Logs auf und sehen Sie sich die Airflow-Logs an > Planer.

    4. Prüfen Sie für einen bestimmten Zeitraum den KubernetesExecutor-Worker-Pod, der die Ausführung der Aufgabe. Wenn der Pod nicht mehr vorhanden ist, überspringen Sie diesen Schritt. Der Pod das Präfix airflow-k8s-worker und einen DAG oder einen Aufgabennamen im Namen enthält. Suchen Sie nach gemeldeten Problemen, z. B. nach einer fehlgeschlagenen Aufgabe oder der Aufgabe, die nicht planbar.

Häufige Fehlerbehebungsszenarien für KubernetesExecutor

In diesem Abschnitt werden häufige Szenarien zur Fehlerbehebung aufgeführt, die bei KubernetesExecutor auftreten können.

Die Aufgabe wechselt in den Status Running und schlägt dann während der Ausführung fehl.

Symptome:

  • Logs für die Aufgabe finden Sie in der Airflow-Benutzeroberfläche und auf dem Tab Logs im Bereich Worker.

Lösung: Das Problem wird in den Aufgabenprotokollen angezeigt.

Die Aufgabeninstanz erhält den Status queued und wird nach einiger Zeit als UP_FOR_RETRY oder FAILED markiert.

Symptome:

  • In der Airflow-UI und auf dem Tab Logs in der Abschnitt Worker.
  • Auf dem Tab Logs im Abschnitt Scheduler sind Logs mit einem dass die Aufgabe als UP_FOR_RETRY oder FAILED markiert ist.
  • Den Pod airflow-k8s-worker-*.* mit dem Namen eines DAG/einer Aufgabe innerhalb des Namens des Pods hat den Status Failed/Pending oder er ist nicht vorhanden.

Lösung:

  1. Prüfen Sie die Planerlogs auf Details des Problems.

Mögliche Ursachen:

  • Wenn die Scheduler-Protokolle die Meldung Adopted tasks were still pending after... gefolgt von der ausgedruckten Aufgabeninstanz enthalten, prüfen Sie, ob CeleryKubernetesExecutor in Ihrer Umgebung aktiviert ist.

Die Aufgabeninstanz wechselt in den Status Queued und wird sofort als UP_FOR_RETRY oder FAILED markiert

Symptome:

  • In der Airflow-Benutzeroberfläche und auf dem Tab Logs im Bereich Workers sind keine Logs für die Aufgabe vorhanden.
  • Die Logs des Schedulers auf dem Tab Protokolle im Bereich Scheduler enthalten die Nachricht Pod creation failed with reason ... Failing task und die Nachricht, dass die Aufgabe als UP_FOR_RETRY oder FAILED gekennzeichnet ist.

Lösung:

  • Suchen Sie in den Planerlogs nach der genauen Antwort- und Fehlerursache.

Mögliche Ursache:

Wenn die Fehlermeldung quantities must match the regular expression ... lautet, wird das Problem höchstwahrscheinlich durch benutzerdefinierte Werte für k8s verursacht. Ressourcen (Anfragen/Limits) von Aufgaben-Worker-Pods.

Nächste Schritte