Risoluzione dei problemi delle attività di KubernetesExecutor

Cloud Composer 1 | Cloud Composer 2 | Cloud Composer 3

In questa pagina viene descritto come risolvere i problemi relativi a eseguite da KubernetesExecutor e fornisce soluzioni per che le applicazioni presentino problemi di prestazioni.

Approccio generale alla risoluzione dei problemi di KubernetesExecutor

Per risolvere i problemi relativi a un'attività eseguita con KubernetesExecutor, procedi nel seguente modo: le seguenti azioni nell'ordine elencato:

  1. Controlla i log dell'attività nella UI di DAG oppure UI di Airflow.

  2. Controlla i log dello scheduler nella console Google Cloud:

    1. Nella console Google Cloud, vai alla pagina Ambienti.

      Vai ad Ambienti

    2. Nell'elenco degli ambienti, fai clic sul nome dell'ambiente. Si apre la pagina Dettagli ambiente.

    3. Vai alla scheda Log e controlla Log di Airflow > Pianificazione.

    4. Per un determinato intervallo di tempo, ispeziona il pod worker KubernetesExecutor che è stato eseguendo l'attività. Se il pod non esiste più, salta questo passaggio. Il pod che contiene il prefisso airflow-k8s-worker e il nome di un DAG o di un'attività. Cerca eventuali problemi segnalati, ad esempio un'attività non riuscita o l'attività non pianificabili.

Scenari di risoluzione dei problemi comuni per KubernetesExecutor

Questa sezione elenca gli scenari di risoluzione dei problemi comuni che potresti riscontrare con KubernetesExecutor.

L'attività passa allo stato Running e non riesce durante l'esecuzione.

Sintomi:

  • Nell'interfaccia utente di Airflow e nella scheda Log sono presenti i log dell'attività Sezione Worker.

Soluzione: i log delle attività indicano il problema.

L'istanza dell'attività passa allo stato queued, quindi viene contrassegnata come UP_FOR_RETRY o FAILED dopo un po' di tempo.

Sintomi:

  • Non ci sono log per l'attività nella UI di Airflow e nella scheda Log della Sezione Worker.
  • Sono presenti i log nella scheda Log della sezione Scheduler con un messaggio che indica che l'attività è contrassegnata come UP_FOR_RETRY o FAILED.
  • Il pod airflow-k8s-worker-*.* con il nome di DAG/attività all'interno del nome del pod ha lo stato Failed/Pending o è assente.

Soluzione:

  1. Controlla i log dello scheduler per individuare eventuali dettagli del problema.

Cause possibili:

  • Se i log dello scheduler contengono Adopted tasks were still pending after... messaggio seguito dal stampata, controlla che CeleryKubernetesExecutor sia abilitato nel tuo ambiente.

L'istanza dell'attività passa allo stato Queued e viene immediatamente contrassegnata come UP_FOR_RETRY o FAILED

Sintomi:

  • Non esistono log per l'attività nella UI di Airflow e nella scheda Log in nella sezione Worker.
  • I log dello scheduler nella scheda Log della sezione Scheduler hanno il messaggio Pod creation failed with reason ... Failing task e messaggio che indica che l'attività è contrassegnata come UP_FOR_RETRY o FAILED.

Soluzione:

  • Controlla nei log dello scheduler la risposta esatta e il motivo dell'errore.

Possibile motivo:

Se il messaggio di errore è quantities must match the regular expression ..., è molto probabile che il problema sia causato da valori personalizzati impostati per k8s. (richieste/limiti) dei pod dei worker delle attività.

Passaggi successivi