Risoluzione dei problemi delle attività di KubernetesExecutor

Cloud Composer 1 | Cloud Composer 2 | Cloud Composer 3

In questa pagina viene descritto come risolvere i problemi relativi a eseguite da KubernetesExecutor e fornisce soluzioni per che le applicazioni presentino problemi di prestazioni.

Approccio generale alla risoluzione dei problemi di KubernetesExecutor

Per risolvere i problemi relativi a un'attività eseguita con KubernetesExecutor, svolgi le seguenti azioni nell'ordine elencato:

  1. Controlla i log dell'attività nella UI di DAG oppure UI di Airflow.

  2. Controlla i log dello scheduler nella console Google Cloud:

    1. Nella console Google Cloud, vai alla pagina Ambienti.

      Vai ad Ambienti

    2. Nell'elenco degli ambienti, fai clic sul nome dell'ambiente. Viene visualizzata la pagina Dettagli dell'ambiente.

    3. Vai alla scheda Log e controlla la sezione Log Airflow > Scheduler.

    4. Per un determinato intervallo di tempo, controlla il pod di lavoro KubernetesExecutor che stava eseguendo l'attività. Se il pod non esiste più, salta questo passaggio. Il pod che contiene il prefisso airflow-k8s-worker e il nome di un DAG o di un'attività. Cerca eventuali problemi segnalati, ad esempio un'attività non riuscita o l'attività non pianificabili.

Scenari di risoluzione dei problemi comuni per KubernetesExecutor

Questa sezione elenca gli scenari di risoluzione dei problemi comuni che potresti riscontrare con KubernetesExecutor.

L'attività raggiunge lo stato Running, quindi non va a buon fine durante l'esecuzione.

Sintomi:

  • Nell'interfaccia utente di Airflow e nella scheda Log sono presenti i log dell'attività Sezione Worker.

Soluzione: i log delle attività indicano il problema.

L'istanza dell'attività passa allo stato queued, quindi viene contrassegnata come UP_FOR_RETRY o FAILED dopo un po' di tempo.

Sintomi:

  • Non sono presenti log per l'attività nell'interfaccia utente di Airflow e nella scheda Log della sezione Worker.
  • Sono presenti i log nella scheda Log della sezione Scheduler con un messaggio che indica che l'attività è contrassegnata come UP_FOR_RETRY o FAILED.
  • Il pod airflow-k8s-worker-*.* con il nome del DAG/dell'attività all'interno del nome del pod ha lo stato Failed/Pending o non è presente.

Soluzione:

  1. Controlla i log dell'organizzatore per eventuali dettagli sul problema.

Cause possibili:

  • Se i log dello scheduler contengono il messaggio Adopted tasks were still pending after... seguito dall'istanza dell'attività stampata, verifica che CeleryKubernetesExecutor sia attivato nel tuo ambiente.

L'istanza dell'attività raggiunge lo stato Queued e viene immediatamente contrassegnata come UP_FOR_RETRY o FAILED

Sintomi:

  • Non sono presenti log per l'attività nell'interfaccia utente di Airflow e nella scheda Log della sezione Worker.
  • I log dell'utilità di pianificazione nella scheda Log della sezione Utilità di pianificazione contengono il messaggio Pod creation failed with reason ... Failing task e il messaggio che indica che l'attività è contrassegnata come UP_FOR_RETRY o FAILED.

Soluzione:

  • Controlla i log dello scheduler per la risposta esatta e il motivo dell'errore.

Possibile motivo:

Se il messaggio di errore è quantities must match the regular expression ..., è molto probabile che il problema sia causato da valori personalizzati impostati per le risorse k8s (richieste/limiti) dei pod di worker di attività.

Passaggi successivi