Cloud Composer 1 | Cloud Composer 2 | Cloud Composer 3
In questa pagina viene descritto come risolvere i problemi relativi a eseguite da KubernetesExecutor e fornisce soluzioni per che le applicazioni presentino problemi di prestazioni.
Approccio generale alla risoluzione dei problemi di KubernetesExecutor
Per risolvere i problemi relativi a un'attività eseguita con KubernetesExecutor, svolgi le seguenti azioni nell'ordine elencato:
Controlla i log dell'attività nella UI di DAG oppure UI di Airflow.
Controlla i log dello scheduler nella console Google Cloud:
Nella console Google Cloud, vai alla pagina Ambienti.
Nell'elenco degli ambienti, fai clic sul nome dell'ambiente. Viene visualizzata la pagina Dettagli dell'ambiente.
Vai alla scheda Log e controlla la sezione Log Airflow > Scheduler.
Per un determinato intervallo di tempo, controlla il pod di lavoro KubernetesExecutor che stava eseguendo l'attività. Se il pod non esiste più, salta questo passaggio. Il pod che contiene il prefisso
airflow-k8s-worker
e il nome di un DAG o di un'attività. Cerca eventuali problemi segnalati, ad esempio un'attività non riuscita o l'attività non pianificabili.
Scenari di risoluzione dei problemi comuni per KubernetesExecutor
Questa sezione elenca gli scenari di risoluzione dei problemi comuni che potresti riscontrare con KubernetesExecutor.
L'attività raggiunge lo stato Running
, quindi non va a buon fine durante l'esecuzione.
Sintomi:
- Nell'interfaccia utente di Airflow e nella scheda Log sono presenti i log dell'attività Sezione Worker.
Soluzione: i log delle attività indicano il problema.
L'istanza dell'attività passa allo stato queued
, quindi viene contrassegnata come UP_FOR_RETRY
o FAILED
dopo un po' di tempo.
Sintomi:
- Non sono presenti log per l'attività nell'interfaccia utente di Airflow e nella scheda Log della sezione Worker.
- Sono presenti i log nella scheda Log della sezione Scheduler con un
messaggio che indica che l'attività è contrassegnata come
UP_FOR_RETRY
oFAILED
. - Il pod
airflow-k8s-worker-*.*
con il nome del DAG/dell'attività all'interno del nome del pod ha lo statoFailed
/Pending
o non è presente.
Soluzione:
- Controlla i log dell'organizzatore per eventuali dettagli sul problema.
Cause possibili:
Se i log dello scheduler contengono il messaggio
Adopted tasks were still pending after...
seguito dall'istanza dell'attività stampata, verifica che CeleryKubernetesExecutor sia attivato nel tuo ambiente.
L'istanza dell'attività raggiunge lo stato Queued
e viene immediatamente contrassegnata come UP_FOR_RETRY
o FAILED
Sintomi:
- Non sono presenti log per l'attività nell'interfaccia utente di Airflow e nella scheda Log della sezione Worker.
- I log dell'utilità di pianificazione nella scheda Log della sezione Utilità di pianificazione contengono il messaggio
Pod creation failed with reason ... Failing task
e il messaggio che indica che l'attività è contrassegnata comeUP_FOR_RETRY
oFAILED
.
Soluzione:
- Controlla i log dello scheduler per la risposta esatta e il motivo dell'errore.
Possibile motivo:
Se il messaggio di errore è quantities must match the regular expression ...
,
è molto probabile che il problema sia causato da valori personalizzati impostati per le risorse k8s (richieste/limiti) dei pod di worker di attività.
Passaggi successivi
- Utilizza CeleryKubernetesExecutor
- Risoluzione dei problemi relativi alla pianificazione
- Risoluzione dei problemi dei DAG