Puoi specificare se un'attività della pipeline deve essere rieseguita in caso di errore, a configurare i nuovi tentativi per quell'attività. Puoi impostare il numero di tentativi per eseguire nuovamente l'attività in caso di errore e il ritardo tra i tentativi successivi.
Utilizza il seguente esempio di codice per configurare il criterio di errore di un'attività della pipeline
chiamata train_op
utilizzando il metodo
set_retry
nell'SDK Kubeflow Pipelines:
from kfp import dsl
@dsl.pipeline(name='custom-container-pipeline')
def pipeline():
generate = generate_op()
train = (
train_op(
training_data=generate.outputs['training_data'],
test_data=generate.outputs['test_data'],
config_file=generate.outputs['config_file'])
.set_retry(
num_retries=NUMBER_OF_RETRIES,
backoff_duration='BACKOFF_DURATION',
backoff_factor=BACKOFF_FACTOR,
backoff_maxk_duration='BACKOFF_MAX_DURATION'
)
Sostituisci quanto segue:
NUMBER_OF_RETRIES: il numero di volte in cui è possibile riprovare a eseguire l'attività in caso di errore.
BACKOFF_DURATION: facoltativo. La durata del tempo di attesa dopo l'attività non riesce prima di riprovare. Se non imposti questo parametro, per impostazione predefinita la durata è impostata su
0s
.BACKOFF_FACTOR: facoltativo. Il fattore per cui viene moltiplicata la durata del backoff per ogni nuovo tentativo. Se non imposti questo parametro, il fattore di backoff è impostato su
2.0
per impostazione predefinita.BACKOFF_MAX_DURATION: facoltativo. La durata massima del backoff tra i tentativi successivi. Se non imposti questo parametro, la durata massima è impostata su
3600s
per impostazione predefinita.