Esegui il deployment delle pipeline ed eseguile

Questa pagina descrive le nozioni di base sul deployment e sull'esecuzione di pipeline in in Cloud Data Fusion.

Esegui il deployment delle pipeline

Dopo aver completato la progettazione e il debug di una pipeline di dati e dopo aver ottenuto i dati desiderati in Anteprima, puoi eseguire il deployment della pipeline.

Quando esegui il deployment della pipeline, Cloud Data Fusion Studio crea il flusso di lavoro e i job Apache Spark corrispondenti in background.

Esegui pipeline

Dopo aver eseguito il deployment di una pipeline, puoi eseguirla nei seguenti modi:

  • Per eseguire una pipeline on demand, apri una pipeline di cui è stato eseguito il deployment e fai clic su Esegui.
  • Per pianificare l'esecuzione della pipeline in un determinato momento, apri una pipeline di cui è stato eseguito il deployment e fai clic su Pianifica.
  • Per attivare la pipeline in base al completamento di un'altra pipeline, apri una pipeline di cui è stato eseguito il deployment e fai clic su Trigger in entrata.

Pipeline Studio salva la cronologia di una pipeline ogni volta che viene eseguita. Puoi consente di spostarsi tra le diverse versioni di runtime della pipeline.

Se la pipeline contiene macro, imposta gli argomenti di runtime per ogni macro. Tu può anche rivedere e modificare le configurazioni della pipeline prima di eseguire di cui è stato eseguito il deployment. Puoi vedere il cambiamento di stato durante tutte le fasi del dell'esecuzione di una pipeline, ad esempio Provisioning, In fase di avvio, In esecuzione Riuscito. Puoi anche arrestare la pipeline in qualsiasi momento.

Se abiliti la strumentazione, puoi esplorare le metriche generate pipeline facendo clic su Proprietà su qualsiasi nodo della pipeline, ad esempio di origine, trasformazione o sink.

Per saperne di più sulle esecuzioni della pipeline, fai clic su Riepilogo.

Visualizza i record di esecuzione

Puoi visualizzare il record di esecuzione al termine di una pipeline. Per impostazione predefinita, puoi visualizzare i record di esecuzione degli ultimi 30 giorni. Cloud Data Fusion li elimina al termine di questo periodo. Puoi estendere questo periodo utilizzando l'API REST.

API REST

Per conservare i record delle esecuzioni per più di 30 giorni, aggiorna app.run.records.ttl con il seguente comando:

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/PROJECT_NAME/locations/REGION_NAME/instances/INSTANCE_NAME?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "DAYS", "app.run.records.ttl.frequency.hours": "HOURS" } }'

Sostituisci quanto segue:

  • PROJECT_NAME: il nome del progetto Google Cloud
  • REGION_NAME: il campo dell'istanza Cloud Data Fusion regione, ad esempio us-east4
  • INSTANCE_NAME: l'ID dell'istanza Cloud Data Fusion
  • DAYS: quantità di tempo, in giorni, per la conservazione dell'esecuzione per le esecuzioni precedenti della pipeline, ad esempio 30.
  • HOURS: frequenza, in ore, per verificare ed eliminare i vecchi record di esecuzione, ad esempio 24.

Esempio:

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/project-1/locations/us-east4/instances/data-fusion-instance-1?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "30", "app.run.records.ttl.frequency.hours": "24" } }'

Passaggi successivi