Esegui il deployment e l'esecuzione delle pipeline

Questa pagina descrive le nozioni di base sul deployment e sull'esecuzione delle pipeline in Cloud Data Fusion.

Esegui il deployment delle pipeline

Dopo aver completato la progettazione e il debug di una pipeline di dati e dopo aver ottenuto i dati desiderati in Anteprima, puoi eseguire il deployment della pipeline.

Quando esegui il deployment della pipeline, Cloud Data Fusion Studio crea il flusso di lavoro e i job Apache Spark corrispondenti in background.

Esegui pipeline

Dopo aver eseguito il deployment di una pipeline, puoi eseguirla nei seguenti modi:

  • Per eseguire una pipeline on demand, apri una pipeline di cui è stato eseguito il deployment e fai clic su Esegui.
  • Per pianificare l'esecuzione della pipeline in un determinato momento, apri una pipeline di cui è stato eseguito il deployment e fai clic su Pianifica.
  • Per attivare la pipeline in base al completamento di un'altra pipeline, apri una pipeline di cui è stato eseguito il deployment e fai clic su Attivatori in entrata.

Pipeline Studio salva la cronologia di una pipeline ogni volta che viene eseguita. Puoi scegliere tra diverse versioni di runtime della pipeline.

Se la pipeline contiene macro, imposta gli argomenti di runtime per ogni macro. Puoi anche esaminare e modificare le configurazioni della pipeline prima di eseguire la pipeline di cui è stato eseguito il deployment. Puoi vedere la modifica dello stato durante le fasi dell'esecuzione della pipeline, ad esempio Provisioning, Avvio, In esecuzione e Operazione riuscita. Puoi anche interrompere la pipeline in qualsiasi momento.

Se attivi la misurazione, puoi esplorare le metriche generate dalla pipeline facendo clic su Proprietà su qualsiasi nodo della pipeline, ad esempio un'origine, una trasformazione o una destinazione.

Per ulteriori informazioni sulle esecuzioni della pipeline, fai clic su Riepilogo.

Visualizza i record di esecuzione

Al termine di un'esecuzione della pipeline, puoi visualizzare il relativo record. Per impostazione predefinita, puoi visualizzare i record di esecuzione degli ultimi 30 giorni. Cloud Data Fusion li elimina al termine di questo periodo. Puoi estendere questo periodo utilizzando l'API REST.

API REST

Per conservare i record di esecuzione per più di 30 giorni, aggiorna le opzioni app.run.records.ttl utilizzando il seguente comando:

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/PROJECT_NAME/locations/REGION_NAME/instances/INSTANCE_NAME?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "DAYS", "app.run.records.ttl.frequency.hours": "HOURS" } }'

Sostituisci quanto segue:

  • PROJECT_NAME: il nome del progetto Google Cloud
  • REGION_NAME: la regione dell'istanza Cloud Data Fusion, ad esempio us-east4
  • INSTANCE_NAME: l'ID dell'istanza Cloud Data Fusion
  • DAYS: il periodo di tempo, in giorni, per conservare i record delle esecuzioni per le vecchie esecuzioni della pipeline, ad esempio 30.
  • HOURS: frequenza, in ore, per verificare ed eliminare i vecchi record di esecuzione, ad esempio 24.

Esempio:

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/project-1/locations/us-east4/instances/data-fusion-instance-1?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "30", "app.run.records.ttl.frequency.hours": "24" } }'

Passaggi successivi