部署及執行管道

本頁面說明在 Cloud Data Fusion 中部署及執行管道的基礎知識。

部署管道

完成資料管道的設計及偵錯作業,並確認預覽畫面中的資料無誤後,即可部署管道。

部署管道時,Cloud Data Fusion Studio 會在背景建立工作流程和相應的 Apache Spark 工作。

執行管道

部署管道後,您可以透過下列方式執行管道:

  • 如要按需執行管道,請開啟已部署的管道,然後按一下「Run」
  • 如要排定管道在特定時間執行,請開啟已部署的管道,然後按一下「排程」
  • 如要根據其他管道完成時觸發管道,請開啟已部署的管道,然後按一下「Incoming triggers」

Pipeline Studio 每次執行時都會儲存管道的歷程記錄。您可以切換管道的不同執行階段版本。

如果管道含有巨集,請為每個巨集設定執行階段引數。您也可以在執行已部署的管道前,查看及變更管道設定。您可以在管道執行階段期間查看狀態變更,例如「佈建中」、「啟動中」、「執行中」和「成功」。您也可以隨時停止管道。

如果啟用檢測功能,您可以按一下管道中任何節點 (例如來源、轉換或匯出) 的「Properties」,探索管道產生的指標。

如要進一步瞭解管道執行作業,請按一下「摘要」

查看執行記錄

管道執行作業完成後,您可以查看執行記錄。根據預設,您可以查看過去 30 天的執行記錄。Cloud Data Fusion 會在該期間過後刪除這些資料。您可以使用 REST API 延長這段時間。

REST API

如要保留超過 30 天的執行記錄,請使用下列指令更新 app.run.records.ttl 選項:

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/PROJECT_NAME/locations/REGION_NAME/instances/INSTANCE_NAME?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "DAYS", "app.run.records.ttl.frequency.hours": "HOURS" } }'

更改下列內容:

  • PROJECT_NAME: Google Cloud 專案名稱
  • REGION_NAME:Cloud Data Fusion 執行個體的區域,例如 us-east4
  • INSTANCE_NAME:Cloud Data Fusion 執行個體 ID
  • DAYS:保留舊管道執行作業的執行記錄所需的時間長度 (以天為單位),例如 30
  • HOURS:檢查及刪除舊執行記錄的頻率 (以小時為單位),例如 24

範例:

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/project-1/locations/us-east4/instances/data-fusion-instance-1?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "30", "app.run.records.ttl.frequency.hours": "24" } }'

後續步驟