建構 Dataflow 管道

本頁面說明建構 Dataflow 管道的不同方式,以及每種方法的優點。

Google 提供的範本

Google 提供數十個預先建構的 Dataflow 管道開放原始碼範本。您可以從Google Cloud 控制台或指令列執行這些範本。部分範本支援新增使用者定義函式 (UDF),因此您可以在將資料寫入輸出目的地之前轉換資料。

如果範本符合您的情況,請考慮使用範本。如需完整清單,請參閱「Google 提供的範本」。

工作建立工具

工作建構工具提供視覺化的使用者介面,可讓您在 Google Cloud 控制台中建構及執行 Dataflow pipeline,完全不需要編寫程式碼。在工作建構工具中,選取來源、接收器和轉換作業,並將其連線形成圖表,即可建立管道。工作建立工具也允許您將管道儲存為 YAML 檔案,並載入這些檔案。

在下列情況下,請考慮使用工作建構工具:

  • 如果 Google 提供的範本不符合您的情境,請建立自訂管道。
  • 無須編寫程式碼即可建構管道。
  • 建立具有多個來源或接收器的管道。
  • 快速建立原型。

詳情請參閱「工作建構工具使用者介面總覽」。

工作建立工具支援 Apache Beam 中可用的部分來源和接收器。如果需要工作建立工具不支援的範本,請試用 Google 提供的範本,或使用 Apache Beam SDK。

Apache Beam SDK

Dataflow 管道是以開放原始碼的 Apache Beam SDK 為基礎建構而成。使用 SDK 撰寫管道時,您可充分運用 Apache Beam 的強大功能處理工作負載。管道可以使用 Java、Python 或 Go 編寫。

如果無法使用 Google 提供的範本或工作建構工具達成目標,請考慮使用 Apache Beam SDK。例如:

  • 需要完整 Apache Beam 功能集的較複雜管道。
  • 串流管道需要更精密的策略來處理延遲資料,例如重新處理。

詳情請參閱使用 Apache Beam 建構管道

筆記本

您可以在 JupyterLab 筆記本中執行 Apache Beam Python 程式碼。這些筆記本可透過 Vertex AI Workbench 取得,這項服務會代管筆記本 VM,並預先安裝最新的資料科學和機器學習架構。使用筆記本時,您不需要設定開發環境,可以快速疊代管道程式碼。筆記本會在測試環境中執行,但您可以匯出程式碼以供實際工作環境使用。

詳情請參閱「開發 Apache Beam 筆記本」。