在 Dataflow 中使用自訂容器

您可以提供自訂容器映像檔,在 Dataflow 管道中自訂使用者程式碼的執行階段環境。使用 Dataflow Runner v2 的管道支援自訂容器。

Dataflow 啟動工作站 VM 時,會使用 Docker 容器映像檔在工作站上啟動容器化 SDK 程序。根據預設,管道會使用預先建構的 Apache Beam 映像檔。不過,您可以為 Dataflow 工作提供自訂容器映像檔。指定自訂容器映像檔時,Dataflow 會啟動提取指定映像檔的工作站。

您可能基於下列原因而使用自訂容器:

  • 預先安裝管道依附元件,縮短工作站啟動時間。
  • 預先安裝公開存放區中沒有的管道依附元件。
  • 如果系統基於安全考量而停用公開存放區的存取權,請預先安裝管道依附元件。
  • 預先暫存大型檔案,縮短工作站啟動時間。
  • 在背景啟動第三方軟體。
  • 自訂執行環境。

如要進一步瞭解 Apache Beam 中的自訂容器,請參閱 Apache Beam 自訂容器指南。如要查看使用自訂容器的 Python pipeline 範例,請參閱「Dataflow 自訂容器」。

後續步驟