Cloud Dataflow 定價

本頁說明 Dataflow 的計費方式。如要查看其他產品的價格,請參閱價格說明文件

定價總覽

雖然費率是以小時為計費單位,不過 Dataflow 服務的用量是以為單位,並按每項工作分開計算費用。為了將以秒計費的使用量轉換成以小時為單位的計費方式,我們會將使用量以小時為單位來表示 (例如 30 分鐘為 0.5 小時)。工作站和工作使用資源的方式如下所述。

工作站和工作站資源

每項 Dataflow 工作至少會使用一個 Dataflow 工作站,Dataflow 服務提供「批次」和「串流」兩種工作站,兩者的服務計費方式不同。

Dataflow 工作站會使用下列資源,而這些資源都是採取以秒計費的收費方式。

批次和串流工作站是使用 Compute Engine 的特殊資源。不過請放心,Dataflow 工作不會因為使用 Dataflow 服務管理 Compute Engine 資源而產生 Compute Engine 費用。Dataflow 服務費用即會包含這些 Compute Engine 資源。

您可以覆寫工作的預設工作站數量。如果啟用自動調度資源功能,您還可以指定分配給特定工作的工作站數量上限。系統會根據自動調度資源機制,自動為您新增和移除工作站及個別資源。

另外,您還可以使用管道選項來覆寫分配給每個工作站的預設資源設定 (包括機器類型、磁碟類型和磁碟大小)。

Cloud Dataflow 服務

Dataflow Shuffle 作業會以可擴充、高效率、能容錯的方式,按照鍵值將資料分區及分組。根據預設,Dataflow 使用的資料重組作業完全是在工作站虛擬機器上運作,這類作業會使用工作站的 CPU、記憶體和永久磁碟的儲存空間。

Dataflow 也提供選用的高擴充性功能「Dataflow Shuffle」,這項功能僅供工作站以外的批次管道和重組資料使用,並依據處理的資料量計算費用。您可以指定 Shuffle 管道參數,藉此指示 Dataflow 使用 Shuffle 功能。

如同 Shuffle,Dataflow Streaming Engine 會將「串流」資料重組和狀態處理作業移出工作站 VM,並移入 Dataflow 服務後端。您可以指定 Streaming Engine 管道參數,藉此指示 Dataflow 為您的串流管道使用 Streaming Engine。Streaming Engine 的使用費用是依據處理的串流資料量計算,並取決於擷取至串流管道中的資料量、管道階段的複雜程度和數量。會計入處理位元組數的項目實例如下:從資料來源輸入的資料流、從一個融合管道階段傳輸至其他融合階段的資料流、長期處於使用者定義狀態或用於時間區間設定的資料流,以及傳送至資料接收器 (例如 Pub/Sub 或 BigQuery) 的輸出訊息。

Dataflow 也為用於批次處理的 CPU 和記憶體的定價提供了折扣方案。彈性資源排程 (FlexRS) 在單一 Dataflow 工作站集區中結合了一般和先占 VM,讓使用者能存取更平價的處理資源。FlexRS 還會在 6 小時的時限內延後執行批次 Dataflow 工作,根據可用資源找出啟動工作的最佳時機。雖然 Dataflow 使用一組工作站來執行 FlexRS 工作,但與一般 Dataflow 定價相比,無論工作站類型為何,都適用相同的折扣費率。您可以指定 FlexRS 參數,藉此指示 Dataflow 將 FlexRS 用於自動調度資源的批次管道。

其他工作資源

除了工作站資源用量之外,工作「可能」也會耗用其他資源,系統會分別依據各項資源的計費方式向您收費,這類資源包括但不限於:

定價詳細資料

日後推出的新版 Dataflow 可能會收取其他的服務費用,也可能提供相關服務的套裝方案。

如要進一步瞭解可用的地區及這些地區包含的區域,請參閱 Compute Engine 的地區和區域頁面。

1 批次工作站預設配置:1 個 vCPU、3.75 GB 的記憶體、250 GB 的永久磁碟

2 FlexRS 工作站預設配置:2 個 vCPU、7.50 GB 的記憶體、每個工作站皆有 25 GB 的永久磁碟 (至少可使用兩個工作站)

3 串流工作站預設配置:4 個 vCPU、15 GB 的記憶體、420 GB 的永久磁碟

4 下列地區中的批次管道目前均可使用 Dataflow Shuffle:

  • us-central1 (愛荷華州)
  • us-east1 (南卡羅來納州)
  • us-west1 (奧勒岡州)
  • europe-west1 (比利時)
  • europe-west4 (荷蘭)
  • asia-east1 (台灣)
  • asia-northeast1 (東京)

我們日後會陸續在更多地區推出這項服務。

5 Dataflow Streaming Engine 採用「已處理的串流資料量」為計價單位。現階段,Streaming Engine 的適用地區包括:

  • us-central1 (愛荷華州)
  • us-east1 (南卡羅來納州)
  • us-west1 (奧勒岡州)
  • europe-west1 (比利時)
  • europe-west4 (荷蘭)
  • asia-east1 (台灣)
  • asia-northeast1 (東京)
我們日後會陸續在更多地區推出這項服務。

6 Dataflow Shuffle 在 2018 年 5 月 3 日之前的計費方式如下:重組資料所用的時間與資料保存在 Shuffle 記憶體中的時間相加後,乘以重組的資料量;價格為每小時每 GB $0.0216 美元。2018 年 5 月 3 日之後,我們將時間因素完全排除,因此系統只會依據 Dataflow 服務基礎架構在重組資料集期間讀取和寫入的資料量來計算 Shuffle 的費用 (以 GB 為單位)。在這樣的計費模式下,擁有大型或超大型資料集的使用者應該會發現 Shuffle 的費用總額明顯降低。
為進一步鼓勵使用者採用以服務為基礎的 Shuffle 功能,前 5 TB 的處理重組資料量可享 50% 的費率折扣優惠。舉例來說,假設您的管道最終產生了 1 TB 的處理重組資料量,您只需要支付 50% 的費用 (等同於僅產生 0.5 TB 的資料量)。如果您的管道最終產生了 10 TB 的處理重組資料量,由於前 5 TB 的資料量可享 50% 的費率折扣優惠,因此您只需要支付 7.5 TB 資料量的費用。

查看使用情況

如要查看某項工作共使用了多少 vCPU、記憶體和永久磁碟等資源,請前往 Google Cloud Console,或是使用 gcloud 指令列工具。如要追蹤實際與應付費的處理重組資料量和處理串流資料量指標,則可使用 Dataflow Monitoring 介面。您可以參考實際處理的重組資料量來評估管道的成效,並依據計費的已處理重組資料量判斷 Dataflow 工作的費用。以處理的串流資料量來說,實際資料量和付費資料量的指標完全相同。

Pricing Calculator

您可以使用 Google Cloud Pricing Calculator 來瞭解帳單所列費用的計算方式。