Dataflow 定價

本頁說明 Dataflow 的計費方式。如要查看其他產品的價格,請參閱價格說明文件

定價總覽

雖然費率是以小時為計費單位,不過 Dataflow 服務的用量是以為單位,且每項工作的費用分開計算。為了將以小時計費的方式套用至以秒為單位的使用量,我們會將用量以小數小時為單位來表示 (例如 30 分鐘為 0.5 小時)。工作站和工作使用資源的方式如下所述。 Dataflow 記錄檔不會產生費用。

工作站和工作站資源

每項 Dataflow 工作至少會使用一個 Dataflow 工作站,Dataflow 服務提供「批次」和「串流」兩種工作站,兩者的服務計費方式不同。

Dataflow 工作站會使用下列資源,而這些資源都是採取以秒計費的收費方式。

批次和串流工作站是使用 Compute Engine 的特殊資源。不過請放心,Dataflow 工作不會因為使用 Dataflow 服務所管理的 Compute Engine 資源,而產生 Compute Engine 費用。Dataflow 服務費用即會包含這些 Compute Engine 資源。

您可以覆寫工作的預設工作站數量。如果啟用自動調度資源功能,您還可以指定分配給特定工作的工作站數量上限。系統會根據自動調度資源機制,自動為您新增和移除工作站及個別資源。

另外,您還可以使用管道選項來覆寫分配給每個工作站的預設資源設定 (包括機器類型、磁碟類型和磁碟大小)。

Dataflow 服務

Dataflow Shuffle 作業會以可擴充、高效率、能容錯的方式,按照鍵值將資料分區及分組。根據預設,Dataflow 使用的資料重組作業完全是在工作站虛擬機器上運作,這類作業會使用工作站的 CPU、記憶體和永久磁碟的儲存空間。

Dataflow 也提供選用的高擴充性功能「Dataflow Shuffle」,這項功能僅供批次管道使用,會在工作站之外重組資料,並依據處理的資料量計算費用。您可以指定 Shuffle 管道參數,藉此指示 Dataflow 使用 Shuffle 功能。

Dataflow Streaming Engine 和 Shuffle 一樣,會將「串流」資料重組和狀態處理作業移出工作站 VM,並移入 Dataflow 服務後端。您可以指定 Streaming Engine 管道參數,藉此指示 Dataflow 為您的串流管道使用 Streaming Engine。Streaming Engine 的使用費用是依據處理的串流資料量計算,並取決於擷取至串流管道中的資料量,以及管道階段的複雜程度和數量。會計入處理位元組數的項目實例如下:從資料來源輸入的資料流、從一個融合管道階段傳輸至其他融合階段的資料流、長期處於使用者定義狀態或用於時間區間設定的資料流,以及傳送至資料接收器 (例如 Pub/Sub 或 BigQuery) 的輸出訊息。

Dataflow 也為用於批次處理的 CPU 和記憶體提供了定價折扣。彈性資源排程 (FlexRS) 在單一 Dataflow 工作站集區中結合了一般和先占 VM,讓使用者能存取更平價的處理資源。FlexRS 還會在 6 小時的時限內延後執行批次 Dataflow 工作,根據可用資源找出啟動工作的最佳時機。Dataflow 雖然是搭配不同種類的工作站來執行 FlexRS 工作,但提供統一的折扣費率,價格要比一般 Dataflow 定價中的各種工作站都低。您可以指定 FlexRS 參數,藉此指示 Dataflow 將 FlexRS 用於自動調度資源的批次管道。

Dataflow 快照可讓您儲存及還原管道狀態,協助您管理串流管道的可靠性。快照的用量是依據儲存的資料量計算,並取決於擷取至串流管道中的資料量、時間區間設定邏輯和管道階段的數量。您可以使用 Dataflow 網頁版 UI 或 gcloud 指令列工具來為串流工作建立快照。從快照建立工作以還原管道狀態時,您無須支付額外費用。詳情請參閱使用 Dataflow 快照一文。

其他工作資源

除了工作站資源用量之外,工作「可能」也會耗用其他資源 (系統會分別依據各項資源的計價方式向您收費)。這類資源包括但不限於:

定價詳細資料

日後推出的新版 Dataflow 可能會收取其他的服務費用,也可能提供相關服務的套裝方案。

如要進一步瞭解適用的區域及當中的可用區,請參閱 Compute Engine 的區域和可用區頁面。

1 批次工作站預設配置:1 個 vCPU、3.75 GB 的記憶體、250 GB 的永久磁碟

2 FlexRS 工作站預設配置:2 個 vCPU、7.50 GB 的記憶體、每個工作站皆有 25 GB 的永久磁碟 (至少可使用兩個工作站)

3 串流工作站預設配置:4 個 vCPU、15 GB 的記憶體、420 GB 的永久磁碟

4 下列區域中的批次管道目前均可使用 Dataflow Shuffle:

  • us-west1 (奧勒岡州)
  • us-west2 (洛杉磯)
  • us-central1 (愛荷華州)
  • us-east1 (南卡羅來納州)
  • us-east4 (北維吉尼亞州)
  • northamerica-northeast1 (蒙特婁)
  • southamerica-east1 (聖保羅)
  • europe-west2 (倫敦)
  • europe-west1 (比利時)
  • europe-west4 (荷蘭)
  • europe-west6 (蘇黎世)
  • europe-west3 (法蘭克福)
  • asia-south1 (孟買)
  • asia-southeast1 (新加坡)
  • asia-east1 (台灣)
  • asia-northeast1 (東京)
  • australia-southeast1 (雪梨)

我們日後會陸續在更多區域推出這項服務。

重組資料集時,系統會調整讀取和寫入作業中處理的資料量,並依據調整項計算 Dataflow Shuffle 的費用。詳情請參閱 Dataflow Shuffle 定價詳細資料

5 Dataflow Streaming Engine 使用的計價單位為「已處理的串流資料量」。現階段,Streaming Engine 的適用區域包括:

  • us-west1 (奧勒岡州)
  • us-west2 (洛杉磯)
  • us-central1 (愛荷華州)
  • us-east1 (南卡羅來納州)
  • us-east4 (北維吉尼亞州)
  • northamerica-northeast1 (蒙特婁)
  • southamerica-east1 (聖保羅)
  • europe-west2 (倫敦)
  • europe-west1 (比利時)
  • europe-west4 (荷蘭)
  • europe-west6 (蘇黎世)
  • europe-west3 (法蘭克福)
  • asia-south1 (孟買)
  • asia-southeast1 (新加坡)
  • asia-east1 (台灣)
  • asia-northeast1 (東京)
  • australia-southeast1 (雪梨)
我們日後會陸續在更多區域推出這項服務。

Dataflow Shuffle 定價詳細資料

系統會調整 Dataflow Shuffle 作業中處理的資料總量,並依據調整項計算各項 Dataflow 工作的費用。您實際為 Dataflow Shuffle 資料處理量支付的費用金額,等同於以原價處理較少量的資料 (少於 Dataflow 工作實際處理的資料量)。因此,會產生費用的 Dataflow Shuffle 資料量指標會小於 Dataflow Shuffle 資料總量指標。

下表說明調整項的套用方式:

工作中處理的資料量 帳單調整項
前 250 GB 減少 75%
接下來的 4870 GB 減少 50%
超過 5120 GB (5 TB) 的資料

舉例來說,假設您的管道總共透過 Dataflow Shuffle 處理了 1024 GB (1 TB) 的資料,會產生費用的資料量即如下所示:250 GB * 25% + 774 GB * 50% = 449.5 GB * 該地區的 Dataflow Shuffle 資料處理費率。如果您的管道總共透過 Dataflow Shuffle 處理了 10240 GB (10 TB) 的資料,會產生費用的資料量即如下所示:250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB。

快照定價

Dataflow 快照將在正式發布後於其他區域提供。

查看用量

如要查看某項工作共使用了多少 vCPU、記憶體和永久磁碟等資源,請前往 Google Cloud Console,或是使用 gcloud 指令列工具。如要追蹤實際與應付費的處理重組資料量和處理串流資料量指標,則可使用 Dataflow Monitoring 介面。您可以參考實際處理的重組資料量來評估管道的成效,並依據計費的已處理重組資料量判斷 Dataflow 工作的費用。以處理的串流資料量來說,實際資料量和付費資料量的指標完全相同。

Pricing Calculator

您可以使用 Google Cloud Pricing Calculator 來瞭解帳單所列費用的計算方式。