Dataflow 定價

本頁說明 Dataflow 的計費方式。如要查看其他產品的價格,請參閱價格說明文件

想瞭解如何搭配承諾使用三年或承諾使用一年可省下 40% 的費用,請參閱承諾使用折扣 (CUD) 頁面。

總覽

系統會針對工作使用的資源向您收取 Dataflow 使用費用。視您使用的計費模式而定,資源的測量和計費方式會有所不同。

Dataflow 運算資源 Dataflow Prime 運算資源
資料運算單元 (DCU)
(批次和串流)

所有工作都會計費的其他 Dataflow 資源包括 Persistent Disk、GPU 和快照。

其他服務的資源可能會用於 Dataflow 工作。與 Dataflow 搭配使用的服務可能包括 BigQuery、Pub/Sub、Cloud Storage 和 Cloud Logging 等。

雖然費率是以小時為單位,不過 Dataflow 的用量是按每項工作以為單位遞增。使用量是以小時為單位呈現,以便將每小時價格套用至以秒計費的用量。例如 30 分鐘為 0.5 小時。工作站和工作使用資源的方式如下所述。

日後推出的新版 Dataflow 可能會產生不同的服務費用,或提供相關服務的套裝方案。

Dataflow 運算資源

運算資源的 Dataflow 計費包含下列元件:

如要進一步瞭解可用的地區和區域,請參閱 Compute Engine 的地區和區域頁面。

工作站 CPU 和記憶體

每項 Dataflow 工作至少會使用一個 Dataflow 工作站,Dataflow 服務提供「批次」和「串流」兩種工作站,批次和串流工作站會產生不同的服務費用。

Dataflow 工作站會使用下列資源,而這些資源都是採取以秒計費的收費方式:

  • CPU
  • 記憶體容量

批次和串流工作站是使用 Compute Engine 的特殊資源。不過,Dataflow 工作不會因為使用 Dataflow 服務代管的 Compute Engine 資源,而產生 Compute Engine 費用。Dataflow 服務會產生費用,因此包含這些 Compute Engine 資源。

您可以覆寫工作的預設工作站數量。如果使用自動調度資源功能,您還可以指定分配給特定工作的工作站數量上限。系統會根據自動調度資源機制,自動新增和移除工作站及個別資源。

另外,您也可以使用管道選項來覆寫預設資源設定,例如機器類型、磁碟類型和磁碟大小,這些設定是分配給每個工作站和使用 GPU。

FlexRS

Dataflow 為批次處理的 CPU 和記憶體提供折扣價選項。彈性資源排程 (FlexRS) 在單一 Dataflow 工作站集區中結合了一般和先占 VM,讓使用者能存取更平價的處理資源。FlexRS 也會在 6 小時內延遲執行批次 Dataflow 工作,根據可用資源找出啟動工作的最佳時間點。

雖然 Dataflow 使用一組工作站來執行 FlexRS 工作,但與一般 Dataflow 價格相比,無論工作站類型為何,Cloud Dataflow 的 CPU 和記憶體費用都適用約 40% 的折扣費率。您可以指定 FlexRS 參數,藉此指示 Dataflow 將 FlexRS 用於自動調度資源的批次管道。

Dataflow Shuffle 處理的資料

針對批次管道,Dataflow 提供 Dataflow Shuffle 功能,具備高度擴充性的功能,可以在工作站外部重組資料。詳情請參閱 Dataflow Shuffle 功能。

Dataflow Shuffle 是依據重組期間處理的資料量來計費。

Streaming Engine 定價

針對串流管道,Dataflow Streaming Engine 會將串流重組和狀態處理作業移出工作站 VM,並移入 Dataflow 服務後端。詳情請參閱 Streaming Engine

Streaming Engine 運算單元

依據資源計費,Streaming Engine 資源是以 Streaming Engine 運算單元為單位進行測量。Dataflow 會測量每個工作使用的 Streaming Engine 資源,然後根據該工作使用的總資源計費。如要為工作啟用依據資源計費功能,請參閱使用以資源為基礎的計費功能。如果您採用以資源為準的計費方式,系統會自動套用現有折扣。

如果您搭配以資源為基礎的計費方式,系統會按照每個工作使用的資源總量向您收費,但會使用資料運算單元 (DCU) SKU,而非 Streaming Engine Compute Unit SKU。

已處理的 Streaming Engine 資料 (舊版)

Dataflow 會繼續支援舊版資料處理帳單。除非您啟用以資源為基礎的計費功能,否則系統會以資料處理的帳單為工作計費。

Streaming Engine 會處理資料處理的帳單是依據處理的串流資料量來計算用量,實際用量取決於下列因素:

  • 擷取至串流管道的資料量
  • 管道的複雜性
  • 包含重組作業或有狀態 DoFns 的管道階段數量

會計入處理的位元組數示例如下:

  • 來自資料來源的輸入流程
  • 從一個融合管道階段到另一個融合階段的資料流
  • 持續處於使用者定義狀態或用於視窗化的資料流
  • 將訊息輸出至資料接收器,例如傳送至 Pub/Sub 或 BigQuery

Dataflow 運算資源定價 - 批次與 FlexRS

下表包含工作站資源和 Shuffle 處理批次與 FlexRS 工作的定價詳細資料。

1 批次工作站預設配置:1 個 vCPU、3.75 GB 記憶體、250 GB 的永久磁碟 (若未使用 Dataflow Shuffle),若使用 Dataflow Shuffle,則為 25 GB 永久磁碟

2 FlexRS 工作站預設配置:2 個 vCPU、7.50 GB 的記憶體、每個工作站皆有 25 GB 的永久磁碟 (至少可使用兩個工作站)

Dataflow 運算資源定價 - 串流

下表列出工作站資源、處理的 Streaming Engine 資料 (舊版) 和 Streaming Engine 運算單元的定價詳細資料。

如果您使用美元以外的貨幣付費,系統將按照 Cloud Platform SKU 頁面上列出的相應貨幣價格計費。

3 串流工作站預設配置:4 個 vCPU、15 GB 的記憶體、400 GB 的永久磁碟 (若不使用 Streaming Engine),若使用 Streaming Engine,則永久磁碟 30 GB。Dataflow 服務目前執行串流工作時,每個工作站執行個體最多只能使用 15 個永久磁碟。工作站和磁碟之間的資源配額最低為 1:1。

4 重組資料集時,系統會調整讀取和寫入作業期間處理的資料量,並依據調整項計算 Dataflow Shuffle 的費用。詳情請參閱 Dataflow Shuffle 定價詳細資料。Dataflow Shuffle 定價不適用於採用資源型計費的 Streaming Engine 工作。

5 Streaming Engine Compute 單位:用於使用 Streaming Engine 的串流工作和以資源為準的計費模式,這些工作不會針對重組期間處理的資料收費。

針對已處理的 Dataflow Shuffle 資料調整數量調整

系統會調整 Dataflow Shuffle 作業期間處理的資料總量,並調整每個 Dataflow 工作的費用。您實際為 Dataflow Shuffle 資料處理量支付的費用金額,等同於以原價處理較少量的資料 (少於 Dataflow 工作實際處理的資料量)。因此,「已處理的計費重組資料量」指標就會小於「處理的重組資料總數」指標。

下表說明調整項的套用方式:

Dataflow 重組資料處理量 帳單調整項
前 250 GB 減少 75%
接下來的 4870 GB 減少 50%
超過 5120 GB (5 TB) 的資料

舉例來說,假設您的管道總共處理了 1024 GB (1 TB) 的 Dataflow Shuffle 資料,計費金額計算方式如下:

250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate

如果您的管道總共處理了 1, 0240 GB (10 TB) 的 Dataflow Shuffle 資料,則計費的資料量如下:

250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB

Dataflow Prime 運算資源定價

Dataflow Prime 是以 Dataflow 建構而成的資料處理平台,可改善資源使用率與分散式診斷。

Dataflow Prime 工作使用的運算資源,是以資料運算單位 (DCU) 的數量計費。DCU 是指分配來執行管道的運算資源。Dataflow Prime 工作 (例如 Persistent Disk、GPU 和快照) 使用的其他 Dataflow 資源,會另外收費。

如要進一步瞭解可用的地區和區域,請參閱 Compute Engine 的地區和區域頁面。

資料運算單元

資料運算單元 (DCU) 是一種 Dataflow 用量計量單位,可追蹤工作使用的運算資源數量。DCU 追蹤的資源包括 vCPU、記憶體、處理的 Dataflow Shuffle 資料 (用於批次工作),以及處理的 Streaming Engine 資料 (用於串流工作)。相較於耗用較少資源的工作,耗用較多資源的工作具有較多 DCU 用量。一個 DCU 與在 1 個 vCPU 4 GB 工作站上運作 1 小時的 Dataflow 工作使用的資源差不多。

資料運算單元計費

我們會依據工作耗用的 DCU 總數向您收費。 單一 DCU 的價格會因您的作業類型 (批次工作或串流工作) 而異。如果您搭配以資源為基礎的計費方式使用 Dataflow Prime,系統會按照使用的資源總數 (而非位元組程序) 向您收費。

如果您使用美元以外的貨幣付費,系統將按照 Cloud Platform SKU 頁面上列出的相應貨幣價格計費。

資料運算單元用量最佳化

您無法設定工作的 DCU 數量。Dataflow Prime 會計算 DCU。不過,您可以管理下列工作部分,減少耗用的 DCU 數量:

  • 減少記憶體用量
  • 使用篩選器、合併工具和有效率的編碼器,減少重組步驟中處理的資料量

如要找出這些最佳化作業,請使用 Dataflow 監控介面執行詳細資料介面

Dataflow Prime 的定價與 Dataflow 定價有何不同?

在 Dataflow 中,系統會根據工作耗用的不同資源向您收費,例如 vCPU、記憶體、永久磁碟,以及 Dataflow Shuffle 或 Streaming Engine 處理的資料量。

資料運算單元會將儲存空間以外的所有資源整合為單一計量單位。系統會針對 Persistent Disk 資源,以及依據工作類型、批次或串流而耗用的 DCU 數量向您收費。詳情請參閱「使用 Dataflow Prime」一文。

採用 Dataflow 定價模式的現有工作會受到什麼影響?

現有的批次和串流工作會繼續採用 Dataflow 模型計費。將工作更新為使用 Dataflow Prime 時,工作會使用 Dataflow Prime 定價模式,收取 Persistent Disk 資源和已使用的 DCU 費用。

其他 Dataflow 資源

儲存空間、GPU、快照和其他資源的計費方式與 Dataflow 和 Dataflow Prime 相同。

儲存空間資源定價

儲存空間資源的計費費率與串流、批次工作和 FlexRS 工作相同。您可以使用管道選項變更預設磁碟大小或磁碟類型。Dataflow Prime 會根據下表的定價分別收取 Persistent Disk 的費用。

如果您使用美元以外的貨幣付費,系統將按照 Cloud Platform SKU 頁面上列出的相應貨幣價格計費。

Dataflow 服務目前執行串流工作時,每個工作站執行個體最多只能使用 15 個永久磁碟。每個永久磁碟都是 個別 Compute Engine 虛擬機器的本機工作站和磁碟之間的資源配額最低為 1:1。

使用 Streaming Engine 的工作會使用 30 GB 開機磁碟。使用 Dataflow Shuffle 的工作會使用 25 GB 開機磁碟。針對未使用上述服務的工作,每個永久磁碟的預設大小為批次模式 250 GB,串流模式則為 400 GB。

Compute Engine 用量是依據工作站的平均數量計算,永久磁碟用量則以 --maxNumWorkers 的確切值為準。系統會重新分配永久磁碟,讓每個工作站的連接磁碟數量相同。

GPU 資源定價

GPU 資源的計費費率與串流和批次工作相同。FlexRS 目前不支援 GPU。如要瞭解 GPU 可以使用的地區和區域,請參閱 Compute Engine 說明文件中的 GPU 地區和區域可用性

如果您使用美元以外的貨幣付費,系統將按照 Cloud Platform SKU 頁面上列出的相應貨幣價格計費。

快照

為協助您管理串流管道的可靠性,您可以使用快照來儲存及還原管道狀態。快照用量是依據儲存的資料量計費,具體取決於下列因素:

  • 擷取至串流管道的資料量
  • 您的時間區間設定邏輯
  • 管道階段的數量

您可以使用 Dataflow 主控台或 Google Cloud CLI 拍攝串流工作的快照。從快照建立工作來還原管道狀態無須支付額外費用。詳情請參閱「使用 Dataflow 快照」一文。

快照定價

如果您使用美元以外的貨幣付費,系統將按照 Cloud Platform SKU 頁面上列出的相應貨幣價格計費。

機密 VM

Dataflow 的機密 VM 會加密工作站 Compute Engine VM 中使用的資料。詳情請參閱「機密運算概念」。

將機密 VM 用於 Dataflow 會導致每個 vCPU 和每 GB 費用增加額外的固定費率。

機密 VM 定價

價格為全球適用,不會因 Google Cloud 區域而異。

非 Dataflow 資源

除了 Dataflow 的用量之外,工作可能也會耗用其他資源,系統會分別依據各項資源的計費方式收費。這類資源包括但不限於:

查看資源用量

您可以在「Resource metric」(資源指標) 下方的「Job info」(工作資訊) 面板中查看與工作相關聯的 vCPU、記憶體和永久磁碟資源總數。您可以在 Dataflow 監控介面中追蹤下列指標:

  • vCPU 總使用時間
  • 記憶體總使用時間
  • 永久磁碟總使用時間
  • 已處理的串流資料總量
  • 已處理的重組資料總數
  • 已處理的計費重組資料

您可以使用「已處理的重組資料總數」指標來評估管道的效能,並選用「可計費的重組資料」指標來判斷 Dataflow 工作的費用。

在 Dataflow Prime 中,您可以前往「Resource metric」(資源指標) 下方的「Job info」(工作資訊) 面板,查看工作耗用的 DCU 總數。

Pricing Calculator

您可以使用 Google Cloud Pricing Calculator 來瞭解帳單所列費用的計算方式。

如果使用美元以外的貨幣付費,系統將按照 Cloud Platform SKU 頁面上列出的相應貨幣價格計費。

後續步驟

索取客製化報價

Google Cloud 採「即付即用」的定價方式,因此您只需要為實際使用的服務付費。貴機構如需索取客製化的報價,請與我們的銷售團隊聯絡。
聯絡銷售人員