Dataflow 定價
本頁說明 Dataflow 的計費方式。如要查看其他產品的價格,請參閱價格說明文件。
請參閱承諾使用折扣 (CUD) 頁面,瞭解如何承諾三年期可省下 40% 的費用,或承諾使用一年可省下 20% 的費用。
總覽
系統會針對工作使用的資源收取 Dataflow 用量費用。視您使用的定價模式而定,資源的計算和計費方式會有所不同。
Dataflow 運算資源 | Dataflow Prime 運算資源 |
|
資料運算單元 (DCU) (批次和串流) |
適用於所有工作費用的其他 Dataflow 資源,包括 Persistent Disk、GPU 和快照。
其他服務的資源可能會用於 Dataflow 工作。與 Dataflow 搭配使用的服務可能包括 BigQuery、Pub/Sub、Cloud Storage 和 Cloud Logging 等。
雖然費率是以小時為計費單位,不過 Dataflow 使用費用是以秒為單位,且每項工作的費用分開計算。為了將以秒計費的使用量轉換成以小時為單位的計費方式,我們會以小時來呈現用量。例如 30 分鐘代表 0.5 小時。工作站和工作使用資源的方式如以下各節所述,
日後推出的新版 Dataflow 可能會收取不同的服務費用,或是相關服務的套裝方案。
Dataflow 運算資源
運算資源的 Dataflow 計費包含下列元件:
如要進一步瞭解可用的區域及其區域,請參閱 Compute Engine 的地區與區域頁面。
工作站 CPU 和記憶體
每項 Dataflow 工作至少會使用一個 Dataflow 工作站,Dataflow 服務提供「批次」和「串流」兩種工作站,批次和串流工作站的服務費各不相同。
Dataflow 工作站會使用下列資源,而這些資源都是以秒計費:
- CPU
- 記憶體
批次和串流工作站是使用 Compute Engine 的特殊資源。不過,Dataflow 工作不會因為使用 Dataflow 服務管理的 Compute Engine 資源而產生 Compute Engine 費用。Dataflow 服務則會收取這些 Compute Engine 資源的使用費。
您可以覆寫工作的預設工作站數量。如果啟用自動調度資源功能,您還可以指定分配給特定工作的工作站數量上限。系統會根據自動調度資源機制,自動新增及移除工作站和個別資源。
此外,您可以使用管道選項覆寫分配給每個工作站,且使用 GPU 的預設資源設定,例如機器類型、磁碟類型和磁碟大小。
FlexRS
Dataflow 針對批次處理提供了 CPU 和記憶體的優惠價格方案。彈性資源排程 (FlexRS) 在單一 Dataflow 工作站集區中結合了一般和先占 VM,讓使用者能存取更平價的處理資源。FlexRS 也會在 6 小時的時限內延後執行批次 Dataflow 工作,根據可用資源找出啟動工作的最佳時間點。
雖然 Dataflow 使用一組工作站來執行 FlexRS 工作,但相較於一般 Dataflow 定價,無論工作站類型為何,您都必須支付大約 40% 的 CPU 和記憶體費用折扣。您可以指定 FlexRS 參數,藉此指示 Dataflow 將 FlexRS 用於自動調度資源的批次管道。
Dataflow 重組資料已處理
針對批次管道,Dataflow 提供可擴充的 Dataflow Shuffle 功能,可重組工作站以外的資料。詳情請參閱 Dataflow Shuffle。
Dataflow Shuffle 會按照重組期間處理的資料量來收費。
Streaming Engine 定價
對於串流管道,Dataflow Streaming Engine 會將串流重組和狀態處理作業移出工作站 VM,並移入 Dataflow 服務後端。詳情請參閱 Streaming Engine。
Streaming Engine 運算單元
Streaming Engine 資源按照資源計費時,是以 Streaming Engine 運算單元為單位進行計算。Dataflow 會計算每項工作使用的 Streaming Engine 資源,並依據該工作使用的總資源計費。如要為工作啟用以資源為基礎的計費功能,請參閱「使用以資源為基礎的計費方式」一文。使用根據資源計費時,系統會自動套用現有折扣。
如果您透過 Dataflow Prime 依資源計費,系統則會依每項工作使用的資源總量向您收費,但使用的是資料運算單元 (DCU) SKU,而非 Streaming Engine Compute Unit SKU。
已處理的 Streaming Engine 資料 (舊版)
Dataflow 會繼續支援舊版資料處理帳單。除非您啟用以資源為基礎的計費功能,否則工作費用將採用資料處理計費。
Streaming Engine 資料處理費用是依據處理的串流資料量測量用量,而取決於下列因素:
- 擷取至串流管道的資料量
- 管道的複雜性
- 具有重組作業或有狀態 DoFns 的管道階段數量
以下舉例說明哪些資料會計為處理的位元組:
- 資料來源的輸入流程
- 從一個融合管道階段到另一個融合管道階段的資料流
- 保留在使用者定義狀態的資料流,或用於時間區間設定的資料流
- 將訊息輸出至資料接收器,例如 Pub/Sub 或 BigQuery
Dataflow 運算資源定價 - 批次和 FlexRS
下表詳細列出工作站資源和 FlexRS 工作處理的 Shuffle 資料定價。
1 批次工作站預設配置:1 個 vCPU、3.75 GB 的記憶體、250 GB 的永久磁碟 (如果不是使用 Dataflow Shuffle),和 25 GB 的永久磁碟 (如果使用 Dataflow 重組)
2 FlexRS 工作站預設配置:2 個 vCPU、7.50 GB 的記憶體、每個工作站皆有 25 GB 的永久磁碟 (至少可使用兩個工作站)
Dataflow 運算資源定價 - 串流
下表列出工作站資源、已處理的 Streaming Engine 資料 (舊版) 和串流工作的 Streaming Engine 運算單元定價詳細資料。
3 串流工作站預設配置:4 個 vCPU、15 GB 的記憶體、400 GB 的永久磁碟 (如未使用 Streaming Engine),以及 30 GB 的永久磁碟 (如果使用 Streaming Engine)。Dataflow 服務目前在執行串流工作時,每個工作站執行個體最多只能有 15 個永久磁碟。工作站和磁碟的資源配額下限為 1:1。
4 Dataflow Shuffle 的價格是根據在重組資料集時,對讀取和寫入作業中處理的資料量所進行的調整量計算。詳情請參閱 Dataflow Shuffle 定價詳細資料。Dataflow Shuffle 定價不適用於採用以資源為基礎的計費方式的 Streaming Engine 工作。
5 Streaming Engine 運算單元:適用於使用 Streaming Engine 的串流工作和以資源為基礎的計費模式。系統不會針對重組期間處理的資料收取這些工作費用。
針對已處理的 Dataflow Shuffle 資料量調整音量
費用計算依據為 Dataflow Shuffle 作業期間處理的資料總量,計算 Dataflow 工作的費用。您實際為 Dataflow Shuffle 資料處理量支付的費用金額,等同於以原價處理較少量的資料 (少於 Dataflow 工作實際處理的資料量)。這個差異會導致「已處理的可計費重組資料」指標小於「已處理的重組資料總量」指標。
下表說明調整項的套用方式:
Dataflow Shuffle 已處理資料 | 帳單調整項 |
前 250 GB | 減少 75% |
接下來的 4870 GB | 減少 50% |
超過 5120 GB (5 TB) 的資料 | 無 |
舉例來說,如果您的管道總共處理了 1024 GB (1 TB) 的 Dataflow Shuffle 資料處理量,計費金額的計算方式如下:
250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate
如果您的管道總共處理了 10240 GB (10 TB) 的 Dataflow 重組資料,那麼會產生的資料量如下:
250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB
Dataflow Prime 運算資源定價
Dataflow Prime 是以 Dataflow 為基礎建構的資料處理平台,可改善資源使用率及分散式診斷功能。
Dataflow Prime 工作使用的運算資源是以資料運算單元 (DCU) 數量計費。DCU 代表分配給執行管道的運算資源。Dataflow Prime 工作使用的 其他 Dataflow 資源 (例如 Persistent Disk、GPU 和快照) 會分開計費。
如要進一步瞭解可用的區域及其區域,請參閱 Compute Engine 的地區與區域頁面。
資料運算單元
資料運算單元 (DCU) 是一種 Dataflow 用量計算單位,可用於追蹤工作使用的運算資源數量。DCU 追蹤的資源包括 vCPU、記憶體、處理的 Dataflow 重組資料 (用於批次工作),以及處理的 Streaming Engine 資料 (用於串流工作)。相較於耗用較少資源的工作,耗用較多資源的工作擁有較多 DCU 用量。一個 DCU 相當於 Dataflow 工作使用的資源,在 1 vCPU 4 GB 工作站上執行一小時,該工作每小時執行了一小時。
資料運算單元計費
系統會針對工作耗用的 DCU 總數量向您收費。 單一 DCU 的價格會因您執行批次工作或串流工作而異。當您透過以資源為基礎的計費方式使用 Dataflow Prime 時,系統會依據已使用的資源總數 (而非位元組處理程序) 計費。
最佳化資料運算單元用量
您無法為工作設定 DCU 數量。Dataflow Prime 會計入 DCU。不過,您可以管理下列工作各方面,減少使用的 DCU 數量:
- 減少記憶體消耗量
- 使用篩選器、合併與高效率編碼器,減少重組步驟中處理的資料量
如要找出這些最佳化作業,請使用 Dataflow 監控介面和執行詳細資料介面。
Dataflow Prime 與 Dataflow 的定價有何不同?
在 Dataflow 中,系統會針對工作耗用的資源 (例如 vCPU、記憶體、永久磁碟,以及 Dataflow Shuffle 或 Streaming Engine 處理的資料量) 向您收費。
資料運算單元會將除了儲存空間以外的所有資源合併成一個計量單位。系統會向您收取 Persistent Disk 資源的費用,以及依據工作類型、批次或串流耗用的 DCU 數量。 詳情請參閱使用 Dataflow Prime 一文。
採用 Dataflow 定價模式的現有工作會受到什麼影響?
現有的批次和串流工作仍會採用 Dataflow 模式計費。當您將工作更新為使用 Dataflow Prime 時,工作會使用 Dataflow Prime 定價模式,這些工作是根據 Persistent Disk 資源和使用的 DCU 計費。
其他 Dataflow 資源
儲存空間、GPU、快照和其他資源的計費方式與 Dataflow 和 Dataflow Prime 相同。
儲存空間資源定價
針對串流、批次和 FlexRS 工作,系統會按相同的費率計費。您可以使用管道選項來變更預設磁碟大小或磁碟類型。Dataflow Prime 會根據下表中的價格,分別針對永久磁碟收取費用。
Dataflow 服務目前在執行串流工作時,每個工作站執行個體最多只能使用 15 個永久磁碟。每個永久磁碟都是 個別 Compute Engine 虛擬機器的本機工作站和磁碟之間的資源配額下限是 1:1。
使用 Streaming Engine 的工作會使用 30 GB 開機磁碟。使用 Dataflow Shuffle 的工作會使用 25 GB 開機磁碟。針對未使用這些服務的工作,每個永久磁碟的預設大小為 250 GB (批次模式) 和 400 GB (串流模式)。
Compute Engine 用量是根據工作站的平均數量計算,永久磁碟用量則是以 --maxNumWorkers
確切的值為準。系統會重新分配永久磁碟,使每個工作站都有相同數量的連接磁碟。
GPU 資源定價
GPU 資源的計費方式與串流和批次工作相同。FlexRS 目前不支援 GPU。如要瞭解 GPU 適用的地區和區域,請參閱 Compute Engine 說明文件中的 GPU 地區和區域可用性。
快照
為協助您管理串流管道的可靠性,您可以使用快照來儲存及還原管道狀態。快照用量是根據儲存的資料量計算,因此取決於下列因素:
- 擷取至串流管道的資料量
- 您的時間區間設定邏輯
- 管道階段的數量
您可以使用 Dataflow 主控台或 Google Cloud CLI 拍攝串流工作的快照。從快照建立工作來還原管道狀態無須支付額外費用。詳情請參閱使用 Dataflow 快照一文。
快照定價
機密 VM
Dataflow 專用的機密 VM 會加密工作站 Compute Engine VM 中使用的資料。詳情請參閱機密 VM 總覽。
在 Dataflow 中使用機密 VM 會產生額外的固定費率,每個 vCPU 和每 GB 的費用。
機密 VM 定價
價格為全球通用,不會因 Google Cloud 區域而變動。
非 Dataflow 資源
除了 Dataflow 用量之外,工作「可能」也會耗用其他資源,系統會分別依據各項資源的計費方式向您收費,這類資源包括但不限於:
-
Dataflow 工作會在管道執行期間使用 Cloud Storage 來儲存暫存檔案。如要避免支付不必要的儲存空間費用,請在 Dataflow 工作用於臨時儲存空間的值區上關閉虛刪除功能。詳情請參閱移除值區的虛刪除政策。
-
您可以將記錄檔轉送至其他目的地,或是在擷取作業中排除記錄檔。如要瞭解如何最佳化 Dataflow 工作的記錄檔資料量,請參閱控制 Dataflow 記錄檔量一文。
查看資源用量
您可以在「Resource metrics」(資源指標) 下的「Job info」(工作資訊) 面板中,查看與工作相關聯的 vCPU、記憶體和永久磁碟總數。您可以在 Dataflow 監控介面中追蹤下列指標:
- vCPU 總使用時間
- 記憶體總使用時間
- 永久磁碟總使用時間
- 已處理的串流資料總量
- 已處理的重組資料總數
- 已處理的計費重組資料
您可以使用已處理的重組資料總量指標評估管道效能,並使用已處理的計費重組資料指標判斷 Dataflow 工作的費用。
針對 Dataflow Prime,您可以在「Resource metrics」(資源指標) 下的「Job info」(工作資訊) 面板中查看工作使用的 DCU 總數。
Pricing Calculator
您可以使用 Google Cloud Pricing Calculator 來瞭解帳單所列費用的計算方式。
如果您使用美元以外的貨幣付費,則會按照 Cloud Platform SKU 頁面列出的相應貨幣價格計費。
後續步驟
- 參閱 Dataflow 說明文件。
- 開始使用 Dataflow。
- 試用 Pricing Calculator。
- 瞭解 Dataflow 解決方案與應用實例。