Dataflow 定價

本頁說明 Dataflow 的計費方式。如要查看其他產品的價格,請參閱價格說明文件

定價總覽

雖然費率是以小時為計費單位,不過 Dataflow 服務的用量是以為單位,且每項工作的費用分開計算。為了將以小時計費的方式套用至以秒為單位的使用量,我們會將用量以小數小時為單位來表示 (例如 30 分鐘為 0.5 小時)。工作站和工作使用資源的方式如下所述。

工作站和工作站資源

每項 Dataflow 工作至少會使用一個 Dataflow 工作站,Dataflow 服務提供「批次」和「串流」兩種工作站,批次和串流工作站有不同的服務費用。

Dataflow 工作站會使用下列資源,而這些資源都是採取以秒計費的收費方式。

批次和串流工作站是使用 Compute Engine 的特殊資源。不過請放心,Dataflow 工作不會因為使用 Dataflow 服務所管理的 Compute Engine 資源,而產生 Compute Engine 費用。Dataflow 服務費用即會包含這些 Compute Engine 資源。

您可以覆寫工作的預設工作站數量。如果啟用自動調度資源功能,您還可以指定分配給特定工作的工作站數量上限。系統會根據自動調度資源機制,自動為您新增和移除工作站及個別資源。

另外,您還可以使用管道選項來覆寫分配給每個工作站和使用 GPU 的預設資源設定 (包括機器類型、磁碟類型和磁碟大小)。

Dataflow 服務

Dataflow Shuffle 作業會以可擴充、高效率、能容錯的方式,按照鍵值將資料分區及分組。如需定價詳細資料,請參閱這份文件中的定價詳細資料

批次管道

以批次管道來說,Dataflow 提供高擴充性的功能「Dataflow Shuffle」,以重組工作站以外的資料。詳情請參閱 Dataflow Shuffle

重組時處理的資料量即為 Dataflow Shuffle。如需定價詳細資料,請參閱本文件中的 Dataflow Shuffle 定價詳細資料

串流管道

根據預設,Dataflow 使用的資料重組作業完全是在工作站虛擬機器上運作,這類作業會使用工作站的 CPU、記憶體和永久磁碟的儲存空間。

或者,您也可以使用 Streaming Engine。當您使用 Streaming Engine 時,Dataflow Streaming Engine 會將串流重組和狀態處理作業移出工作站 VM,並移入 Dataflow 服務後端。如要在串流管道中使用 Streaming Engine,請指定 Streaming Engine 管道參數

Streaming Engine 的使用費用是依據處理的串流資料量計算,並取決於擷取至串流管道中的資料量,以及管道階段的複雜程度和數量。會計入處理位元組數的項目實例如下:從資料來源輸入的資料流、從一個融合管道階段傳輸至其他融合階段的資料流、長期處於使用者定義狀態或用於維護期間的資料流,並將訊息輸出至資料接收器,例如 Pub/Sub 或 BigQuery。如需定價詳細資料,請參閱這份文件的定價詳細資料

FlexRS

Dataflow 也為用於批次處理的 CPU 和記憶體提供了定價折扣。彈性資源排程 (FlexRS) 在單一 Dataflow 工作站集區中結合了一般和先占 VM,讓使用者能存取更平價的處理資源。FlexRS 還會在 6 小時的時限內延後執行批次 Dataflow 工作,根據可用資源找出啟動工作的最佳時機。

Dataflow 雖然是搭配不同種類的工作站來執行 FlexRS 工作,但提供統一的折扣費率,價格要比一般 Dataflow 定價中的各種工作站都低。您可以指定 FlexRS 參數,藉此指示 Dataflow 將 FlexRS 用於自動調度資源的批次管道。

快照

您可以透過 Dataflow 的快照儲存及還原管道狀態,藉此管理串流管道的可靠性。快照用量的計算依據為儲存的資料量,資料量則取決於擷取至串流管道的資料量、視窗化邏輯和管道階段數。您可以使用 Dataflow 網頁版 UI 或 Google Cloud CLI 建立串流工作的快照。從快照建立工作來還原管道狀態無須支付額外費用。詳情請參閱使用 Dataflow 快照

Dataflow Prime

Dataflow Prime 是新的資料處理平台,以 Dataflow 為基礎打造而成,可改善資源使用率和分散式診斷作業。

執行 Dataflow Prime 的工作是以工作耗用的 Dataflow 處理單元 (DPU) 數量計費。DPU 代表分配給執行管道的運算資源。

什麼是 Dataflow 處理單位?

Dataflow 處理單位 (DPU) 是一種 Dataflow 用量計算單位,用於追蹤工作耗用的資源量。DPU 會追蹤各種資源的用量,包括運算、記憶體、磁碟儲存空間、重組資料 (如果是批次工作) 和處理的串流資料 (如果是串流工作)。耗用較多資源的工作與耗用較少資源的工作相比,DPU 用量較高。雖然工作耗用的各種資源與 DPU 之間沒有一對一的對應關係,但 1 個 DPU 為相當於以下 Dataflow 工作所使用的資源:在配備 250 GB 永久磁碟的 1 個 vCPU 4 GB 工作站上執行 1 個小時。

如何最佳化工作耗用的 Dataflow 處理單元數?

您無法設定工作的 DPU 數量,系統會按 Dataflow Prime 計算 DPU,但可以瞄準下列的工作層面,藉此減少 DPU 的數量:

  • 減少記憶體耗用量。
  • 使用篩選器、合併器和高效率編碼器,減少重組步驟處理的資料量。

您可以使用 Dataflow 監控介面執行作業詳細資料介面來識別這些最佳化項目。

Dataflow 處理單元的計費方式為何?

我們會根據工作在指定小時內耗用的 DPU 總數計費,單一 DPU 的價格會因批次或串流類型而異。

如果您使用美元以外的貨幣付費,系統將按照 Cloud Platform SKU 頁面上列出的相應貨幣價格計費。

如何限制工作耗用的 Dataflow 處理單元數?

工作可耗用的 DPU 總數受限於工作可耗用的資源數量上限。您也可以為工作設定工作站數量上限,藉此限制工作可耗用的 DPU 數量。

Dataflow Prime 與 Dataflow 的定價模式有何不同?

在 Dataflow 模型中,系統會依據工作耗用的不同資源 (vCPU、記憶體、儲存空間) 以及 Dataflow Shuffle 或 Streaming Engine 處理的資料量收費。

Dataflow 處理單元會將這些資源合併成單一計量單位。系統會根據工作類型 (批次或串流) 來向您收取 DPU 數量的費用。將 DPU 與實體資源分離,可讓您比較工作之間的費用並追蹤 Dataflow 的長期用量。詳情請參閱使用 Dataflow Prime 的相關說明。

使用 Dataflow 定價模式的現有工作會受到什麼影響?

現有批次和串流工作仍按照 Dataflow 模式繼續計費。您將工作更新為使用 Dataflow Prime 時,系統才會依據實際使用的 DPU 向您收費。

其他工作資源

除了工作站資源用量之外,工作「可能」也會耗用其他資源 (系統會分別依據各項資源的計價方式向您收費)。這類資源包括但不限於:

定價詳細資料

日後推出的新版 Dataflow 可能會收取其他的服務費用,或是提供相關服務的套裝方案。

如要進一步瞭解可用地區及當中的區域,請參閱 Compute Engine 的地區和區域頁面。

工作站資源定價

如果您使用美元以外的貨幣付費,系統將按照 Cloud Platform SKU 頁面上列出的相應貨幣價格計費。

其他資源定價

下列資源的計費方式與串流、批次和 FlexRS 工作相同。

如果您使用美元以外的貨幣付費,系統將按照 Cloud Platform SKU 頁面上列出的相應貨幣價格計費。

1 批次工作站預設配置:1 個 vCPU、3.75 GB 的記憶體、250 GB 的永久磁碟

2 FlexRS 工作站預設配置:2 個 vCPU、7.50 GB 的記憶體、每個工作站皆有 25 GB 的永久磁碟 (至少可使用兩個工作站)

3 串流工作站預設配置:4 個 vCPU、15 GB 的記憶體、400 GB 的永久磁碟

4 這項功能適用於所有支援 Dataflow 的區域。如要查看適用的位置,請參閱 Dataflow 位置

重組資料集時,系統會調整讀取和寫入作業中處理的資料量,並依據調整項計算 Dataflow Shuffle 的費用。詳情請參閱 Dataflow Shuffle 定價詳細資料

5 這項功能適用於所有支援 Dataflow 的區域。如要查看適用的位置,請參閱 Dataflow 位置

Dataflow Shuffle 定價詳細資料

系統會調整 Dataflow Shuffle 作業中處理的資料總量,並依據調整項計算各項 Dataflow 工作的費用。 您實際為 Dataflow Shuffle 資料處理量支付的費用金額,等同於以原價處理較少量的資料 (少於 Dataflow 工作實際處理的資料量)。因此,會產生費用的 Dataflow Shuffle 資料量指標會小於 Dataflow Shuffle 資料總量指標。

下表說明調整項的套用方式:

工作中處理的資料量 帳單調整項
前 250 GB 減少 75%
接下來的 4870 GB 減少 50%
超過 5120 GB (5 TB) 的資料

舉例來說,假設您的管道總共透過 Dataflow Shuffle 處理了 1024 GB (1 TB) 的資料,會產生費用的資料量即如下所示:250 GB * 25% + 774 GB * 50% = 449.5 GB * 該地區的 Dataflow Shuffle 資料處理費率。如果您的管道總共透過 Dataflow Shuffle 處理了 10240 GB (10 TB) 的資料,會產生費用的資料量即如下所示:250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB。

快照定價

如果您使用美元以外的貨幣付費,系統將按照 Cloud Platform SKU 頁面上列出的相應貨幣價格計費。

Dataflow 快照將在正式發布後於其他區域提供。

查看用量

如要查看某項工作共使用了多少 vCPU、記憶體和永久磁碟等資源,請前往 Google Cloud Console,或是使用 gcloud 指令列工具。如要追蹤實際與應付費的處理重組資料量和處理串流資料量指標,則可使用 Dataflow Monitoring 介面。您可以參考實際處理的重組資料量來評估管道的成效,並依據計費的已處理重組資料量判斷 Dataflow 工作的費用。以處理的串流資料量來說,實際資料量和付費資料量的指標完全相同。

Pricing Calculator

您可以使用 Google Cloud Pricing Calculator 來瞭解帳單所列費用的計算方式。

後續步驟

要求自訂報價

Google Cloud 採「即付即用」的定價方式,因此您只需要為實際使用的服務付費。請與我們的銷售團隊聯絡,為貴機構取得自訂報價。
聯絡銷售人員