Cloud Dataflow

簡化串流作業和批次資料處理,並維持一貫的穩定與明確性

免費試用

加速開發,簡化管理

Cloud Dataflow 是一套全代管服務,能夠轉換串流 (即時) 模式和批次 (過往) 模式的資料,讓資料更加豐富,同時維持一貫的穩定與明確性,因此您再也無需採取複雜的應急方案或折衷辦法。此外,佈建和管理資源時無需依靠伺服器,因此您可以使用幾近無限的容量來解決您最大的資料處理難題,而且我們採以量計價方式,用多少就付多少。

Cloud Dataflow 為各個產業促成了各種革命性的應用實例,包括:

  • 零售業的點擊流 (Clickstream)、銷售點和市場區隔分析
  • 金融服務業的詐欺偵測機制
  • 遊戲業的個人化使用者體驗
  • 製造業、醫療保健業和物流業的 IoT 數據分析
faster-development-easier-management

加速批次和串流開發

Cloud Dataflow 讓您使用 Apache Beam SDK 的簡易 SQL、Java 和 Python API,輕鬆快速完成管道開發工作。Apache Beam SDK 還可提供豐富的時間區間設定和工作階段分析基元,以及各式來源與接收器連接器的生態系統。另外,Beam 獨特的統一開發模型可讓您在串流和批次管道中重複使用更多程式碼。

如想收到 Dataflow SQL 未來推出 Alpha 版的通知,請填寫這張表單。我們會主動與您聯絡,通知您何時可使用。

accelerate-development-with-no-compromises

簡化營運和管理工作

GCP 的無伺服器方法能自動處理效能、資源調度、可用性、安全性和法規遵循相關作業,進而節省營運開銷,讓使用者專心處理程式設計工作,無需費心管理伺服器叢集。如果與 GCP 的統合式記錄和監控解決方案 Stackdriver 整合,您將可監控管道的執行狀況並排解問題。豐富的視覺化呈現、記錄和先進的警示功能可幫您找出潛在問題並快速回應。

simplify-operations-and-management

建立機器學習的基礎

使用 Cloud Dataflow 做為便利的整合點,將以 TensorFlow 為基礎的 Cloud Machine Learning 模型和 API 新增至您的資料處理管道,就能在詐欺偵測、即時個人化和其他類似用途中應用預測分析功能。

build-on-a-foundation-for-machine-learning

使用您慣用熟悉的工具

Cloud Dataflow 能與各項 GCP 服務完美整合,方便您進行串流事件擷取 (Cloud Pub/Sub)、資料倉儲 (BigQuery) 和機器學習 (Cloud Machine Learning) 等作業。還能透過以 Beam 為基礎的 SDK,讓開發人員建立自訂延伸模組,甚至選擇替代的執行引擎,例如透過 Cloud Dataproc 或是在內部使用 Apache Spark。Apache Kafka 的用戶則可運用 Cloud Dataflow 連結器輕鬆完成與 GCP 的整合工作

use-your-favorite-and-familiar-tools

透過 Cloud Dataflow 執行資料轉換

diagram-dataflow

CLOUD DATAFLOW 功能與特點

自動化資源管理
Cloud Dataflow 能自動化佈建和處理資源的管理作業,如此一來,能夠盡量縮短延遲時間和增加使用時間,讓您不再需要手動建立或預訂執行個體。
動態重新平衡工作
工作分割作業自動化並最佳化,可動態地重新平衡延遲的工作,讓您不再需要去找「快速鍵」,也不用再預先處理輸入資料。
僅處理一次,展現可靠且一致的成果
內建容錯運轉機制,無論資料大小、叢集大小、處理模式或管道複雜度為何,皆可展現一致且正確的成果。
自動水平調整資源配置
自動水平調整工作站的資源配置,以更優秀的整體性價比達到最佳總處理量。
整合式程式設計模型
Apache Beam SDK 提供與 MapReduce 類似的豐富運算、強大的資料時間區間設定及精細的正確性控制,方便您進行串流和批次資料處理作業。
積極創新造福社群
開發人員如果想延伸 Cloud Dataflow 程式設計模型,可以建立分支及/或參與及協助 Apache Beam 的開發作業。
批次處理的彈性資源排程定價
針對彈性安排工作時間 (例如整夜執行工作) 的處理,彈性資源排程為批次處理提供較低的價格。系統會先將這些彈性的工作排入佇列中,在六小時內一定會擷取出來,進入執行階段。

Cloud Dataflow 與 Cloud Dataproc 比較:您該使用哪項產品?

Cloud Dataproc 和 Cloud Dataflow 都能用來處理資料,而它們的批次資料處理和串流功能也有重疊之處。您該如何決定哪一項產品比較適合您的環境使用?
Dataproc vs Dataflow

Cloud Dataproc

Cloud Dataproc 適用於依賴 Apache 大數據生態系統中特定元件的環境:

  • 工具/套件
  • 管道
  • 現有資源的相關技能

Cloud Dataflow

一般而言,全新環境建議使用 Cloud Dataflow:

  • 作業負擔較低
  • 以一致的方式開發批次或串流管道
  • 使用 Apache Beam
  • 以執行階段的形式提供服務,方便您在 Cloud Dataflow、Apache Spark 和 Apache Flink 之間轉移管道

建議的工作負載類型

工作負載 CLOUD DATAPROC CLOUD DATAFLOW
串流處理 (ETL)
批次處理 (ETL)
反覆處理及筆記
使用 Spark ML 進行機器學習
機器學習預先處理 (使用 Cloud ML 引擎)

夥伴關係與整合機制

Google Cloud Platform 合作夥伴與第三方開發人員開發了 Dataflow 整合機制,能夠提供強大的處理功能,協助您快速輕鬆地執行各種規模的資料處理工作。

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

「在 Cloud Dataflow 上執行我們的管道,可讓我們把心力放在程式設計工作上,不必費心部署及維護執行這些程式碼的執行個體,這是 GCP 普遍的特點。」

- Jibran Saithi Qubit 首席架構師

貼心的計價方式

Cloud Dataflow 工作以秒為單位計費,計費基礎為 Cloud Dataflow 批次或串流工作站的實際用量。如果工作耗用額外的 GCP 資源,如 Cloud Storage 或 Cloud Pub/Sub,這些資源會依其專屬的定價計費。

愛荷華州 (us-central1) 洛杉磯 (us-west2) 奧勒岡州 (us-west1) 北維吉尼亞州 (us-east4) 南卡羅來納州 (us-east1) 蒙特婁 (northamerica-northeast1) 聖保羅 (southamerica-east1) 比利時 (europe-west1) 芬蘭 (europe-north1) 法蘭克福 (europe-west3) 倫敦 (europe-west2) 荷蘭 (europe-west4) 蘇黎世 (europe-west6) 孟買 (asia-south1) 新加坡 (asia-southeast1) 雪梨 (australia-southeast1) 香港 (asia-east2) 台灣 (asia-east1) 東京 (asia-northeast1) 大阪 (asia-northeast2)
Cloud Dataflow 工作站類型 vCPU
$/小時
記憶體
$ GB/小時
儲存 - 標準永久磁碟
$ GB/小時
儲存 - SSD 永久磁碟
$ GB/小時
處理資料量45
$ GB6
批次 1
FlexRS 2
串流 3
如果您使用美元以外的貨幣付費,系統將按照 Cloud Platform SKU 頁面上列出的相應貨幣價格來計費。

1 批次工作站預設配置:1 個 vCPU、3.75 GB 記憶體、250 GB 永久磁碟

2 FlexRS 工作站預設配置:2 個 vCPU、7.50 GB 記憶體、每個工作站 25 GB 永久磁碟,至少兩個工作站

3 串流工作站預設配置:4 個 vCPU、15 GB 記憶體、420 GB 永久磁碟

4 Cloud Dataflow Shuffle 目前在以下地區供批次管道使用:

  • us-central1 (愛荷華州)
  • europe-west1 (比利時)
  • europe-west4 (荷蘭)
  • asia-northeast1 (東京)

不過,我們日後會陸續在更多地區推出這項服務,敬請拭目以待!

5 Cloud Dataflow Streaming Engine 採用「已處理的串流資料量」為計價單位。Streaming Engine 可在下列地區使用:

  • us-central1 (愛荷華州)
  • europe-west1 (比利時)
  • asia-northeast1 (東京)
  • europe-west4 (荷蘭)
不過,我們日後會陸續在更多地區推出這項服務,敬請拭目以待!

6 如要進一步瞭解「已處理的資料量」,請參閱 Cloud Dataflow 計價方式一文。

傳送您對下列選項的寶貴意見...

這個網頁
Cloud Dataflow