Cloud Dataflow

簡化串流作業和批次資料處理,並維持一貫的穩定與明確性

免費試用

加速開發,簡化管理

Cloud Dataflow 是一套全面管理化的服務,能夠轉換串流 (即時) 模式和批次 (過往) 模式的資料,讓資料多樣化並維持一貫的穩定與明確性,因此您再也無需採取複雜的應急方案或折衷辦法。此外,佈建和管理資源時無需依靠伺服器,因此您可以使用幾近無限的容量來解決您最大的資料處理難題,而且我們採以量計價方式,用多少就付多少。

Cloud Dataflow 可解鎖各個產業的轉換應用實例,包括:

  • check 零售業的點擊流 (Clickstream)、銷售點和市場區隔分析
  • check 金融服務業的詐欺偵測機制
  • check 遊戲業的個人化使用者體驗
  • check 製造業、醫療保健和物流業的 IoT 數據分析
faster-development-easier-management

加速批次和串流管道開發

Cloud Dataflow 透過 Apache Beam SDK 中淺顯易懂的 Java 和 Python API 支援快速和簡易的管道開發,提供一套豐富的時間區間設定和工作階段分析基本功能,以及含有原始碼和接受器連結工具的生態系統。另外,Beam 獨特的統一開發模型可讓您在串流和批次管道中重複使用更多程式碼。

accelerate-development-with-no-compromises

簡化營運和管理工作

GCP 的無伺服器方法能自動處理效能、資源調度、可用性、安全性和法規遵循相關作業,進而節省營運開銷,讓使用者專心處理程式設計工作,無需費心管理伺服器叢集。如果與 GCP 的統合式記錄和監控解決方案 Stackdriver 整合,您將可監控管道的執行狀況並排解問題。豐富的視覺化呈現、記錄和先進的警示功能可幫您找出潛在問題並快速回應。

simplify-operations-and-management

建立機器學習的基礎

使用 Cloud Dataflow 做為便利的整合點,將以 TensorFlow 為基礎的 Cloud Machine Learning 模型和 API 新增至您的資料處理管道,就能在詐欺偵測、即時個人化和其他類似用途中應用預測分析功能。

build-on-a-foundation-for-machine-learning

使用您慣用熟悉的工具

Cloud Dataflow 能與 GCP 服務完美整合,方便您進行串流事件擷取 (Cloud Pub/Sub)、資料倉儲 (BigQuery)、機器學習 (Cloud Machine Learning) 等工作;還能透過以 Beam 為基礎的 SDK,讓開發人員建立自訂延伸模組,甚至選擇替代的執行引擎,例如透過 Cloud Dataproc 或是在內部使用 Apache Spark。Apache Kafka 的用戶則可運用 Cloud Dataflow 連結器輕鬆完成與 GCP 的整合工作

use-your-favorite-and-familiar-tools

透過 Cloud Dataflow 執行資料轉換

diagram-dataflow

CLOUD DATAFLOW 功能與特點

自動化資源管理
Cloud Dataflow 能自動化佈建和處理資源的管理作業,如此一來,能夠盡量縮短延遲時間和增加使用時間,讓您不再需要手動建立或預訂執行個體。
動態重新平衡工作
工作分割作業自動化並最佳化,可動態地重新平衡延遲的工作,讓您不再需要去找「快速鍵」,也不用再預先處理輸入資料。
僅處理一次,展現可靠且一致的成果
內建支援容錯執行功能,無論資料大小、叢集大小、處理模式或流程複雜度,皆可展現一致且正確的成果。
自動水平調整資源
自動水平調整工作站資源,以達最佳總處理量,進而提供更好的整體性價比。
整合式程式設計模型
Apache Beam SDK 提供與 MapReduce 類似的豐富作業、強大的資料時間區間設定及精細的正確性控制,方便您進行串流和批次資料處理作業。
積極創新造福社群
開發人員如果想延伸 Cloud Dataflow 程式設計模型,可以建立分支及/或提交貢獻給 Apache Beam。

Cloud Dataflow 與 Cloud Dataproc 比較:您該使用哪一項產品?

Cloud Dataproc 和 Cloud Dataflow 都能用來處理資料,而它們的批次資料處理和串流功能也有重疊之處。您該如何決定哪一項產品比較適合您的環境使用?
Dataproc vs Dataflow

Cloud Dataproc

Cloud Dataproc 適用於依賴 Apache 大數據生態系統中特定元件的環境:

  • check 工具/套件
  • check 管道
  • check 現有資源的技能集

Cloud Dataflow

一般而言,全新環境建議使用 Cloud Dataflow:

  • check 營運負擔較少
  • check 運用統一的方法來開發批次或串流管道
  • check 使用 Apache Beam
  • check 以執行階段支援跨 Cloud Dataflow、Apache Spark 和 Apache Flink 的管道轉移

建議的工作負載

工作負載 CLOUD DATAPROC CLOUD DATAFLOW
串流處理 (ETL) check
批次處理 (ETL) check check
反覆處理及筆記 check
使用 Spark ML 進行機器學習 check
機器學習預先處理 check (使用 Cloud ML 引擎)

夥伴關係與整合

Google Cloud Platform 合作夥伴與第三方開發人員開發了 Dataflow 整合機制,能夠提供強大的處理功能,協助您快速輕鬆地執行各種規模的資料處理工作。

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

「在 Cloud Dataflow 上執行我們的管道,可讓我們把心力放在程式設計工作上,不必費心部署及維護執行這些程式碼的執行個體,這是 GCP 普遍的特點。」

- Jibran Saithi Qubit 首席建築師

為用戶著想的計價方式

Cloud Dataflow 工作以秒為單位計費,計費基礎為 Cloud Dataflow 批次或串流工作站的實際用量。如果工作耗用額外的 GCP 資源,如 Cloud Storage 或 Cloud Pub/Sub,這些資源會依其專屬的定價計費。

愛荷華州 奧勒岡州 北維吉尼亞州 南卡羅來納州 蒙特婁 聖保羅 比利時 倫敦 荷蘭 法蘭克福 孟買 新加坡 雪梨 台灣 東京
Cloud Dataflow 工作站類型 vCPU
$/小時
記憶體
$ GB/小時
儲存 - 標準永久磁碟
$ GB/小時
儲存 - SSD 永久磁碟
$ GB/小時
經 Shuffle 處理的資料3
$ GB4
批次1
串流2
如果您付款時使用的是美元以外的貨幣,系統將按照 Cloud Platform SKU 頁面上列出的相應貨幣價格來計費。

1 批次工作站預設配置:1 個 vCPU、3.75GB 記憶體、250GB 永久磁碟

2 串流工作站預設配置:4 個 vCPU、15GB 記憶體、420GB 永久磁碟

3 以伺服器為基礎的 Cloud Dataflow Shuffle 仍處於測試階段,目前僅提供 us-central1 (愛荷華州) 和 europe-west1 (比利時) 區域的批次管道。不過,我們日後會陸續在更多區域推出這項服務,敬請拭目以待!

4 如要進一步瞭解經 Shuffle 處理的資料,請參閱 Cloud Dataflow 定價