Cloud Dataflow

簡化資料串流和批次處理作業,並維持一貫的穩定與明確性

免費試用

加速開發,簡化管理

Cloud Dataflow 是一套全代管服務,能夠轉換串流 (即時) 模式和批次 (過往) 模式的資料,讓資料變得更加豐富,同時維持一貫的穩定與明確性,因此您再也無需採取複雜的應急方案或折衷辦法。此外,佈建和管理資源時無需依靠伺服器,因此您可以使用幾近無限的容量來解決您最大的資料處理難題,而且我們採以量計價方式,用多少就付多少。

Cloud Dataflow 為各個產業促成了各種革命性的應用實例,包括:

  • 零售業的點擊流 (Clickstream)、銷售點和市場區隔分析
  • 金融服務業的詐欺偵測機制
  • 遊戲業的個人化使用者體驗
  • 製造業、醫療照護業和物流業的 IoT 數據分析
faster-development-easier-management

加速批次和串流開發

Cloud Dataflow 透過 Apache Beam SDK 中淺顯易懂的 SQL、Java 和 Python API,支援快速又簡易的管道開發,提供一套豐富的時間區間設定和工作階段分析基本功能,以及含有原始碼和接收器連接工具的生態系統。另外,Beam 獨特的統一開發模型,可讓您在串流和批次管道中重複使用更多程式碼。

Dataflow SQL 即將推出 Alpha 版,如想收到使用通知,請填寫這張表單。我們會主動與您聯絡,通知您何時可使用。

accelerate-development-with-no-compromises

簡化營運和管理工作

GCP 的無伺服器方法能自動處理效能、資源調度、可用性、安全性和法規遵循相關作業,進而節省營運開銷,讓使用者專心處理程式設計工作,無需費心管理伺服器叢集。如果與 GCP 的統合式記錄和監控解決方案 Stackdriver 整合,您將可監控管道的執行狀況並排解問題。豐富的視覺化呈現、記錄和先進的警示功能,可幫您找出潛在問題並快速回應。

simplify-operations-and-management

建立機器學習的基礎

使用 Cloud Dataflow 做為便利的整合點,即可透過 Google Cloud 的 AI Platform TensorFlow Extended (TFX),運用詐欺偵測、即時個人化等其他預測分析功能。TFX 使用 Cloud Dataflow 和 Apache Beam 做為分散式資料處理引擎, 實現機器學習生命週期的多個層面。

build-on-a-foundation-for-machine-learning

使用您慣用熟悉的工具

Cloud Dataflow 可以與各項 GCP 服務完美整合,以便您使用串流事件擷取 (Cloud Pub/Sub)、資料倉儲技術 (BigQuery) 和機器學習 (Cloud AI Platform) 等功能,還能透過以 Beam 為基礎的 SDK,讓開發人員建立自訂延伸模組,甚至選擇替代的執行引擎,例如 Apache Spark。Apache Kafka 的使用者則可運用 Cloud Dataflow 連接器輕鬆完成與 GCP 的整合工作

use-your-favorite-and-familiar-tools

透過 Cloud Dataflow 執行資料轉換

diagram-dataflow

CLOUD DATAFLOW 功能與特點

自動化資源管理
Cloud Dataflow 能自動化處理資源的佈建和管理作業,如此一來,能夠盡量縮短延遲時間和增加使用時間,讓您不再需要手動啟用或預訂執行個體。
動態重新平衡工作
自動最佳化工作分割作業,並動態地重新平衡延遲的工作,讓您不再需要去找「快速鍵」,也不用再預先處理輸入資料。
僅需處理一次,展現可靠且一致的成果
內建支援容錯執行功能,無論資料大小、叢集大小、處理模式或管道複雜度為何,皆可展現一致且正確的成果。
自動水平調整資源配置
自動水平調整工作站的資源配置,以更優秀的整體性價比達到最佳總處理量。
整合式程式設計模型
Apache Beam SDK 提供與 MapReduce 類似的豐富運算、強大的資料時間區間設定及精細的正確性控制,方便您進行串流和批次資料處理作業。
積極創新造福社群
開發人員如果想延伸 Cloud Dataflow 程式設計模型,可以建立分支及/或參與協助 Apache Beam 的開發作業。
批次處理的彈性資源排程定價
針對彈性安排工作時間 (例如整夜執行工作) 的處理,彈性資源排程為批次處理提供較低的價格。系統會將這些彈性工作排入佇列中,並在六小時內擷取出來,進入執行階段。

Cloud Dataflow 與 Cloud Dataproc 比較:您該使用哪項產品?

Cloud Dataproc 和 Cloud Dataflow 都能用來處理資料,而兩者的批次資料處理和串流功能也有重疊之處。那麼,如何決定哪一項產品比較適合您的環境使用?
Dataproc 與 Dataflow

Cloud Dataproc

Cloud Dataproc 適用於依賴 Apache 大數據生態系統中特定元件的環境:

  • 工具/套件
  • 管道
  • 現有資源的相關技能

Cloud Dataflow

一般而言,全新環境建議使用 Cloud Dataflow:

  • 作業負擔較低
  • 以一致的方式開發批次或串流管道
  • 使用 Apache Beam
  • 以執行階段的形式提供服務,讓您在 Cloud Dataflow、Apache Spark 和 Apache Flink 之間遷移管道

建議的工作負載類型

工作負載 CLOUD DATAPROC CLOUD DATAFLOW
串流處理 (ETL)
批次處理 (ETL)
反覆處理及筆記本
使用 Spark ML 進行機器學習
機器學習搭配 Cloud AI PlatformTensorFlow Extended (TFX)

夥伴關係與整合

Google Cloud Platform 合作夥伴與第三方開發人員開發了 Dataflow 整合機制,能夠提供強大的處理功能,協助您快速輕鬆地執行各種規模的資料處理工作。

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

「在 Cloud Dataflow 上執行我們的管道,可讓我們把心力放在程式設計工作上,不必費心部署及維護執行這些程式碼的執行個體,這是 GCP 普遍的特點。」

- Jibran Saithi Qubit 首席架構師

貼心的計價方式

Cloud Dataflow 工作以秒為單位計費,計費基礎為 Cloud Dataflow 批次或串流工作站的實際用量。如果工作耗用額外的 GCP 資源 (如 Cloud Storage 或 Cloud Pub/Sub),這些資源會依其專屬的定價計費。

1 批次工作站預設配置:1 個 vCPU、3.75 GB 的記憶體、250 GB 的永久磁碟

2 FlexRS 工作站預設配置:2 個 vCPU、7.50 GB 的記憶體、每個工作站皆有 25 GB 的永久磁碟 (至少可使用兩個工作站)

3 串流工作站預設配置:4 個 vCPU、15 GB 的記憶體、420 GB 的永久磁碟

4 下列地區中的批次管道目前均可使用 Dataflow Shuffle:

  • us-central1 (愛荷華州)
  • us-east1 (南卡羅來納州)
  • us-west1 (奧勒岡州)
  • europe-west1 (比利時)
  • europe-west4 (荷蘭)
  • asia-east1 (台灣)
  • asia-northeast1 (東京)

我們日後會陸續在更多地區推出這項服務。

5 Dataflow Streaming Engine 採用「已處理的串流資料量」為計價單位。目前 Streaming Engine 可在下列地區使用:

  • us-central1 (愛荷華州)
  • us-east1 (南卡羅來納州)
  • us-west1 (奧勒岡州)
  • europe-west1 (比利時)
  • europe-west4 (荷蘭)
  • asia-east1 (台灣)
  • asia-northeast1 (東京)
我們日後會陸續在更多地區推出這項服務。

6 如要進一步瞭解「已處理的資料量」,請參閱 Cloud Dataflow 定價說明。

傳送您對下列選項的寶貴意見...

這個網頁
Cloud Dataflow
需要協助嗎?請前往我們的支援網頁