Cloud Dataflow

全方位管理的資料處理服務,支援流程的串流與批次執行

免費試用

管理並整合

Dataflow 是整合式的程式設計模型,也是受管理的服務,可用於開發和執行各種資料處理模式,包括 ETL、批次運算和持續不間斷的運算作業。只要使用 Cloud Dataflow,您就無需擔心資源管理和效能最佳化等與操作相關的工作。

全方位管理

這個受管理的服務顯然可處理資源生命週期的相關工作,並可動態地提供資源,在盡量縮短延遲時間的同時,維持高使用率。Dataflow 資源會依需求配置,為您提供幾乎無限制的資源量,以解決大型資料處理作業面臨的挑戰。

整合式程式設計模型

Apache Beam SDK 提供程式設計基本功能,例如強大的時間區間設定與正確性控制,這些基本功能可套用在批次和串流資料來源上。不論資料來源為何,Apache Beam 模型皆能協助開發人員實現運算要求,進而有效地免去批次與持續串流處理間的程式設計模型切換成本

整合式開放原始碼

Dataflow 的開發基礎包括了各種服務如 Google Compute Engine,因此在操作方面是您很熟悉的運算環境,還能完美整合 Cloud Storage、Cloud Pub/Sub、Cloud Datastore、Cloud Bigtable 及 BigQuery。可在 Java 和 Python 中使用的 Apache Beam SDK,則能讓開發人員實作自訂延伸模組,並可選擇替代的執行引擎。

夥伴關係與整合

Google Cloud Platform 合作夥伴與第三方開發人員開發了與 Dataflow 的整合方式,能讓您快速輕鬆地執行強大的資料處理工作,且不受資料大小的限制。整合是透過 Dataflow 提供的開放式 API 完成。

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

Dataflow 功能與特點

在大規模資料處理工作上展現可靠的執行能力

資源管理
Cloud Dataflow 能將必須處理資源的管理作業完全自動化。 您不再需要手動建立執行個體。
隨需提供
所有資源皆隨需提供,根據您的業務需求靈活調整。您不再需要購買專用的運算執行個體。
智慧型工作排程
工作分割作業自動化並最佳化,可動態地重新平衡遲延的工作。您不再需要去找快速鍵,也不用再預先處理輸入資料。
自動調整資源配置
自動水平調整工作站資源,以滿足最佳總處理量的要求,進而提供更好的整體性價比。
整合式程式設計模型
Dataflow API 能讓您陳述類似 MapReduce 的作業、強大的資料時間區間設定及精細的正確性控制,而不受資料來源的限制。
開放原始碼
開發人員若想要延伸 Dataflow 程式設計模型,可以在 Apache Beam SDK 上建立分支及/或提交提取要求。Dataflow 流程也可以在替代的執行階段上執行,例如 Spark 及 Flink。
監控
Cloud Dataflow 在與 Google Cloud Platform 主控台整合後,不但能提供各種統計資料 (如流程總處理量與延遲),還能讓您檢查匯總的工作站紀錄,這一切幾乎能即時執行完成。
整合性
整合 Cloud Storage、Cloud Pub/Sub、Cloud Datastore、Cloud Bigtable 及 BigQuery,能展現完美的資料處理能力。經過延伸後,還可與其他來源及接收器互動,例如 Apache Kafka 和 HDFS。
可靠一致的處理能力
Cloud Dataflow 內建支援容錯執行功能,無論資料大小、叢集大小、處理模式或流程複雜度,皆可展現一致且正確的成果。

「對於 Wix.com 來說,串流 Google Cloud Dataflow 完全能滿足時間序列分析平台的要求,特別是在可擴充性、低延遲資料處理及容錯運算方面。廣泛的資料收集轉換與群組作業則讓我們能實作複雜的串流資料處理演算法。」

- Gregory Bondar 博士 Wix.com 資料服務平台資深總監

Dataflow 定價摘要

Cloud Dataflow 工作依分鐘數計費,計費基礎為至少使用一個 Cloud Dataflow 批次或串流工作站。Dataflow 工作可能會耗用額外的 GCP 資源,如 Cloud Storage、Cloud Pub/Sub 或其他項目,這些資源會依其專屬的定價計費。如需詳細的定價資訊,請查看定價指南

愛荷華州 奧勒岡州 南卡羅來納州 比利時 台灣 東京
Dataflow 工作站類型 vCPU
$/小時
記憶體
$ GB/小時
本機儲存空間 - 永久磁碟
$ GB/小時
本機儲存空間 - SSD
$ GB/小時
批次 1
串流 2

1 批次工作站預設:1 個 vCPU、3.75GB 記憶體、250GB PD。

2 串流工作站預設:4 個 vCPU、15GB 記憶體、420GB PD。

Apache®、Apache Beam 及橘色英文字母 B 標誌為 Apache Software Foundation 在美國及/或其他國家/地區的註冊商標或商標。

隨時隨地監控你的資源

下載 Google Cloud Console 應用程式,管理專案更加得心應手。