可彈性擴充的高效能 VM
高速整合式串流及批次資料處理服務

Dataflow 是一項全代管的串流分析服務,能透過自動調度資源及批次處理功能,將延遲時間、處理時間及成本降到最低。此外,佈建和管理資源時無需依靠伺服器,因此您可以使用幾近無限的容量來解決您最大的資料處理難題,而且這項服務採以量計價方式,用多少就付多少。

  • 自動佈建及管理處理資源
  • 自動水平調度工作站的資源,盡可能提升資源利用率
  • 整合式串流與批次程式設計模型
  • 透過 Apache Beam SDK,在 OSS 社群的推動下進行創新
  • 僅需處理一次,且可靠又一致

快速進行串流資料分析

Dataflow 可讓您可快速執行簡化的串流資料管道開發作業,同時縮短資料延遲時間。

簡化營運和管理工作

Dataflow 不需依靠伺服器,因此可免除資料工程工作負載的營運負擔,讓團隊專注於程式設計,不必費心管理伺服器叢集。

減少總持有成本

Dataflow 同時擁有自動調度資源功能和具絕佳成本效益的批次處理功能,可提供幾近無限的容量,讓您有效管理季節性與激增的工作負載,而不必擔心超支。

主要功能

自動管理資源及動態重新平衡工作

Dataflow 可自動佈建及管理處理資源,以盡量縮短延遲時間和增加使用率,讓您不必手動啟動或保留執行個體。此外,Dataflow 也會自動分割工作,並將這項作業最佳化,藉此動態重新平衡延遲的工作。您不必去找「快速鍵」,也不用再預先處理輸入資料。

自動水平調度資源

自動水平調度工作站的資源,以更優異的整體性價比達到最佳總處理量。

針對批次處理提供彈性的資源排程定價

針對可彈性安排工作時間的處理作業 (例如整夜處理的工作),您可以選擇使用彈性資源排程 (FlexRS),這樣就能以較低的價格執行批次處理作業。系統會將這些彈性工作排入佇列中,並保證在六小時內擷取出來,進入執行階段。

查看所有功能

客戶經驗談

重點整理

  • 整合超過 30 年的非結構化新聞資料,以評估重要事件的定性業務影響

  • 定義複雜的網路作業,找出隱藏的關係和深入分析資訊

  • 在 10 週內輕鬆設計出知識圖譜原型

合作夥伴

查看更多客戶

最新資訊

說明文件

教學課程
透過 Python 使用 Dataflow 的快速入門導覽課程

設定您的 Google Cloud 專案及 Python 開發環境、取得 Apache Beam SDK,並在 Dataflow 服務上執行和修改 WordCount 範例。

教學課程
使用 Dataflow SQL

建立 SQL 查詢並部署 Dataflow 工作,以便透過 Dataflow SQL UI 執行 SQL 查詢。

教學課程
安裝 Apache Beam SDK

安裝 Apache Beam SDK,以便在 Dataflow 服務上執行管道。

教學課程
使用 Apache Beam 和 TensorFlow 進行機器學習

使用 Apache Beam、Dataflow 和 TensorFlow 預先處理及訓練分子能量機器學習模型,並產生預測結果。

常見用途

串流分析

Google Cloud 的串流分析功能可在資料產生時立即加以處理,使資料變得更井然有序、更實用,且更方便存取。我們的串流解決方案採用 Dataflow 的自動調度資源基礎架構,並結合了 Pub/Sub 和 BigQuery,可為您佈建所需的資源來擷取、處理和分析資料量隨時在波動的即時資料,以用於產生即時業務深入分析結果。這種簡化的佈建作業流程可降低複雜度,並讓資料分析師和資料工程師可取得串流分析結果。

串流分析架構圖TriggerAnalyzeActivateData StudioThird-party BlCreation FlowConfigure source to push event message to Pub/Sub Topic Create Pub/Sub Topic and Subscription Deploy streaming or batch Dataflow job using templates, CLI, or notebooksCreate dataset, tables, and models to receive streamBuild real-time dashboards and call external APIs IngestEnrichAnalyzeActivateEdgeMobileWebData StoreIoTPub/SubBigQueryAl PlatformBigtable Cloud FunctionsDataflow StreamingApache Beam (SDK)Dataflow BatchBackfill/ReprocessArchitecture
感應器和記錄檔資料處理

利用智慧型 IoT 平台,透過全球裝置網路取得業務深入分析資料。

即時 AI

Dataflow 可在 Google Cloud 的 AI PlatformTensorFlow Extended (TFX) 中導入串流事件,以用於預測分析、詐欺偵測、即時個人化和其他進階分析用途。TFX 使用 Dataflow 和 Apache Beam 做為分散式資料處理引擎,藉此實現機器學習生命週期的多個面向,且這些面向全都可在 Kubeflow 管道中,透過機器學習持續整合/持續推送軟體更新來加以支援。

所有功能

自動調度資源 Dataflow 服務可透過自動調度資源功能,自動選擇執行工作所需的適當工作站執行個體數量。在執行階段期間,Dataflow 服務也可能會根據工作的特性,動態重新分配更多或更少工作站。
Streaming Engine Streaming Engine 可將運算和狀態儲存空間分開,並將部分管道執行作業移出工作站 VM,並移入 Dataflow 服務後端,藉此大幅改善自動調度資源成效和資料延遲。
Dataflow Shuffle 以服務為基礎的 Dataflow Shuffle 會將重組作業 (用於將資料分組和彙整資料) 移出工作站 VM,並移入 Dataflow 服務後端以用於批次管道。批次管道不必進行任何微調,即可流暢擴充至數百 TB。
Dataflow SQL Dataflow SQL 可讓您直接透過 BigQuery 網頁版 UI,利用 SQL 開發串流 Dataflow 管道。您可以將 Pub/Sub 的串流資料和 Cloud Storage 中的檔案或 BigQuery 中的資料表彙整在一起、將結果寫入 BigQuery,並使用 Google 試算表或其他 BI 工具建構即時資訊主頁。
彈性資源排程 (FlexRS) Dataflow FlexRS 會使用進階排程技術、Dataflow Shuffle 服務,並結合先占虛擬機器 (VM) 執行個體和一般 VM,藉此減少批次處理費用。
Dataflow 範本 Dataflow 範本可讓您與機構中的團隊成員輕鬆分享管道,或利用許多 Google 提供的範本來實作簡單但實用的資料處理工作。
內嵌監控 Dataflow 的內嵌監控功能可讓您與工作互動,並直接存取工作指標。您也可以針對資料過時和系統延遲時間過長等情況設定快訊。
客戶管理的加密金鑰 您可以建立受客戶管理的加密金鑰 (CMEK) 保護的批次或串流管道,或存取來源和接收器中受 CMEK 保護的資料。
Dataflow VPC Service Controls Dataflow 與 VPC Service Controls 相互整合,可讓您更有效降低資料遭到竊取的風險,進而為您的資料處理環境增添額外安全防護。
私人 IP 關閉公開 IP 可以為您的資料處理基礎架構提供更完善的保護。如果 Dataflow 工作站未使用公開 IP 位址,您還可以藉此減少計入 Google Cloud 專案配額的公開 IP 位址數量。

定價

Dataflow 工作以秒為單位計費,且您只需為 Dataflow 批次或串流工作站的實際用量支付費用。如果工作耗用額外的 Google Cloud 資源 (如 Cloud Storage 或 Pub/Sub),這些資源會依該服務的定價計費。

查看定價詳細資料

合作夥伴

Google Cloud 合作夥伴與第三方開發人員開發了 Dataflow 整合機制,能夠提供強大的處理功能,協助您快速輕鬆地執行各種規模的資料處理工作。