Dataflow

無伺服器、快速且具成本效益的整合式串流與批次資料處理服務。

免費試用 Dataflow
  • action/check_circle_24px Created with Sketch.

    全代管的資料處理服務

  • action/check_circle_24px Created with Sketch.

    自動佈建及管理資源處理作業

  • action/check_circle_24px Created with Sketch.

    自動水平調度工作站的資源,盡可能提升資源使用率

  • action/check_circle_24px Created with Sketch.

    透過 Apache Beam SDK,在 OSS 社群的推動下進行創新

  • action/check_circle_24px Created with Sketch.

    僅需處理一次,且可靠又一致

快速進行串流資料分析

Dataflow 可讓您快速執行簡化的串流資料管道開發作業,同時縮短資料延遲時間。

簡化營運和管理工作

Dataflow 不需依靠伺服器,因此可免除資料工程工作負載的營運負擔,讓團隊專注於程式設計,不必費心管理伺服器叢集。

減少總持有成本

Dataflow 同時擁有自動調度資源功能和具絕佳成本效益的批次處理功能,可提供幾近無限的容量,讓您有效管理季節性與激增的工作負載,而不必擔心超支。

主要功能與特色

自動管理資源及動態重新平衡工作

Dataflow 可自動佈建及管理資源處理作業,盡可能地縮短延遲時間及提升使用率,讓您不必以手動方式啟動或保留執行個體。另外,Dataflow 也會自動分割工作,並將這項作業最佳化,藉此動態重新平衡延遲的工作。您不必去找「快速鍵」,也不用再預先處理輸入資料。

自動水平調度資源

自動水平調度工作站的資源,以更優異的整體性價比達到最佳總處理量。

針對批次處理提供彈性的資源排程定價

針對可彈性安排工作時間的處理作業 (例如整夜處理的工作),您可以選擇使用彈性資源排程 (FlexRS),藉此以較低的價格執行批次處理作業。系統會將這些彈性工作排入佇列中,並保證在六小時內擷取出來,進入執行階段。

查看所有功能與特色

客戶

Dow Jones
Dow Jones 運用 Dataflow 讓過去的重大事件資料集發揮實際效用。
閱讀案例

案例特色

  • 整合超過 30 年的新聞資料,以評估事件對業務的影響

  • 找出資料間隱藏的關係和深入分析資訊

  • 在 10 週內輕鬆設計出知識圖譜原型

合作夥伴

說明文件

快速入門導覽課程
透過 Python 使用 Dataflow 的快速入門導覽課程

設定您的 Google Cloud 專案及 Python 開發環境、取得 Apache Beam SDK,並透過 Dataflow 服務執行及修改 WordCount 範例。

教學課程
使用 Dataflow SQL

建立 SQL 查詢並部署 Dataflow 工作,以便透過 Dataflow SQL UI 執行查詢。

教學課程
安裝 Apache Beam SDK

安裝 Apache Beam SDK,以便利用 Dataflow 服務執行管道。

教學課程
使用 Apache Beam 和 TensorFlow 進行機器學習

使用 Apache Beam、Dataflow 和 TensorFlow 預先處理及訓練分子能量機器學習模型,並產生預測結果。

教學課程
Qwiklab:Google Cloud 大數據和機器學習基礎知識

本隨選單週課程提供 Google Cloud 的資料分析和機器學習功能簡介,包含透過 Dataflow 建立管道的相關介紹。

Google Cloud 基本資訊
Dataflow 資源

查看定價、資源配額、常見問題等相關資訊。

教學課程
探索可以在 Google Cloud 中建構的項目

查看與 Dataflow 相關的 Google Cloud 技術資源指南。

用途

用途
串流分析

Google 的串流分析功能可以在資料產生時立即加以處理,使資料變得更井然有序、更實用,也更方便存取。我們的串流解決方案採用 Dataflow,並結合 Pub/Sub 和 BigQuery,可為您佈建所需的資源來擷取、處理及分析不斷增減的即時資料量,以用於產生即時業務深入分析結果。這種簡化的佈建作業流程可降低複雜度,並讓資料分析師和資料工程師可取得串流分析結果。

Dataflow 串流分析圖表
用途
即時 AI

Dataflow 可在 Google Cloud 的 AI 平台TensorFlow Extended (TFX) 中導入串流事件,以用於預測分析、詐欺偵測、即時個人化和其他進階分析用途。TFX 使用 Dataflow 和 Apache Beam 做為分散式資料處理引擎,藉此執行機器學習生命週期的部分流程,並透過機器學習持續整合/持續推送軟體更新 (CI/CD),在 Kubeflow 管道中支援這些流程。

用途
感應器和記錄檔資料處理

利用智慧型 IoT 平台優勢,透過全球裝置網路洞察商機。

所有功能與特色

Streaming Engine Streaming Engine 可將運算和狀態儲存空間分開,並將部分管道執行作業移出工作站 VM,並移入 Dataflow 服務後端,藉此大幅改善自動調度資源成效和資料延遲情形。
自動調度資源 Dataflow 服務可透過自動調度資源功能,自動選擇執行工作所需的適當工作站執行個體數量。在執行階段期間,Dataflow 服務也可能會根據工作的特性,動態重新分配更多或更少工作站。
Dataflow Shuffle 以服務為基礎的 Dataflow Shuffle 會將重組作業 (用於將資料分組及彙整) 移出工作站 VM,並移入 Dataflow 服務後端,以便處理批次管道中的資料。批次管道不必進行任何微調,即可流暢擴充至數百 TB。
Dataflow SQL Dataflow SQL 可讓您直接透過 BigQuery 網頁版 UI,利用 SQL 開發串流 Dataflow 管道。您可以將 Pub/Sub 的串流資料和 Cloud Storage 中的檔案或 BigQuery 中的資料表彙整在一起、將結果寫入 BigQuery,並使用 Google 試算表或其他商業智慧 (BI) 工具建構即時資訊主頁。
彈性資源排程 (FlexRS) Dataflow FlexRS 會使用進階排程技術、Dataflow Shuffle 服務,並結合先占虛擬機器 (VM) 執行個體和一般 VM,藉此減少批次處理費用。
Dataflow 範本 Dataflow 範本可讓您與機構中的團隊成員輕鬆分享管道,或利用 Google 提供的各種範本來實作簡單但實用的資料處理工作。有了 Flex 範本,您就可以透過任何 Dataflow 管道建立新的範本。
筆記本整合 使用 AI 平台筆記本以疊代方式建構管道,並使用 Dataflow 執行器進行部署。透過檢查「讀取-求值-印出迴圈」(REPL) 工作流程中的管道圖,逐步編寫 Apache Beam 管道。您可以透過 Google AI 平台使用筆記本,藉此運用最新的數據資料學和機器學習架構,在符合直覺的環境中編寫管道。
內嵌監控功能 Dataflow 內嵌監控功能可讓您直接存取工作指標,協助解決批次和串流管道的相關問題。您可以在步驟和工作站層級的瀏覽權限下存取監控圖表,也可以針對資料過時和系統延遲時間過長等情況設定快訊。
客戶管理的加密金鑰 您可以建立由客戶管理的加密金鑰 (CMEK) 所保護的批次或串流管道,或存取來源和接收器中受 CMEK 保護的資料。
Dataflow VPC Service Controls Dataflow 與 VPC Service Controls 相互整合,可讓您更有效地降低資料遭竊取的風險,進而替您的資料處理環境提供額外的安全防護。
私人 IP 關閉公開 IP 可替您的資料處理基礎架構提供更完善的保護。如果 Dataflow 工作站未使用公開 IP 位址,您還可以藉此減少計入 Google Cloud 專案配額的公開 IP 位址數量。

定價

Dataflow 工作以秒計費,且您只需替 Dataflow 批次或串流工作站的實際用量付費;Cloud Storage 或 Pub/Sub 等其他資源則會依對應服務的定價計費。

合作夥伴

Google Cloud 合作夥伴開發了 Dataflow 整合機制,能夠提供強大的處理功能,協助您快速輕鬆地執行各種規模的資料處理工作。