加入 Google Cloud 即時智慧功能研討會,累積各種串流、AI 和快速批次處理作業的實作經驗。按這裡即可報名。
跳至

Dataflow

無伺服器、快速且具成本效益的整合式串流與批次資料處理服務。

新客戶可以獲得價值 $300 美元的免費抵免額,盡情體驗 Dataflow。

  • 全代管的資料處理服務

  • 自動佈建及管理資源處理作業

  • 自動水平調度工作站的資源,盡可能提升資源使用率

  • 透過 Apache Beam SDK,在 OSS 社群的推動下進行創新

  • 僅需處理一次,且可靠又一致

優點

快速進行串流資料分析

Dataflow 可讓您快速執行簡化的串流資料管道開發作業,同時縮短資料延遲時間。

簡化營運和管理工作

Dataflow 不需依靠伺服器,因此可免除資料工程工作負載的營運負擔,讓團隊專注於程式設計,不必費心管理伺服器叢集。

減少總持有成本

Dataflow 同時擁有自動調度資源功能和成本效益絕佳的批次處理功能,可提供近乎無限的容量,讓您有效管理季節性與激增的工作負載,而不必擔心超支。

主要功能與特色

主要功能與特色

自動調度資源及動態重新平衡工作

利用資料感知資源的自動調度資源功能,將管線延遲時間縮至最短、將資源利用率最大化,並降低每筆資料記錄的處理費用。系統會自動對輸入資料進行分區並持續不斷地進行重新平衡,使工作站資源利用率達到均衡狀態,同時降低「熱鍵」對管線效能的影響。

針對批次處理作業提供彈性的資源排程與定價

針對可彈性安排工作時間的處理作業 (例如整夜處理的工作),可以選擇使用彈性資源排程 (FlexRS),藉此以較低的價格執行批次處理作業。系統會將這些彈性工作排入佇列中,並保證在六小時內擷取出來,進入執行階段。

現成可用的即時 AI 模式

Dataflow 的即時 AI 功能具備現成可用的模式,能夠以近乎人類的智慧即時對大量事件做出回應。客戶可以建構各種智慧解決方案,包括預測分析、異常偵測、即時個人化及其他進階分析用途等。

查看所有功能與特色

說明文件

說明文件

教學課程
使用 Dataflow 進行無伺服器資料處理:基礎

瞭解 Dataflow 所有須知事項的基礎訓練

教學課程
Dataflow 快速入門導覽課程:使用 Python

設定 Google Cloud 專案及 Python 開發環境、取得 Apache Beam Python SDK,並透過 Dataflow 服務執行和修改 WordCount 範例。

教學課程
使用 Dataflow SQL

建立 SQL 查詢並部署 Dataflow 工作,以便透過 Dataflow SQL UI 執行查詢。

教學課程
安裝 Apache Beam SDK

安裝 Apache Beam SDK,以便利用Dataflow 服務執行管道。

教學課程
使用 Apache Beam 和 TensorFlow 進行機器學習

使用 Apache Beam、Dataflow 和 TensorFlow 預先處理及訓練分子能量機器學習模型,並產生預測結果。

教學課程
以 Java 執行 Dataflow 字數的教學課程

在這個教學課程中,您會使用 Apache Beam Java SDK 執行簡單的管道範例,以便瞭解 Cloud Dataflow 服務的基本概念。

教學課程
實作研究室:使用 Google Cloud Dataflow 處理資料

瞭解如何使用 Python 和 Dataflow 處理即時的文字型資料集並儲存在 BigQuery 中。

教學課程
實作研究室:使用 Pub/Sub 和 Dataflow 進行串流處理

瞭解如何使用 Dataflow 讀取發布至 Pub/Sub 主題的訊息、依時間戳記建立訊息視窗,以及將訊息寫入 Cloud Storage。

Google Cloud 基本知識
Dataflow 資源

查看定價、資源配額、常見問題等相關資訊。

用途

用途

用途
串流分析

Google 的串流分析功能可以在資料產生時立即加以處理,使資料變得更井然有序、更實用,也更方便存取。我們的串流解決方案採用 Dataflow,並結合 Pub/Sub 和 BigQuery,可為您佈建所需的資源來擷取、處理及分析不斷增減的即時資料量,以用於產生即時業務深入分析結果。這種簡化的佈建作業流程可降低複雜度,並讓資料分析師和資料工程師可取得串流分析結果。

涵蓋從「觸發條件」、「擷取」、「充實」、「分析」到「啟用」這 5 個資料欄的流程。每一欄都分成上方和下方區塊。「觸發條件」欄的上方區塊是邊緣裝置 (行動裝置、網路、資料儲存庫和 IoT),從這裡會流向「擷取」欄中的 Pub/Sub,接著到「充實」欄中的 Apache Beam/Dataflow 串流處理,再流向「分析」、「啟用」區塊,然後回到第 1 欄中的邊緣裝置。流程從第 3 欄中的 Apache Beam 往返「分析」欄,進入當中的 BigQuery、AI 平台和 Bigtable:Dataflow 批次處理的補充作業/重新處理作業均會傳入這 3 項服務。資料從 BigQuery 移至「啟用」欄,進入「數據分析」、「第三方 BI」和「Cloud Functions」,再回到第 1 欄中的邊緣裝置。在資料欄的下方區塊中,您會看到「建立流程:觸發條件」顯示「設定來源,將事件訊息推送到 Pub/Sub 主題」,流向「擷取」欄的「建立 Pub/Sub 主題和訂閱」,流向「充實」欄的「使用範本、CLI 或筆記本部署串流或批次處理 Dataflow 工作」,流向「分析」欄的「建立資料集、資料表和模型以接收串流」,再流向「啟用」欄的「建構即時資訊主頁並呼叫外部 API」。
用途
即時 AI

Dataflow 可在 Google Cloud 的 Vertex AITensorFlow Extended (TFX) 中導入串流事件,以用於預測分析、詐欺偵測、即時個人化和其他進階分析用途。TFX 使用 Dataflow 和 Apache Beam 做為分散式資料處理引擎,藉此執行機器學習生命週期的部分流程,並透過機器學習持續整合/持續推送軟體更新 (CI/CD),在 Kubeflow 管道中支援這些流程。

用途
感應器和記錄檔資料處理

利用智慧型 IoT 平台優勢,透過全球裝置網路洞察商機。

所有功能與特色

所有功能與特色

垂直自動調度資源功能 - Dataflow Prime 新功能 根據使用率動態調整分配給每個工作站的運算能力。垂直自動調度資源功能可搭配水平自動調度資源技術使用,配合管道需求順暢地擴充工作站規模。
適合的解決方案 - Dataflow Prime 新功能 適合的解決方案會建立階段專屬資源集區,並針對各個階段進行最佳化調整,減少資源浪費。
智慧診斷 - Dataflow Prime 的新功能 功能組合包含 1) 以服務等級目標為基礎的資料管道管理功能,2) 工作視覺化功能可以讓使用者以視覺化方式檢視工作圖形並找出瓶頸,3) 自動建議功能可用於找出並調整效能和可用性問題。 
Streaming Engine Streaming Engine 可將運算和狀態儲存空間分開,並將部分管道執行作業移出工作站 VM,並移入 Dataflow 服務後端,藉此大幅改善自動調度資源成效和資料延遲情形。
自動水平調度資源 Dataflow 服務可透過自動水平調度資源功能,自動選擇執行工作所需的適當工作站執行個體數量。在執行階段期間,Dataflow 服務也可能會根據工作的特性,動態重新分配更多或更少工作站。
Dataflow Shuffle 以服務為基礎的 Dataflow Shuffle 會將重組作業 (用於將資料分組及彙整) 移出工作站 VM,並移入 Dataflow 服務後端,以便處理批次管道中的資料。批次管道不必進行任何微調,即可流暢擴充至數百 TB。
Dataflow SQL Dataflow SQL 可讓您直接透過 BigQuery 網頁版 UI,利用 SQL 開發串流 Dataflow 管道。您可以將 Pub/Sub 的串流資料和 Cloud Storage 中的檔案或 BigQuery 中的資料表彙整在一起、將結果寫入 BigQuery,並使用 Google 試算表或其他商業智慧 (BI) 工具建構即時資訊主頁。
彈性資源排程 (FlexRS) Dataflow FlexRS 會使用進階排程技術、Dataflow Shuffle 服務,並結合先占虛擬機器 (VM) 執行個體和一般 VM,藉此減少批次處理費用。
Dataflow 範本 Dataflow 範本可讓您與機構中的團隊成員輕鬆分享管道,或利用 Google 提供的各種範本來實作簡單但實用的資料處理工作。這包括串流分析用途適用的變更資料擷取範本。有了 Flex 範本,您就可以透過任何 Dataflow 管道建立新的範本。
筆記本整合 使用 Vertex AI 平台筆記本以疊代方式建構管道,並使用 Dataflow 執行器進行部署。透過檢查「讀取-求值-印出迴圈」(REPL) 工作流程中的管道圖,逐步編寫 Apache Beam 管道。您可以透過 Google Vertex AI 平台使用筆記本,藉此運用最新的數據資料學和機器學習架構,在符合直覺的環境中編寫管道。
即時變更資料擷取 能夠穩定地同步或複製資料,並且縮短異狀資料來源的延遲時間,以便進行串流分析。可擴充的 Dataflow 範本已與 Datastream 整合,可將資料從 Cloud Storage 複製到 BigQuery、PostgreSQL 或 Cloud Spanner。Apache Beam 的 Debezium 連接器提供開放原始碼選項,可讓您從 MySQL、PostgreSQL、SQL Server 和 Db2 擷取資料變更。
內嵌監控功能 Dataflow 內嵌監控功能可讓您直接存取工作指標,協助解決批次和串流管道的相關問題。您可以在步驟和工作站層級的瀏覽權限下存取監控圖表,也可以針對資料過時和系統延遲時間過長等情況設定快訊。
客戶管理的加密金鑰 您可以建立由客戶管理的加密金鑰 (CMEK) 所保護的批次或串流管道,或存取來源和接收器中受 CMEK 保護的資料。
Dataflow VPC Service Controls Dataflow 與 VPC Service Controls 相互整合,可讓您更有效地降低資料遭竊取的風險,進而替您的資料處理環境提供額外的安全防護。
私人 IP 關閉公開 IP 可替您的資料處理基礎架構提供更完善的保護。如果 Dataflow 工作站未使用公開 IP 位址,您還可以藉此減少計入 Google Cloud 專案配額的公開 IP 位址數量。

定價

定價

Dataflow 工作以秒計費,且您只須按 Dataflow 批次或串流工作站的實際用量付費;Cloud Storage 或 Pub/Sub 等其他資源則會依對應服務的定價計費。

合作夥伴

探索合作夥伴解決方案

Google Cloud 合作夥伴開發了 Dataflow 整合機制,能夠提供強大的處理功能,協助您快速輕鬆地執行各種規模的資料處理工作。