Google Cloud 在 2023 年的《The Forrester Wave: Streaming Data Platforms》(The Forrester Wave:串流資料平台) 報告中獲評為領導品牌。瞭解詳情

跳至
Dataflow

Dataflow

無伺服器、快速且具成本效益的整合式串流與批次資料處理服務。

新客戶可以獲得價值 $300 美元的免費抵免額,盡情體驗 Dataflow。

  • 透過資料串流和機器學習功能,即時取得並運用深入分析資料

  • 全代管的資料處理服務

  • 自動佈建及管理資源處理作業

  • 自動水平與垂直調度工作站資源,盡可能提升資源使用率

  • 透過 Apache Beam SDK,在 OSS 社群的推動下進行創新

優點

快速進行串流資料分析

Dataflow 可讓您快速執行簡化的串流資料管道開發作業,同時縮短資料延遲時間。

簡化營運和管理工作

Dataflow 不需依靠伺服器,因此可免除資料工程工作負載的營運負擔,讓團隊專注於程式設計,不必費心管理伺服器叢集。

減少總持有成本

Dataflow 同時擁有自動調度資源功能和成本效益絕佳的批次處理功能,可提供近乎無限的容量,讓您有效管理季節性與激增的工作負載,而不必擔心超支。

主要功能與特色

主要功能與特色

現成可用的即時 AI

Dataflow 的即時 AI 功能具備立即可用的機器學習功能 (包括 NVIDIA GPU 和現成模式),能以近乎人類的智慧即時回應大量事件。

客戶可以建構各種智慧解決方案,包括預測分析、異常偵測、即時個人化及其他進階分析用途等。

訓練、部署及管理完整的機器學習管道,包括使用批次和串流管道執行本機和遠端推論。

自動調度資源及動態重新平衡工作

利用資料感知資源的自動調度資源功能,將管線延遲時間縮至最短、將資源利用率最大化,並降低每筆資料記錄的處理費用。系統會自動對輸入資料進行分區並持續不斷地進行重新平衡,使工作站資源利用率達到均衡狀態,同時降低「熱鍵」對管線效能的影響。

監控與觀測能力

觀察資料在 Dataflow 管道每個步驟中的狀態。使用實際資料樣本有效診斷及排解問題。比較工作的各執行作業,輕鬆找出問題。

查看所有功能與特色

說明文件

說明文件

Tutorial

使用 Dataflow 進行無伺服器資料處理:基礎

瞭解 Dataflow 所有須知事項的基礎訓練
Tutorial

Dataflow 快速入門導覽課程:使用 Python

設定 Google Cloud 專案及 Python 開發環境、取得 Apache Beam Python SDK,並透過 Dataflow 服務執行和修改 WordCount 範例。
Tutorial

使用 Dataflow SQL

建立 SQL 查詢並部署 Dataflow 工作,以便透過 Dataflow SQL UI 執行查詢。
Tutorial

安裝 Apache Beam SDK

安裝 Apache Beam SDK,以便利用Dataflow 服務執行管道。
Tutorial

使用 Apache Beam 和 TensorFlow 進行機器學習

使用 Apache Beam、Dataflow 和 TensorFlow 預先處理及訓練分子能量機器學習模型,並產生預測結果。
Tutorial

以 Java 執行 Dataflow 字數的教學課程

在這個教學課程中,您會使用 Apache Beam Java SDK 執行簡單的管道範例,以便瞭解 Cloud Dataflow 服務的基本概念。
Tutorial

實作研究室:使用 Google Cloud Dataflow 處理資料

瞭解如何使用 Python 和 Dataflow 處理即時的文字型資料集並儲存在 BigQuery 中。
Tutorial

實作研究室:使用 Pub/Sub 和 Dataflow 進行串流處理

瞭解如何使用 Dataflow 讀取發布至 Pub/Sub 主題的訊息、依時間戳記建立訊息視窗,以及將訊息寫入 Cloud Storage。
Google Cloud Basics

Dataflow 資源

查看定價、資源配額、常見問題等相關資訊。

找不到所需資訊嗎?

使用案例

使用案例

用途
串流分析

Google 的串流分析功能可以在資料產生時立即加以處理,使資料變得更井然有序、更實用,也更方便存取。我們的串流解決方案採用 Dataflow,並結合 Pub/Sub 和 BigQuery,可為您佈建所需的資源來擷取、處理及分析不斷增減的即時資料量,以用於產生即時業務深入分析結果。這種簡化的佈建作業流程可降低複雜度,並讓資料分析師和資料工程師可取得串流分析結果。

涵蓋從「觸發條件」、「擷取」、「充實」、「分析」到「啟用」這 5 個資料欄的流程。每一欄都分成上方和下方區塊。「觸發條件」欄的上方區塊是邊緣裝置 (行動裝置、網路、資料儲存庫和 IoT),從這裡會流向「擷取」欄中的 Pub/Sub,接著到「充實」欄中的 Apache Beam/Dataflow 串流處理,再流向「分析」、「啟用」區塊,然後回到第 1 欄中的邊緣裝置。流程從第 3 欄中的 Apache Beam 往返「分析」欄,進入當中的 BigQuery、AI 平台和 Bigtable:Dataflow 批次處理的補充作業/重新處理作業均會傳入這 3 項服務。資料從 BigQuery 移至「啟用」欄,進入「數據分析」、「第三方 BI」和「Cloud Functions」,再回到第 1 欄中的邊緣裝置。在資料欄的下方區塊中,您會看到「建立流程:觸發條件」顯示「設定來源,將事件訊息推送到 Pub/Sub 主題」,流向「擷取」欄的「建立 Pub/Sub 主題和訂閱」,流向「充實」欄的「使用範本、CLI 或筆記本部署串流或批次處理 Dataflow 工作」,流向「分析」欄的「建立資料集、資料表和模型以接收串流」,再流向「啟用」欄的「建構即時資訊主頁並呼叫外部 API」。
用途
即時 AI

Dataflow 可在 Google Cloud 的 Vertex AITensorFlow Extended (TFX) 中導入串流事件,以用於預測分析、詐欺偵測、即時個人化和其他進階分析用途。TFX 使用 Dataflow 和 Apache Beam 做為分散式資料處理引擎,藉此執行機器學習生命週期的部分流程,並透過機器學習持續整合/持續推送軟體更新 (CI/CD),在 Kubeflow 管道中支援這些流程。

用途
感應器和記錄檔資料處理

利用智慧型 IoT 平台優勢,透過全球裝置網路洞察商機。

所有功能與特色

所有功能與特色

Dataflow ML
輕鬆部署及管理機器學習管道。使用機器學習模型,透過批次和串流管道執行本機和遠端推論。使用資料處理工具準備資料,以便用於模型訓練及處理模型生成的結果。
Dataflow GPU
資料處理系統經過最佳化,可提高效能和 GPU 用量的成本效益。支援多種 NVIDIA GPU。
自動垂直調度資源
根據使用率動態調整分配給每個工作站的運算能力。垂直自動調度資源功能可搭配水平自動調度資源技術使用,配合管道需求順暢地擴充工作站規模。
自動水平調度資源
Dataflow 服務可透過自動水平調度資源功能,自動選擇執行工作所需的適當工作站執行個體數量。在執行階段期間,Dataflow 服務也可能會根據工作的特性,動態重新分配更多或更少工作站。
最適資源配置
適合的解決方案會建立階段專屬資源集區,並針對各個階段進行最佳化調整,減少資源浪費。
智慧診斷
功能組合包含 1) 以服務等級目標為基礎的資料管道管理功能,2) 工作視覺化功能可以讓使用者以視覺化方式檢視工作圖形並找出瓶頸,3) 自動建議功能可用於找出並調整效能和可用性問題。
Streaming Engine
Streaming Engine 可將運算和狀態儲存空間分開,並將部分管道執行作業移出工作站 VM,並移入 Dataflow 服務後端,藉此大幅改善自動調度資源成效和資料延遲情形。
Dataflow Shuffle
以服務為基礎的 Dataflow Shuffle 會將重組作業 (用於將資料分組及彙整) 移出工作站 VM,並移入 Dataflow 服務後端,以便處理批次管道中的資料。批次管道不必進行任何微調,即可流暢擴充至數百 TB。
Dataflow SQL
Dataflow SQL 可讓您直接透過 BigQuery 網頁版 UI,利用 SQL 開發串流 Dataflow 管道。您可以將 Pub/Sub 的串流資料和 Cloud Storage 中的檔案或 BigQuery 中的資料表彙整在一起、將結果寫入 BigQuery,並使用 Google 試算表或其他商業智慧 (BI) 工具建構即時資訊主頁。
彈性資源排程 (FlexRS)
Dataflow FlexRS 會使用進階排程技術、Dataflow Shuffle 服務,並結合先占虛擬機器 (VM) 執行個體和一般 VM,藉此減少批次處理費用。
Dataflow 範本
Dataflow 範本可讓您與機構中的團隊成員輕鬆分享管道,或利用 Google 提供的各種範本來實作簡單但實用的資料處理工作。這包括串流分析用途適用的變更資料擷取範本。有了 Flex 範本,您就可以透過任何 Dataflow 管道建立新的範本。
筆記本整合
使用 Vertex AI 平台筆記本以疊代方式建構管道,並使用 Dataflow 執行器進行部署。透過檢查「讀取-求值-印出迴圈」(REPL) 工作流程中的管道圖,逐步編寫 Apache Beam 管道。您可以透過 Google Vertex AI 平台使用筆記本,藉此運用最新的數據資料學和機器學習架構,在符合直覺的環境中編寫管道。
即時變更資料擷取
能夠穩定地同步或複製資料,並且縮短不同資料來源的延遲時間,以便進行串流分析。可擴充的 Dataflow 範本會與 Datastream 整合,將資料從 Cloud Storage 複製到 BigQuery、PostgreSQL 或 Spanner。Apache Beam 的 Debezium 連接器提供開放原始碼選項,可從 MySQL、PostgreSQL、SQL Server 和 Db2 擷取資料變更。
內嵌監控功能
Dataflow 內嵌監控功能可讓您直接存取工作指標,協助解決批次和串流管道的相關問題。您可以在步驟和工作站層級的瀏覽權限下存取監控圖表,也可以針對資料過時和系統延遲時間過長等情況設定快訊。
客戶管理的加密金鑰
您可以建立由客戶管理的加密金鑰 (CMEK) 所保護的批次或串流管道,或存取來源和接收器中受 CMEK 保護的資料。
Dataflow VPC Service Controls
Dataflow 與 VPC Service Controls 相互整合,可讓您更有效地降低資料遭竊取的風險,進而替您的資料處理環境提供額外的安全防護。
私人 IP
關閉公開 IP 可替您的資料處理基礎架構提供更完善的保護。如果 Dataflow 工作站未使用公開 IP 位址,您還可以藉此減少計入 Google Cloud 專案配額的公開 IP 位址數量。

定價

定價

Dataflow 工作以秒計費,且您只須按 Dataflow 批次或串流工作站的實際用量付費;Cloud Storage 或 Pub/Sub 等其他資源則會依對應服務的定價計費。

合作夥伴

探索合作夥伴解決方案

Google Cloud 合作夥伴開發了 Dataflow 整合機制,能夠提供強大的處理功能,協助您快速輕鬆地執行各種規模的資料處理工作。


Cloud AI 產品符合我們的服務水準協議政策。這些產品的延遲時間或可用性保證可能與其他 Google Cloud 服務不同。

展開下一步行動

運用價值 $300 美元的免費抵免額和超過 20 項一律免費的產品,開始在 Google Cloud 中建構產品與服務。

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
控制台
  • 公開透明的定價方式,可讓您節省成本
  • Google Cloud 採用「即付即用」的收費方式,會依據每月用量和預付資源的折扣費率自動節省費用。歡迎立即與我們聯絡,取得專屬報價。
Google Cloud