無伺服器、快速且具成本效益的整合式串流與批次資料處理服務。
新客戶可以獲得價值 $300 美元的免費抵免額,盡情體驗 Dataflow。
透過資料串流和機器學習功能,即時取得並運用深入分析資料
全代管的資料處理服務
自動佈建及管理資源處理作業
自動水平與垂直調度工作站資源,盡可能提升資源使用率
透過 Apache Beam SDK,在 OSS 社群的推動下進行創新
優點
Dataflow 可讓您快速執行簡化的串流資料管道開發作業,同時縮短資料延遲時間。
Dataflow 不需依靠伺服器,因此可免除資料工程工作負載的營運負擔,讓團隊專注於程式設計,不必費心管理伺服器叢集。
Dataflow 同時擁有自動調度資源功能和成本效益絕佳的批次處理功能,可提供近乎無限的容量,讓您有效管理季節性與激增的工作負載,而不必擔心超支。
主要功能與特色
Dataflow 的即時 AI 功能具備立即可用的機器學習功能 (包括 NVIDIA GPU 和現成模式),能以近乎人類的智慧即時回應大量事件。
客戶可以建構各種智慧解決方案,包括預測分析、異常偵測、即時個人化及其他進階分析用途等。
訓練、部署及管理完整的機器學習管道,包括使用批次和串流管道執行本機和遠端推論。
利用資料感知資源的自動調度資源功能,將管線延遲時間縮至最短、將資源利用率最大化,並降低每筆資料記錄的處理費用。系統會自動對輸入資料進行分區並持續不斷地進行重新平衡,使工作站資源利用率達到均衡狀態,同時降低「熱鍵」對管線效能的影響。
觀察資料在 Dataflow 管道每個步驟中的狀態。使用實際資料樣本有效診斷及排解問題。比較工作的各執行作業,輕鬆找出問題。
說明文件
使用案例
Google 的串流分析功能可以在資料產生時立即加以處理,使資料變得更井然有序、更實用,也更方便存取。我們的串流解決方案採用 Dataflow,並結合 Pub/Sub 和 BigQuery,可為您佈建所需的資源來擷取、處理及分析不斷增減的即時資料量,以用於產生即時業務深入分析結果。這種簡化的佈建作業流程可降低複雜度,並讓資料分析師和資料工程師可取得串流分析結果。
Dataflow 可在 Google Cloud 的 Vertex AI 和 TensorFlow Extended (TFX) 中導入串流事件,以用於預測分析、詐欺偵測、即時個人化和其他進階分析用途。TFX 使用 Dataflow 和 Apache Beam 做為分散式資料處理引擎,藉此執行機器學習生命週期的部分流程,並透過機器學習持續整合/持續推送軟體更新 (CI/CD),在 Kubeflow 管道中支援這些流程。
所有功能與特色
Dataflow ML | 輕鬆部署及管理機器學習管道。使用機器學習模型,透過批次和串流管道執行本機和遠端推論。使用資料處理工具準備資料,以便用於模型訓練及處理模型生成的結果。 |
Dataflow GPU | 資料處理系統經過最佳化,可提高效能和 GPU 用量的成本效益。支援多種 NVIDIA GPU。 |
自動垂直調度資源 | 根據使用率動態調整分配給每個工作站的運算能力。垂直自動調度資源功能可搭配水平自動調度資源技術使用,配合管道需求順暢地擴充工作站規模。 |
自動水平調度資源 | Dataflow 服務可透過自動水平調度資源功能,自動選擇執行工作所需的適當工作站執行個體數量。在執行階段期間,Dataflow 服務也可能會根據工作的特性,動態重新分配更多或更少工作站。 |
最適資源配置 | 適合的解決方案會建立階段專屬資源集區,並針對各個階段進行最佳化調整,減少資源浪費。 |
智慧診斷 | 功能組合包含 1) 以服務等級目標為基礎的資料管道管理功能,2) 工作視覺化功能可以讓使用者以視覺化方式檢視工作圖形並找出瓶頸,3) 自動建議功能可用於找出並調整效能和可用性問題。 |
Streaming Engine | Streaming Engine 可將運算和狀態儲存空間分開,並將部分管道執行作業移出工作站 VM,並移入 Dataflow 服務後端,藉此大幅改善自動調度資源成效和資料延遲情形。 |
Dataflow Shuffle | 以服務為基礎的 Dataflow Shuffle 會將重組作業 (用於將資料分組及彙整) 移出工作站 VM,並移入 Dataflow 服務後端,以便處理批次管道中的資料。批次管道不必進行任何微調,即可流暢擴充至數百 TB。 |
Dataflow SQL | Dataflow SQL 可讓您直接透過 BigQuery 網頁版 UI,利用 SQL 開發串流 Dataflow 管道。您可以將 Pub/Sub 的串流資料和 Cloud Storage 中的檔案或 BigQuery 中的資料表彙整在一起、將結果寫入 BigQuery,並使用 Google 試算表或其他商業智慧 (BI) 工具建構即時資訊主頁。 |
彈性資源排程 (FlexRS) | Dataflow FlexRS 會使用進階排程技術、Dataflow Shuffle 服務,並結合先占虛擬機器 (VM) 執行個體和一般 VM,藉此減少批次處理費用。 |
Dataflow 範本 | Dataflow 範本可讓您與機構中的團隊成員輕鬆分享管道,或利用 Google 提供的各種範本來實作簡單但實用的資料處理工作。這包括串流分析用途適用的變更資料擷取範本。有了 Flex 範本,您就可以透過任何 Dataflow 管道建立新的範本。 |
筆記本整合 | 使用 Vertex AI 平台筆記本以疊代方式建構管道,並使用 Dataflow 執行器進行部署。透過檢查「讀取-求值-印出迴圈」(REPL) 工作流程中的管道圖,逐步編寫 Apache Beam 管道。您可以透過 Google Vertex AI 平台使用筆記本,藉此運用最新的數據資料學和機器學習架構,在符合直覺的環境中編寫管道。 |
即時變更資料擷取 | 能夠穩定地同步或複製資料,並且縮短異狀資料來源的延遲時間,以便進行串流分析。可擴充的 Dataflow 範本已與 Datastream 整合,可將資料從 Cloud Storage 複製到 BigQuery、PostgreSQL 或 Cloud Spanner。Apache Beam 的 Debezium 連接器提供開放原始碼選項,可讓您從 MySQL、PostgreSQL、SQL Server 和 Db2 擷取資料變更。 |
內嵌監控功能 | Dataflow 內嵌監控功能可讓您直接存取工作指標,協助解決批次和串流管道的相關問題。您可以在步驟和工作站層級的瀏覽權限下存取監控圖表,也可以針對資料過時和系統延遲時間過長等情況設定快訊。 |
客戶管理的加密金鑰 | 您可以建立由客戶管理的加密金鑰 (CMEK) 所保護的批次或串流管道,或存取來源和接收器中受 CMEK 保護的資料。 |
Dataflow VPC Service Controls | Dataflow 與 VPC Service Controls 相互整合,可讓您更有效地降低資料遭竊取的風險,進而替您的資料處理環境提供額外的安全防護。 |
私人 IP | 關閉公開 IP 可替您的資料處理基礎架構提供更完善的保護。如果 Dataflow 工作站未使用公開 IP 位址,您還可以藉此減少計入 Google Cloud 專案配額的公開 IP 位址數量。 |
定價
Dataflow 工作以秒計費,且您只須按 Dataflow 批次或串流工作站的實際用量付費;Cloud Storage 或 Pub/Sub 等其他資源則會依對應服務的定價計費。
Cloud AI 產品符合我們的服務水準協議政策。這些產品的延遲時間或可用性保證可能與其他 Google Cloud 服務不同。