Dataproc
Dataproc 是一項全代管且具備高擴充性的服務,可執行 Apache Spark、Apache Flink、Presto 和 30 個以上的開放原始碼工具和架構。使用 Dataproc 以全球規模進行資料湖泊現代化、ETL 和安全數據資料學作業,與 Google Cloud 全方位整合且成本極低。
-
開放式:根據需求建構全代管開放原始碼叢集,並整合資料湖泊中繼存放區
-
彈性:您可以混用各種 OSS 和 GCP 原生服務,且能在整個平台上緊密整合
-
控管:透過 Dataproc Hub 啟用可擴充、安全且能控管成本的開放原始碼數據資料學作業
-
安全:設定進階安全防護機制,例如 Kerberos、Apache Ranger 和 Personal Authentication
-
符合成本效益:以秒計費,相較於內部部署資料湖泊,可降低 57% 的總持有成本
優點
翻新開放原始碼資料處理作業
無論您需要 VM 還是 Kubernetes、Presto 或甚至是 GPU 的額外記憶體,Dataproc 都能隨需求啟動特地建構的環境,藉此協助您加快資料和數據分析作業的處理速度。
為數據資料學作業提供具備成本效益的做法與安全的 OSS
Dataproc Hub 利用自動調度資源、閒置叢集刪除、以秒計費、整合式安全性等功能,讓您以具成本效益的方式調度開放原始碼數據資料學作業的資源,同時將管理成本和安全性風險降至最低。
進階安全性、法規遵循與管理
使用現有的 Kerberos 和 Apache Ranger 政策或個人叢集驗證管理和強制執行使用者授權和驗證。不需要設定網路節點就能定義權限。
主要功能與特色
主要功能與特色
全代管的自動化大數據開放原始碼軟體
全代管的部署、記錄和監控作業,可讓您專注於自己的資料和分析,不必煩惱基礎架構。將 Apache Spark 管理作業的總持有成本降低最多 57%。數據資料學家與工程師可使用 Jupyter 和 Zeppelin 筆記本 (可在 Dataproc Hub 中成為範本) 等熟悉的工具與 Dataproc 互動。Dataproc Jobs API 可讓您輕鬆將大數據資料處理作業整合至自訂應用程式,同時 Dataproc Metastore 可減少需要執行您自己的 Hive 中繼存放區或目錄服務的情形。
使用 Kubernetes 將 Apache Spark 工作容器化
使用 Kubernetes 上的 Dataproc 建構 Apache Spark 工作,以便使用 Dataproc 搭配 Google Kubernetes Engine (GKE) 來提供工作可攜性和隔離性。
與 Google Cloud 整合的企業安全性
當您建立 Cloud Dataproc 叢集時,可一併新增安全性設定,並透過 Kerberos 啟用 Hadoop 安全模式。Dataproc 也可搭配部分 Google Cloud 特定的安全性功能使用,最常用的包括預設靜態資料加密、OS 登入、VPC Service Controls 以及客戶管理的加密金鑰 (CMEK)。
將最棒的開放原始碼與最出色的 Google Cloud 技術搭配使用
Dataproc 可讓您使用目前採用的開放原始碼工具、演算法和程式設計語言,但能輕鬆地運用於雲端規模的資料集上。同時,Dataproc 也與 Google Cloud 數據分析、資料庫和 AI 生態系統的其他部分整合,可讓您立即使用。數據資料學家和工程師得以快速存取資料,並建構將 Dataproc 連線至 BigQuery、AI 平台、Cloud Spanner、Pub/Sub 或 Data Fusion 的資料應用程式。
客戶
最新資訊
最新資訊
訂閱 Google Cloud 電子報,掌握產品動態、活動資訊和特價優惠等消息。
說明文件
說明文件
Dataproc 初始化動作
透過預先建構的初始化動作,將其他 OSS 專案新增至 Dataproc 叢集中。
開放原始碼連接器
可與 Apache Hadoop 互通整合的程式庫和工具。
用途
用途
為控管成本並發揮彈性擴充的優勢,企業紛紛將現有內部部署的 Apache Hadoop 和 Spark 叢集遷移至 Dataproc。企業可透過 Dataproc 啟動全代管的專用叢集。這類叢集可自動調度資源,因此能支援任何資料或分析處理工作。
您可以啟動專用 Dataproc 叢集,藉此建立理想的資料科學環境。將 Apache Spark、NVIDIA RAPIDS 和 Juypter Notebook 等開放原始碼軟體整合至 Google Cloud AI 服務和 GPU,即可加快機器學習和 AI 的開發作業。
所有功能與特色
所有功能與特色
叢集大小可調整 | 建立叢集後,您不但能快速調度資源,還可指定各種虛擬機器類型、磁碟大小、節點數和網路選項。 |
自動調度叢集資源 | Dataproc 的自動調度資源機制可讓您以自動化的模式管理叢集資源,進而自動新增及移除叢集工作站 (節點)。 |
整合式雲端 | 內建 Cloud Storage、BigQuery、Cloud Bigtable、Cloud Logging、Cloud Monitoring 和 AI Hub 的整合功能,提供更完整可靠的資料平台。 |
版本管理 | 映像檔版本管理功能方便您切換不同版本的 Apache Spark、Apache Hadoop 和其他工具。 |
高可用性 | 叢集可透過高可用性模式與多個主要節點搭配執行,並設定工作失敗時重新啟動,確保您的叢集和工作具備高可用性。 |
排定刪除叢集 | 只要使用 Dataproc 的排定刪除作業功能,即可避免閒置的叢集產生費用。您可以選擇在屆滿指定的閒置時間後刪除叢集,也可以指定在特定的時間點或時間範圍後刪除叢集。 |
自動設定或手動設定 | Dataproc 會自動設定軟硬體,但您也可以選擇手動控管設定。 |
開發人員工具 | 提供多種叢集管理方式,包括簡單易用的網頁版使用者介面、Cloud SDK、符合 REST 樣式的 API 和 SSH 存取權限。 |
初始化動作 | 建立叢集後,您可以執行初始化動作,視需求安裝或自訂設定和程式庫。 |
選用元件 | 您可以使用選用元件安裝及設定叢集中的其他元件。選用元件可與 Dataproc 元件整合,並針對 Zeppelin、Druid、Presto 和其他與 Apache Hadoop 及 Apache Spark 生態系統相關的開放原始碼軟體元件,提供完成設定的環境。 |
自訂映像檔 | 您可以透過含有預先安裝 Linux 作業系統套件的自訂映像檔佈建 Dataproc 叢集。 |
彈性的虛擬機器 | 叢集可以使用自訂機器類型和先占虛擬機器提供符合需求的大小。 |
元件閘道與筆記本存取權 | 透過 Dataproc 元件閘道,您只要按一下滑鼠,就能輕易存取在叢集中執行的 Dataproc 預設和選用元件網頁介面,而且不必擔心安全性問題。 |
工作流程範本 | Dataproc 工作流程範本提供靈活且容易使用的機制,可用來管理及執行工作流程。工作流程範本是可重複使用的工作流程設定,其中所定義的工作圖含有要在哪裡執行工作的資訊。 |
定價
定價
Dataproc 定價取決於 vCPU 數和叢集執行的時間長度。雖然顯示的定價為每小時費率,但 Dataproc 實際上是以秒計費,因此可讓您用多少就付多少。
例如:具備 4 個 CPU 的 6 個叢集 (1 個主要節點 + 5 個工作站節點) 執行 2 小時,費用即為 $0.48 美元。Dataproc 費用 = vCPU 數量 * 小時 * Dataproc 價格 = 24 * 2 * $0.01 美元 = $0.48 美元
詳情請參閱定價頁面。