Dataproc
Dataproc 是一項全代管且具備高擴充性的服務,可執行 Apache Hadoop、Apache Spark、Apache Flink、Presto 和 30 個以上的開放原始碼工具和架構。使用 Dataproc 大規模進行資料湖泊現代化、ETL 和安全數據資料學作業,與 Google Cloud 整合且成本極低。
優點
翻新開放原始碼資料處理作業
無論您需要 VM 或 Kubernetes、Presto 的額外記憶體,甚至是 GPU,Dataproc 都可以透過隨選或專用無伺服器環境,協助您加快資料和數據分析作業的處理速度。
先進的安全防護、法規遵循與管理機制
透過 Dataproc、BigLake 和 Dataplex 強制執行精細的資料列和資料欄層級存取權控管機制。使用現有的 Kerberos 和 Apache Ranger 政策管理和強制執行使用者授權和驗證。
主要功能與特色
主要功能與特色
全代管的自動化大數據開放原始碼軟體
無伺服器部署、記錄和監控功能可讓您專心處理資料和分析工作,不必費心處理基礎架構。將 Apache Spark 管理作業的總持有成本降低最多 54%。與 Vertex AI Workbench 相互整合,讓數據資料學家和工程師建構及訓練模型的速度加快 5 倍。Dataproc Jobs API 可讓您輕鬆將大數據資料處理作業整合至自訂應用程式,同時 Dataproc Metastore 可減少需要執行您自己的 Hive 中繼存放區或目錄服務的情形。
使用 Kubernetes 將 Apache Spark 工作容器化
使用 Kubernetes 上的 Dataproc 建構 Apache Spark 工作,以便使用 Dataproc 搭配 Google Kubernetes Engine (GKE) 來提供工作可攜性和隔離性。
與 Google Cloud 相互整合的企業安全防護機制
當您建立 Cloud Dataproc 叢集時,可一併新增安全性設定,並透過 Kerberos 啟用 Hadoop 安全模式。Dataproc 也可搭配部分 Google Cloud 特定的安全性功能使用,最常用的包括預設靜態資料加密、OS 登入、VPC Service Controls 以及客戶管理的加密金鑰 (CMEK)。
將最棒的開放原始碼與最出色的 Google Cloud 技術搭配使用
Dataproc 可讓您使用目前採用的開放原始碼工具、演算法和程式設計語言,且能輕鬆地運用於雲端規模的資料集上。同時,Dataproc 也與 Google Cloud 數據分析、資料庫和 AI 生態系統的其他部分整合,可讓您立即使用。數據資料學家和工程師可快速存取資料並建立資料應用程式,將 Dataproc 連結至 BigQuery、Vertex AI、Cloud Spanner、Pub/Sub 或 Data Fusion。
說明文件
說明文件
無伺服器 Spark
提交會自動佈建和自動調整資源配置的 Spark 工作。歡迎透過下方的快速入門導覽課程連結瞭解詳情。
Dataproc 初始化動作
透過預先建構的初始化動作,將其他 OSS 專案新增至您的 Dataproc 叢集中。
開放原始碼連接器
可與 Apache Hadoop 互通整合的程式庫和工具。
用途
用途
為控管成本並發揮彈性擴充的優勢,企業紛紛將現有內部部署的 Apache Hadoop 和 Spark 叢集遷移至 Dataproc。企業可透過 Dataproc 啟動全代管的專用叢集。這類叢集可自動調度資源,因此能支援任何資料或分析處理工作。
您可以啟動專用 Dataproc 叢集,藉此建立理想的資料科學環境。將 Apache Spark、NVIDIA RAPIDS 和 Juypter Notebook 等開放原始碼軟體整合至 Google Cloud AI 服務和 GPU,即可加快機器學習和 AI 的開發作業。
所有功能與特色
所有功能與特色
無伺服器 Spark | 部署會自動調度資源的 Spark 應用程式和管道,完全不須手動佈建或調整基礎架構。 |
叢集大小可調整 | 建立叢集後,您不但能快速調度資源,還可指定各種虛擬機器類型、磁碟大小、節點數和網路選項。 |
自動調度叢集資源 | Dataproc 的自動調度資源機制可讓您以自動化的模式管理叢集資源,進而自動新增及移除叢集工作站 (節點)。 |
整合式雲端 | 內建 Cloud Storage、BigQuery、Dataplex、Vertex AI、Composer、Cloud Bigtable、Cloud Logging 和 Cloud Monitoring 的整合功能,讓您取得更完整可靠的資料平台。 |
版本管理 | 映像檔版本管理功能方便您切換不同版本的 Apache Spark、Apache Hadoop 和其他工具。 |
排定刪除叢集 | 只要使用 Dataproc 的排定刪除作業功能,即可避免閒置的叢集產生費用。您可以選擇在屆滿指定的閒置時間後刪除叢集,也可以指定在特定的時間點或時間範圍後刪除叢集。 |
自動設定或手動設定 | Dataproc 會自動設定軟硬體,但您也可以選擇手動控管設定。 |
開發人員工具 | 提供多種叢集管理方式,包括簡單易用的網頁版使用者介面、Cloud SDK、符合 REST 樣式的 API 和 SSH 存取權限。 |
初始化動作 | 建立叢集後,您可以執行初始化動作,視需求安裝或自訂設定和程式庫。 |
選用元件 | 您可以使用選用元件安裝及設定叢集中的其他元件。選用元件可與 Dataproc 元件整合,並針對 Zeppelin、Presto 和其他與 Apache Hadoop 及 Apache Spark 生態系統相關的開放原始碼軟體元件,提供完成設定的環境。 |
自訂容器和映像檔 | Dataproc 無伺服器 Spark 可透過自訂 Docker 容器佈建。您可以透過含有預先安裝 Linux 作業系統套件的自訂映像檔佈建 Dataproc 叢集。 |
彈性的虛擬機器 | 叢集可以使用自訂機器類型和先占虛擬機器提供您需要的大小。 |
元件閘道與筆記本存取權 | 透過 Dataproc 元件閘道,您只要按一下滑鼠,就能輕易存取在叢集中執行的 Dataproc 預設和選用元件網頁介面,而且不必擔心安全性問題。 |
工作流程範本 | Dataproc 工作流程範本提供靈活且容易使用的機制,可用來管理及執行工作流程。工作流程範本是可重複使用的工作流程設定,其中所定義的工作圖含有要在哪裡執行工作的資訊。 |
自動化政策管理 | 將安全性、費用及基礎架構政策標準化,對整批叢集採取一致的做法。您可以在專案層級針對資源管理、安全性或網路建立政策,同時也能讓使用者輕鬆使用正確的映像檔、元件、Metastore 和其他周邊服務,以便您日後管理大批叢集和無伺服器 Spark 政策。 |
智慧型快訊 | Dataproc 建議的快訊可讓客戶調整預先設定的快訊門檻,以便在叢集、工作處於閒置或失控狀態、叢集使用率過高等情況收到快訊。 客戶能進一步自訂這些快訊,甚至是建立進階的叢集和工作管理功能。這些功能可讓客戶大規模管理機群。 |
Dataproc 中繼存放區 | 全代管、高可用性 Hive 中繼存放區 (HMS),提供精細的存取權控管功能,並與 BigQuery 中繼存放區、Dataplex 和 Data Catalog 進行整合。 |
定價
定價
Dataproc 定價取決於 vCPU 數和叢集執行的時間長度。雖然顯示的定價為每小時費率,但 Dataproc 實際上是以秒計費,因此可讓您用多少就付多少。
例如:搭載 4 個 CPU 的 6 個叢集 (1 個主要執行個體 + 5 個工作站) 各執行了 2 小時,費用為 $0.48 美元。Dataproc 費用 = vCPU 數量 * 小時數 * Dataproc 定價 = 24 * 2 * $0.01 美元 = $0.48 美元
詳情請參閱定價頁面。