Dataproc

Dataproc 是一項全代管且具備高擴充性的服務,可執行 Apache Spark、Apache Flink、Presto 和 30 個以上的開放原始碼工具和架構。使用 Dataproc 以全球規模進行資料湖泊現代化、ETL 和安全數據資料學作業,與 Google Cloud 全方位整合且成本極低。

  • check_circle_filled_black_24dp (1)

    開放式:根據需求建構全代管開放原始碼叢集,並整合資料湖泊中繼存放區

  • check_circle_filled_black_24dp (1)

    彈性:您可以混用各種 OSS 和 GCP 原生服務,且能在整個平台上緊密整合

  • check_circle_filled_black_24dp (1)

    控管:透過 Dataproc Hub 啟用可擴充、安全且能控管成本的開放原始碼數據資料學作業

  • check_circle_filled_black_24dp (1)

    安全:設定進階安全防護機制,例如 Kerberos、Apache Ranger 和 Personal Authentication

  • check_circle_filled_black_24dp (1)

    符合成本效益:以秒計費,相較於內部部署資料湖泊,可降低 57% 的總持有成本

優點

翻新開放原始碼資料處理作業

無論您需要 VM 還是 Kubernetes、Presto 或甚至是 GPU 的額外記憶體,Dataproc 都能隨需求啟動特地建構的環境,藉此協助您加快資料和數據分析作業的處理速度。

為數據資料學作業提供具備成本效益的做法與安全的 OSS

Dataproc Hub 利用自動調度資源、閒置叢集刪除、以秒計費、整合式安全性等功能,讓您以具成本效益的方式調度開放原始碼數據資料學作業的資源,同時將管理成本和安全性風險降至最低。

進階安全性、法規遵循與管理

使用現有的 KerberosApache Ranger 政策或個人叢集驗證管理和強制執行使用者授權和驗證。不需要設定網路節點就能定義權限。

主要功能與特色

主要功能與特色

全代管的自動化大數據開放原始碼軟體

全代管的部署、記錄和監控作業,可讓您專注於自己的資料和分析,不必煩惱基礎架構。將 Apache Spark 管理作業的總持有成本降低最多 57%。數據資料學家與工程師可使用 Jupyter 和 Zeppelin 筆記本 (可在 Dataproc Hub 中成為範本) 等熟悉的工具與 Dataproc 互動。Dataproc Jobs API 可讓您輕鬆將大數據資料處理作業整合至自訂應用程式,同時 Dataproc Metastore 可減少需要執行您自己的 Hive 中繼存放區或目錄服務的情形。

使用 Kubernetes 將 Apache Spark 工作容器化

使用 Kubernetes 上的 Dataproc 建構 Apache Spark 工作,以便使用 Dataproc 搭配 Google Kubernetes Engine (GKE) 來提供工作可攜性和隔離性。

與 Google Cloud 整合的企業安全性

當您建立 Cloud Dataproc 叢集時,可一併新增安全性設定,並透過 Kerberos 啟用 Hadoop 安全模式。Dataproc 也可搭配部分 Google Cloud 特定的安全性功能使用,最常用的包括預設靜態資料加密、OS 登入、VPC Service Controls 以及客戶管理的加密金鑰 (CMEK)。

將最棒的開放原始碼與最出色的 Google Cloud 技術搭配使用

Dataproc 可讓您使用目前採用的開放原始碼工具、演算法和程式設計語言,但能輕鬆地運用於雲端規模的資料集上。同時,Dataproc 也與 Google Cloud 數據分析、資料庫和 AI 生態系統的其他部分整合,可讓您立即使用。數據資料學家和工程師得以快速存取資料,並建構將 Dataproc 連線至 BigQueryAI 平台、Cloud Spanner、Pub/Sub 或 Data Fusion 的資料應用程式。

查看所有功能與特色

最新資訊

最新資訊

訂閱 Google Cloud 電子報,掌握產品動態、活動資訊和特價優惠等消息。

說明文件

說明文件

API 與程式庫
Dataproc 初始化動作

透過預先建構的初始化動作,將其他 OSS 專案新增至 Dataproc 叢集中。

API 與程式庫
開放原始碼連接器

可與 Apache Hadoop 互通整合的程式庫和工具。

用途

用途

用途
將 Hadoop 和 Spark 叢集移轉至雲端

為控管成本並發揮彈性擴充的優勢,企業紛紛將現有內部部署的 Apache Hadoop 和 Spark 叢集遷移至 Dataproc。企業可透過 Dataproc 啟動全代管的專用叢集。這類叢集可自動調度資源,因此能支援任何資料或分析處理工作。

用途
Dataproc 中的數據資料學

您可以啟動專用 Dataproc 叢集,藉此建立理想的資料科學環境。將 Apache Spark、NVIDIA RAPIDS 和 Juypter Notebook 等開放原始碼軟體整合至 Google Cloud AI 服務和 GPU,即可加快機器學習和 AI 的開發作業。 

所有功能與特色

所有功能與特色

叢集大小可調整 建立叢集後,您不但能快速調度資源,還可指定各種虛擬機器類型、磁碟大小、節點數和網路選項。
自動調度叢集資源 Dataproc 的自動調度資源機制可讓您以自動化的模式管理叢集資源,進而自動新增及移除叢集工作站 (節點)。
整合式雲端 內建 Cloud Storage、BigQuery、Cloud Bigtable、Cloud Logging、Cloud Monitoring 和 AI Hub 的整合功能,提供更完整可靠的資料平台。
版本管理 映像檔版本管理功能方便您切換不同版本的 Apache Spark、Apache Hadoop 和其他工具。
高可用性 叢集可透過高可用性模式與多個主要節點搭配執行,並設定工作失敗時重新啟動,確保您的叢集和工作具備高可用性。
排定刪除叢集 只要使用 Dataproc 的排定刪除作業功能,即可避免閒置的叢集產生費用。您可以選擇在屆滿指定的閒置時間後刪除叢集,也可以指定在特定的時間點或時間範圍後刪除叢集。
自動設定或手動設定 Dataproc 會自動設定軟硬體,但您也可以選擇手動控管設定。
開發人員工具 提供多種叢集管理方式,包括簡單易用的網頁版使用者介面、Cloud SDK、符合 REST 樣式的 API 和 SSH 存取權限。
初始化動作 建立叢集後,您可以執行初始化動作,視需求安裝或自訂設定和程式庫。
選用元件 您可以使用選用元件安裝及設定叢集中的其他元件。選用元件可與 Dataproc 元件整合,並針對 Zeppelin、Druid、Presto 和其他與 Apache Hadoop 及 Apache Spark 生態系統相關的開放原始碼軟體元件,提供完成設定的環境。
自訂映像檔 您可以透過含有預先安裝 Linux 作業系統套件的自訂映像檔佈建 Dataproc 叢集。
彈性的虛擬機器 叢集可以使用自訂機器類型先占虛擬機器提供符合需求的大小。
元件閘道與筆記本存取權 透過 Dataproc 元件閘道,您只要按一下滑鼠,就能輕易存取在叢集中執行的 Dataproc 預設和選用元件網頁介面,而且不必擔心安全性問題。
工作流程範本 Dataproc 工作流程範本提供靈活且容易使用的機制,可用來管理及執行工作流程。工作流程範本是可重複使用的工作流程設定,其中所定義的工作圖含有要在哪裡執行工作的資訊。

定價

定價

Dataproc 定價取決於 vCPU 數和叢集執行的時間長度。雖然顯示的定價為每小時費率,但 Dataproc 實際上是以秒計費,因此可讓您用多少就付多少。

例如:具備 4 個 CPU 的 6 個叢集 (1 個主要節點 + 5 個工作站節點) 執行 2 小時,費用即為 $0.48 美元。Dataproc 費用 = vCPU 數量 * 小時 * Dataproc 價格 = 24 * 2 * $0.01 美元 = $0.48 美元

詳情請參閱定價頁面。

合作夥伴

合作夥伴

Dataproc 已與重要合作夥伴的產品相互整合,可以為您強化現有的投資項目與技能組合。