Dataproc

Dataproc 可讓您以更安全可靠的方式,輕鬆在雲端加速處理開放原始碼資料和分析作業。
免費試用 Dataproc
  • action/check_circle_24px Created with Sketch.

    只需 90 秒即可在自訂機器上啟動叢集,並能自動調度叢集資源

  • action/check_circle_24px Created with Sketch.

    建構全代管 Apache Spark、Apache Hadoop、Presto 和其他 OSS 叢集

  • action/check_circle_24px Created with Sketch.

    只需針對實際使用的資源付費,可降低 OSS 的總持有成本

  • action/check_circle_24px Created with Sketch.

    所有叢集均內建加密和整合式安全機制

  • action/check_circle_24px Created with Sketch.

    使用專用叢集來加速執行數據資料學相關作業

快速在自訂機器上建構自訂的 OSS 叢集

無論您需要的是 Presto 的額外記憶體或是 Apache Spark 機器學習的 GPU,Dataproc 都可以在 90 秒內啟動專用叢集,協助您加速處理資料和分析作業。

簡單實惠的叢集管理

Dataproc 具有自動調度資源、刪除閒置叢集和以秒計費等功能,因此可協助降低 OSS 的總持有成本,讓您將時間和資源投注在其他重要事務上。

預設採用內建安全機制

預設的加密機制可協助確保每筆資料都受到保護。您可以透過 JobsAPI 和元件閘道替 Cloud IAM 叢集定義權限,不必設定網路或閘道節點。

主要功能與特色

自動化叢集管理

部署、記錄和監控作業均受管理,您只要專注於資料本身即可,不必為叢集煩惱。Dataproc 叢集不但穩定快速,且兼具擴充性。

將 OSS 工作容器化

當您在 Dataproc 中建構 OSS 工作 (例如 Apache Spark) 時,可以使用 Kubernetes 將這類工作快速容器化,然後部署至任何 GKE 叢集位置。

企業安全性

當您建立 Cloud Dataproc 叢集時,可一併新增安全性設定,並透過 Kerberos 啟用 Hadoop 安全模式。Dataproc 也可搭配部分 Google Cloud 特定的安全性功能使用,最常用的包括預設靜態資料加密、OS 登入、VPC Service Controls 以及客戶管理的加密金鑰 (CMEK)。

查看所有功能與特色

說明文件

API 與程式庫
Dataproc 初始化動作

透過預先建構的初始化動作,將其他 OSS 專案新增至您的 Dataproc 叢集中。

API 與程式庫
開放原始碼連接器

可與 Apache Hadoop 互通整合的程式庫和工具。

用途

用途
將 Hadoop 和 Spark 叢集移轉至雲端

為控管成本並發揮彈性擴充的優勢,企業紛紛將現有內部部署的 Apache Hadoop 和 Spark 叢集遷移至 Dataproc。企業可透過 Dataproc 啟動全代管的專用叢集。這類叢集可自動調度資源,因此能支援任何資料或分析處理工作。

用途
Dataproc 中的數據資料學

您可以啟動專用 Dataproc 叢集,藉以建立理想的數據資料學環境。將 Apache Spark、NVIDIA RAPIDS 和 Juypter Notebook 之類的開放原始碼軟體與 Google Cloud AI 服務和 GPU 整合,則可協助您加快機器學習和 AI 開發的速度。 

所有功能與特色

叢集大小可調整 建立叢集後,您不但能快速調度資源,還可指定各種虛擬機器類型、磁碟大小、節點數和網路選項。
自動調度叢集資源 Dataproc 的自動調度資源機制可讓您以自動化的模式管理叢集資源,進而自動新增及移除叢集工作站 (節點)。
整合式雲端 內建 Cloud Storage、BigQuery、Bigtable、Cloud Logging、Cloud Monitoring 和 AI Hub 的整合功能,為您提供完善而穩固的資料平台。
版本管理 映像檔版本管理功能方便您切換不同版本的 Apache Spark、Apache Hadoop 和其他工具。
高可用性 叢集可透過高可用性模式與多個主要節點搭配執行,並設定工作失敗時重新啟動,確保您的叢集和工作具備高可用性。
排定刪除叢集 只要使用 Dataproc 的排定刪除功能,即可避免閒置的叢集產生額外費用。您可以選擇要在指定的閒置期過後刪除叢集,也可指定在特定時間點或時間範圍後再進行刪除。
自動設定或手動設定 Dataproc 會自動設定軟硬體,但您也可以手動控制設定
開發人員工具 提供多種叢集管理方式,包括簡單易用的網頁版 UI、Cloud SDK、符合 REST 樣式的 API 和安全殼層 (SSH) 存取權。
初始化動作 建立叢集後,您可以執行初始化動作,視需求安裝或自訂設定和程式庫。
選用元件 您可以使用選用元件安裝及設定叢集中的其他元件。選用元件可與 Dataproc 元件整合,並針對 Zeppelin、Druid、Presto 和其他與 Apache Hadoop 及 Apache Spark 生態系統相關的開放原始碼軟體元件,提供完成設定的環境。
自訂映像檔 Dataproc 叢集可使用包含預先安裝 Linux 作業系統套件的自訂映像檔進行佈建。
彈性的虛擬機器 叢集可以使用自訂機器類型先占虛擬機器提供您需要的大小。
元件閘道與筆記本存取權 透過 Dataproc 元件閘道,您只要按一下滑鼠,就能輕易存取在叢集中執行的 Dataproc 預設和選用元件網頁介面,而且不必擔心安全性問題。
工作流程範本 Dataproc 工作流程範本提供靈活且容易使用的機制,可用來管理及執行工作流程。工作流程範本是可重複使用的工作流程設定,其中所定義的工作圖含有要在哪裡執行工作的資訊。

定價

Dataproc 定價取決於 vCPU 數和叢集執行的時間長度。雖然顯示的定價為每小時費率,但 Dataproc 實際上是以秒計費,因此可讓您用多少就付多少。詳情請參閱定價頁面。

合作夥伴

Dataproc 整合了關鍵合作夥伴的服務,可為您強化現有投資與相關技能。