Dataproc

以更快速簡單、經濟實惠的方式執行 Apache Spark 和 Apache Hadoop

免費試用

雲端原生的 Apache Hadoop 和 Apache Spark

Dataproc 是一項運作快速又簡單易用的全代管雲端服務,可讓您以更輕鬆且更具成本效益的方式,執行 Apache SparkApache Hadoop 叢集。過去需要數小時或數天處理的作業,現在只要幾分鐘或幾秒就能完成,而且您只需要為實際使用的資源付費 (以秒計費)。Dataproc 還能輕鬆與其他 Google Cloud Platform (GCP) 服務整合, 讓您透過功能強大且完善的平台來進行資料處理、分析和機器學習工作。

Spark 和 Hadoop 代管服務

快速且可擴充的資料處理效能

您不僅能快速建立 Dataproc 叢集,還能隨時調整大小 (三至數百個節點),因此不必擔心叢集無法容納資料管道。每個叢集動作平均花費的時間不到 90 秒,管理基礎架構更省時,讓您得以集中精力探究深入分析資訊。

快速且可擴充的資料處理效能

價格實惠

Dataproc 採用和 Google Cloud Platform 相同的定價原則, 價格實惠且結構清晰易懂, 讓您根據實際用量按秒計費。不僅如此,Dataproc 叢集可加入費用低廉的先占執行個體,並提供承諾使用折扣與續用折扣,進一步降低總使用成本,同時保有強大的叢集系統。

價格實惠

開放原始碼生態系統

您可以搭配 Dataproc 使用 Spark 和 Hadoop 工具、程式庫和說明文件。 Dataproc 會經常針對 Spark、Hadoop、Pig 和 Hive 的原生版本進行更新,開發人員不必學習新工具或 API 即可開始使用,還可以直接移動現有的專案或 ETL 管道,不必再重新進行開發作業

開放原始碼生態系統

Dataproc 功能

Dataproc 是 Apache Spark 和 Apache Hadoop 的代管服務,不僅介面簡單易用、執行快速,費用也十分低廉。

自動化叢集管理
部署、記錄和監控作業均受管理,您只要專注於資料本身即可,不必為叢集煩惱。Dataproc 叢集不但穩定快速,且兼具擴充性。
叢集可調整大小
建立叢集之後,不但能快速擴充,還可指定各種虛擬機器類型、磁碟大小、節點數和網路選項。
自動調度叢集的資源配置
Dataproc 的自動調度資源機制可讓您以自動化的模式管理叢集資源,進而自動新增及移除叢集工作站 (節點)。
整合式雲端
內建 Cloud Storage、BigQuery、 Bigtable、Stackdriver Logging、Stackdriver Monitoring 和 AI Hub 的整合功能,為您提供完善而穩固的資料平台。
版本管理
映像檔版本管理功能方便您切換不同版本的 Apache Spark、Apache Hadoop 和其他工具。
高可用性
叢集可透過高可用性模式與多個主要節點搭配執行,並設定工作失敗時重新啟動,為您的叢集和工作確保高可用性。
企業安全性
當您建立 Cloud Dataproc 叢集時,可以一併新增安全性設定,並透過 Kerberos 啟用 Hadoop 安全模式。GCP 和 Dataproc 也備有其他安全性功能,可保護資料免於威脅侵擾。Dataproc 也可搭配部分 GCP 特定的安全性功能使用,最常用的包括預設靜態資料加密、OS 登入、VPC Service Controls 以及客戶管理的加密金鑰 (CMEK)
排定刪除叢集
只要使用 Cloud Dataproc 的 排定刪除功能, 即可避免閒置的叢集產生額外費用。您可以選擇要在指定的閒置期過後刪除叢集, 也可指定在特定時間點或時間範圍後再進行刪除。
自動設定或手動設定
Dataproc 會自動設定軟硬體,但您也可以手動調控設定
開發人員工具
提供多種叢集管理方式,包括簡單易用的網路 UI、Cloud SDK、符合 REST 樣式的 API 和 SSH 存取權。
初始化動作
建立叢集後,您可以執行初始化動作,視需求安裝或自訂設定和資料庫。
選用元件
您可以使用選用元件安裝及設定叢集上的其他元件。選用元件可與 Dataproc 元件整合,並針對 Zeppelin、Druid、Presto 和其他與 Apache Hadoop 及 Apache Spark 生態系統相關的開放原始碼軟體元件,提供完成設定的環境。
自訂映像檔
Dataproc 叢集可使用包含預先安裝 Linux 作業系統套件的自訂映像檔佈建。
彈性的虛擬機器
叢集可以使用自訂機器類型先占虛擬機器提供您需要的大小。
元件閘道與筆記本存取權限
透過 Dataproc 元件閘道,使用者只要按一下,就能輕易存取在叢集上執行的 Dataproc 預設和選用元件網頁介面,而且不必擔心安全性問題。
工作流程範本
Dataproc 工作流程範本 提供靈活且容易使用的機制,可用來管理和執行工作流程。 工作流程範本是可重複使用的工作流程設定,其定義的工作圖含有工作執行位置的資訊。

Dataproc 定價

叢集中使用的 Compute Engine 執行個體每增加一個虛擬 CPU,Dataproc 的費用就會微幅增加1

精選網誌

歡迎參閱最新網誌,進一步瞭解雲端環境的開放原始碼資料處理程序

2019 年 Next 大會精華片段

觀看影片,瞭解客戶如何透過 Dataproc 降低營運成本, 並在機構中制定資料導向的決策

Cloud Dataproc 的最新功能
video_youtube
瞭解客戶如何從 Hadoop 遷移至 Google Cloud Platform
video_youtube
讓 Dataproc 更加普及
video_youtube
Google Cloud

開始使用

瞭解詳情並著手實作

第一次使用 GCP 嗎?我們提供您 $300 美元的額度,歡迎免費體驗 GCP 產品。

需要進一步協助嗎?

我們的專家會協助您打造合適的解決方案,或是為您找到符合需求的合作夥伴。

本頁所列的產品目前仍為 Alpha/Beta 版,或是以搶先體驗版的形式提供。如要進一步瞭解產品推出的各個階段,請參閱這個網頁

Cloud AI 產品符合這個頁面所列的服務水準協議政策。這些產品的延遲時間或可用性保證可能與其他 Google Cloud 服務不同。