Dataproc

以更快速簡單、經濟實惠的方式執行 Apache Spark 和 Apache Hadoop

免費試用

雲端原生的 Apache Hadoop 和 Apache Spark

Dataproc 是一項運作快速又簡單易用的全代管雲端服務,可讓您以更輕鬆且更具成本效益的方式,執行 Apache SparkApache Hadoop 叢集。過去需要數小時或數天處理的作業,現在只要幾分鐘或幾秒就能完成,而且您只需要為實際使用的資源付費 (以秒計費)。Dataproc 還能輕鬆與其他 Google Cloud Platform (GCP) 服務整合, 讓您透過功能強大且完善的平台來進行資料處理、分析和機器學習工作。

Spark 和 Hadoop 代管服務

快速且可擴充的資料處理效能

您不僅能快速建立 Dataproc 叢集,還能隨時調整大小 (三至數百個節點),因此不必擔心叢集無法容納資料管道。每個叢集動作平均花費的時間不到 90 秒,管理基礎架構更省時,讓您得以集中精力探究深入分析資訊。

快速且可擴充的資料處理效能

價格實惠

Dataproc 採用和 Google Cloud Platform 相同的定價原則, 價格實惠且結構清晰易懂, 讓您根據實際用量按秒計費。不僅如此,Dataproc 叢集可加入費用低廉的先占執行個體,並提供承諾使用折扣與續用折扣,進一步降低總使用成本,同時保有強大的叢集系統。

價格實惠

開放原始碼生態系統

您可以搭配 Dataproc 使用 Spark 和 Hadoop 工具、程式庫和說明文件。 Dataproc 會經常針對 Spark、Hadoop、Pig 和 Hive 的原生版本進行更新,開發人員不必學習新工具或 API 即可開始使用,還可以直接移動現有的專案或 ETL 管道,不必再重新進行開發作業

開放原始碼生態系統

Dataproc 功能

Dataproc 是 Apache Spark 和 Apache Hadoop 的代管服務,不僅介面簡單易用、執行快速,而且費用低廉。

自動化叢集管理
部署、記錄和監控作業均受管理,您只要專注於資料本身即可,不必為叢集煩惱。Dataproc 叢集不但穩定快速,且兼具擴充性。
叢集可調整大小
建立叢集之後,不但能快速擴充,還可指定各種虛擬機器類型、磁碟大小、節點數和網路選項。
自動調度叢集的資源配置
Cloud Dataproc 的自動調度資源機制可讓您以自動化的模式管理叢集資源,進而自動新增及移除叢集工作站 (節點)。
整合式雲端
內建 Cloud Storage、BigQuery、Bigtable、Stackdriver Logging、Stackdriver Monitoring 和 AI Hub 的整合功能,為您提供完善而穩固的資料平台。
版本管理
映像檔版本管理功能方便您切換不同版本的 Apache Spark、Apache Hadoop 和其他工具。
高可用性
叢集可透過高可用性模式與多個主要節點搭配執行,並設定工作失敗時重新啟動,為您的叢集和工作確保高可用性。
企業安全性
當您建立 Cloud Dataproc 叢集時,可以一併新增安全性設定,並透過 Kerberos 啟用 Hadoop 安全模式。GCP 和 Dataproc 也備有其他安全性功能,可保護資料免於威脅侵擾。Dataproc 也可搭配部分 GCP 特定的安全性功能使用,最常用的包括預設靜態資料加密、OS 登入、VPC Service Controls 以及客戶管理的加密金鑰 (CMEK)
排定刪除叢集
只要使用 Cloud Dataproc 的排定刪除功能,即可避免閒置的叢集產生額外費用。您可以選擇要在指定的閒置期過後刪除叢集,也可指定在特定時間點或時間範圍後再進行刪除。
自動設定或手動設定
Dataproc 會自動設定軟硬體,但您也可以手動控制設定
開發人員工具
提供多種叢集管理方式,包括簡單易用的網路 UI、Cloud SDK、符合 REST 樣式的 API 和 SSH 存取權。
初始化動作
建立叢集後,您可以執行初始化動作,視需求安裝或自訂設定和資料庫。
選用元件
您可以使用選用元件安裝及設定叢集上的其他元件。選用元件可與 Dataproc 元件整合,並針對 Zeppelin、Druid、Presto 和其他與 Apache Hadoop 及 Apache Spark 生態系統相關的開放原始碼軟體元件,提供完成設定的環境。
自訂映像檔
Dataproc 叢集可使用包含預先安裝 Linux 作業系統套件的自訂映像檔進行佈建。
彈性的虛擬機器
叢集可以使用自訂機器類型先占虛擬機器提供您需要的大小。
元件閘道與筆記本存取權限
透過 Dataproc 元件閘道,使用者只要按一下,就能輕易存取在叢集上執行的 Dataproc 預設和選用元件網頁介面,而且不必擔心安全性問題。
工作流程範本
Dataproc 工作流程範本提供靈活且容易使用的機制,可用來管理和執行工作流程。工作流程範本是可重複使用的工作流程設定,其中所定義的工作圖含有要在哪裡執行工作的資訊。

Dataproc 定價

叢集中使用的 Compute Engine 執行個體每增加一個虛擬 CPU,Dataproc 的費用就會微幅增加r1

精選網誌

歡迎參閱最新網誌,進一步瞭解雲端環境的開放原始碼資料處理程序

2019 年 Next 大會精華片段

觀看影片,瞭解客戶如何透過 Dataproc 降低營運成本,並在機構中制定資料導向的決策

Cloud Dataproc 的最新功能
video_youtube
瞭解客戶如何從 Hadoop 遷移至 Google Cloud Platform
video_youtube
讓 Dataproc 更加普及
video_youtube
Google Cloud

開始使用

瞭解詳情並著手實作

第一次使用 GCP 嗎?我們提供您 $300 美元的額度,歡迎免費體驗 GCP 產品。

需要進一步協助嗎?

我們的專家會協助您打造合適的解決方案,或是為您找到符合需求的合作夥伴。

本頁所列的產品目前仍處於 Alpha/Beta 測試階段,或是以搶先體驗版的形式提供。如要進一步瞭解產品推出的各個階段,請參閱這個網頁

Cloud AI 產品符合這個頁面所列的服務水準協議政策。這些產品的延遲時間或可用性保證可能與其他 Google Cloud 服務不同。

傳送您對下列選項的寶貴意見...

這個網頁
Cloud Dataproc