Cloud Dataproc

以更快速簡單、經濟實惠的方式執行 Apache Spark 和 Apache Hadoop

免費試用

雲端原生的 Apache Hadoop 和 Apache Spark

Cloud Dataproc 是一項運作快速又簡單易用的全代管雲端服務,可讓您以更輕鬆且更具成本效益的方式,執行 Apache SparkApache Hadoop 叢集。過去需要數小時或數天處理的作業,現在只要幾分鐘或幾秒就能完成,而且您只需要為實際使用的資源付費 (以秒計費)。Cloud Dataproc 也可與其他 Google Cloud Platform (GCP) 服務輕鬆整合,是一款功能強大而完善的平台,可用於資料處理、數據分析及機器學習。

Spark 和 Hadoop 代管服務

快速且可擴充的資料處理效能

您不僅能快速建立 Cloud Dataproc 叢集,還能隨時調整大小 (三至數百個節點),因此不必擔心叢集無法容納資料管道。每個叢集動作平均花費的時間不到 90 秒,管理基礎架構更省時,讓您得以集中精力探究深入分析資訊。

快速且可擴充的資料處理效能

價格實惠

Cloud Dataproc 採用 Google Cloud Platform 的定價原則,價格結構簡單明瞭,依照實際用量以秒計費,十分經濟實惠。不僅如此,Cloud Dataproc 叢集可加入費用低廉的先占執行個體,並提供承諾使用折扣與續用折扣,進一步降低總使用成本,同時保有強大的叢集系統。

價格實惠

開放原始碼生態系統

您可以將 Spark 和 Hadoop 工具、資料庫及說明文件與 Cloud Dataproc 搭配使用。Cloud Dataproc 會經常為 Spark、Hadoop、Pig 和 Hive 的原生版本更新,開發人員不必學習新工具或 API 即可開始使用,還可以直接移動現有的專案或 ETL 管道,不必再重新進行開發作業

開放原始碼生態系統

Cloud Dataproc 的特色

Cloud Dataproc 是 Apache Spark 和 Apache Hadoop 的代管服務,不僅介面簡單易用、執行快速,而且費用低廉。

自動化叢集代管
代管的部署、記錄和監控作業讓您可以專注於資料本身,不必為叢集煩惱。Cloud Dataproc 叢集不但穩定快速,且兼具擴充性。
叢集可調整大小
建立叢集之後,不但能快速擴充,還可指定各種虛擬機器類型、磁碟大小、節點數和網路選項。
自動調度叢集的資源配置
Cloud Dataproc 的自動調度資源機制可讓您以自動化的模式管理叢集資源,進而自動新增及移除叢集工作站 (節點)。
整合式雲端
內建 Cloud Storage、BigQuery、Cloud Bigtable、Stackdriver Logging、Stackdriver Monitoring 和 AI Hub 的整合功能,為您提供完善而穩固的資料平台。
版本設定
映像檔版本管理功能方便您切換不同版本的 Apache Spark、Apache Hadoop 和其他工具。
可用性高
叢集可透過高可用性模式與多個主要節點搭配執行,並設定工作失敗時重新啟動,為您的叢集和工作確保高可用性。
企業安全性
當您建立 Cloud Dataproc 叢集時,可以一併新增安全性設定,並透過 Kerberos 啟用 Hadoop 安全模式。GCP 和 Cloud Dataproc 也備有其他安全性功能,可保護資料免於威脅侵擾。Cloud Dataproc 也可搭配某些 GCP 特定的安全性功能使用,最常用的包括預設靜態資料加密、OS 登入、VPC Service Controls 以及客戶管理的加密金鑰 (CMEK)。
排定刪除叢集
只要使用 Cloud Dataproc 的排定刪除功能,即可避免閒置的叢集產生額外費用。您可以選擇要在指定的閒置期過後刪除叢集,也可指定在特定時間點或時間範圍後再進行刪除。
自動設定或手動設定
Cloud Dataproc 會自動設定軟硬體,但您也可以手動控制設定
開發人員工具
提供多種叢集管理方式,包括簡單易用的網路 UI、Cloud SDK、符合 REST 樣式的 API 和 SSH 存取權。
初始化動作
建立叢集後,您可以執行初始化動作,視需求安裝或自訂設定和資料庫。
選用元件
您可以使用選用元件安裝及設定叢集上的其他元件。選用元件可與 Cloud Dataproc 元件整合,並針對 Zeppelin、Druid、Presto 和其他與 Apache Hadoop 和 Apache Spark 生態系統相關的開放原始碼軟體元件,提供完成設定的環境。
自訂映像檔
Cloud Dataproc 叢集可使用包含預先安裝 Linux 作業系統套件的自訂映像檔進行佈建。
彈性的虛擬機器
叢集可以使用自訂機器類型先占虛擬機器,為您提供所需的大小。
元件閘道與筆記本存取權限
透過 Cloud Dataproc 元件閘道,使用者只要按一下,就能輕易存取在叢集上執行的 Cloud Dataproc 預設和選用元件網頁介面,而且不必擔心安全性問題。
工作流程範本
Cloud Dataproc 工作流程範本提供靈活且容易使用的機制,可用來管理和執行工作流程。工作流程範本是可重複使用的工作流程設定,其中所定義的工作圖含有要在哪裡執行工作的資訊。

Cloud Dataproc 定價

叢集中使用的 Compute Engine 執行個體每增加一個虛擬 CPU,Cloud Dataproc 的費用就會微幅遞增1

愛荷華州 (us-central1) 奧勒岡州 (us-west1) 北維吉尼亞州 (us-east4) 南卡羅來納州 (us-east1) 蒙特婁 (northamerica-northeast1) 聖保羅 (southamerica-east1) 比利時 (europe-west1) 倫敦 (europe-west2) 荷蘭 (europe-west4) 蘇黎世 (europe-west6) 法蘭克福 (europe-west3) 雪梨 (australia-southeast1) 孟買 (asia-south1) 香港 (asia-east2) 台灣 (asia-east1) 東京 (asia-northeast1) 大阪 (asia-northeast2)
機器類型 價格
標準機器
1 至 64 個虛擬 CPU
大量記憶體機器
2 至 64 個虛擬 CPU
高效率 CPU 機器
2 至 64 個虛擬 CPU
自訂機器
視 vCPU 和記憶體使用量而定
如果您使用美元以外的貨幣付費,系統將按照 Cloud Platform SKU 頁面上列出的相應貨幣價格來計費。

1叢集在運作時,叢集中使用的 Compute Engine 執行個體每增加一個虛擬 CPU,Cloud Dataproc 的費用就會微幅增加。Cloud Dataproc 使用的其他資源 (例如 Compute Engine 網路、BigQuery 和 Cloud Bigtable 等) 則是按用量計費。如需詳細的定價資訊,請參閱定價指南

精選網誌

歡迎參閱最新網誌,進一步瞭解雲端環境的開放原始碼資料處理程序

2019 年 Next 大會精華片段

觀看影片,瞭解客戶如何透過 Cloud Dataproc 降低營運成本,並在機構中制定資料導向的決策

Cloud Dataproc 的最新功能
video_youtube
瞭解客戶如何從 Hadoop 遷移至 Google Cloud Platform
video_youtube
讓 Dataproc 更加普及
video_youtube
Google Cloud

開始使用

瞭解詳情並著手實作

第一次使用 GCP 嗎?我們提供您 $300 美元的抵免額,歡迎免費體驗 GCP 產品。

需要進一步協助嗎?

我們的專家會協助您打造合適的解決方案,或是為您找到符合需求的合作夥伴。

本頁所列產品目前仍在 Alpha 或 Beta 測試階段,或是以搶先體驗版的形式提供。如要進一步瞭解產品推出的各個階段,請參閱這個網頁

Cloud AI 產品符合這個網頁所列的服務水準協議政策。這些產品的延遲時間或可用性保證可能與其他 Google Cloud 服務不同。

傳送您對下列選項的寶貴意見...

這個網頁
Cloud Dataproc