Cloud Dataproc

以更快速簡單、經濟實惠的方式執行 Apache Spark 和 Apache Hadoop

免費試用

雲端原生的 Apache Hadoop 和 Apache Spark

Cloud Dataproc 是一項運作快速又簡單易用的全代管雲端服務,可讓您以更輕鬆且更具成本效益的方式執行 Apache SparkApache Hadoop 叢集。過去需要數小時或數天才能處理完成的作業,現在只要幾分鐘或幾秒就能完成,而且您只需為使用到的資源付費 (以秒計費)。Cloud Dataproc 也可與其他 Google Cloud Platform (GCP) 服務輕鬆整合,是一款功能強大而完善的平台,可用於資料處理、分析及機器學習。

Spark 和 Hadoop 代管服務

速度與彈性兼具的資料處理能力

您不僅能快速建立 Cloud Dataproc 叢集,還能隨時調整大小 (三至數百個節點),因此不必擔心叢集無法容納資料處理流程。每個叢集動作平均花費的時間不到 90 秒,管理基礎架構更省時,讓您得以集中精力來探究分析資訊。

快速且可擴充的資料處理效能

價格實惠

Cloud Dataproc 採用 Google Cloud Platform 的定價原則,價格結構簡單明瞭,依照實際用量以秒計費,十分經濟實惠。不僅如此,Cloud Dataproc 叢集可加入費用低廉的先佔執行個體,進一步降低總使用成本,同時保有強大的叢集系統。

價格實惠

開放原始碼生態系統

Cloud Dataproc 可與 Spark 和 Hadoop 生態系統提供的多種工具、程式庫和說明文件搭配使用。我們會提供 Spark、Hadoop、Pig 和 Hive 的原生版本並經常更新。開發人員不必學習新的工具或 API 即可開始使用,還可以直接移動現有的專案或 ETL 管道,省下重新開發的工夫

開放原始碼生態系統

Cloud Dataproc 的特色

Google Cloud Dataproc 是 Apache Spark 和 Apache Hadoop 代管服務,不僅介面簡單易用、執行快速,而且費用低廉。

自動化叢集管理
代管的部署、記錄和監控作業讓您可以專注於資料本身,不必為叢集煩惱。您的叢集將會穩定、快速,且兼具擴充性。
叢集可調整大小
建立叢集之後,不但能快速擴充,還可指定各種虛擬機器類型、磁碟大小、節點數和網路選項。
整合性
內建 Cloud Storage、BigQuery、BigTable、Stackdriver Logging 和 Stackdriver Monitoring 的整合功能,為您提供完善而實用的資料平台。
版本設定
映像檔版本設定方便您切換不同版本的 Apache Spark、Apache Hadoop 和其他工具。
可用性高
可與多個主要節點搭配執行,並設定工作失敗時重新啟動,為您的叢集和工作確保高可用性。
開發人員工具
提供多種叢集管理方式,包括簡單易用的網頁版 UI、Google Cloud SDK、符合 REST 樣式的 API 和 SSH 存取權。
初始化動作
建立叢集後,您可以執行初始化動作,視需求安裝或自訂設定和程式庫。
自動設定或手動設定
Cloud Dataproc 會自動為您設定叢集上的軟硬體,您也可以手動控制叢集設定。
彈性的虛擬機器
叢集可以使用自訂機器類型先佔虛擬機器,為您提供所需的大小。

Cloud Dataflow 與 Cloud Dataproc 比較:您該使用哪一項產品?

Cloud Dataproc 和 Cloud Dataflow 都能用來處理資料,而它們的批次資料處理和串流功能也有重疊之處。您該如何決定哪一項產品比較適合您的環境使用?
Dataproc 與 Dataflow

Cloud Dataproc

Cloud Dataproc 適用於依賴 Apache 大數據生態系統中特定元件的環境:

  • 工具/套件
  • 管道
  • 現有資源的相關技能

Cloud Dataflow

一般而言,全新環境建議使用 Cloud Dataflow:

  • 營運負擔較低
  • 以統一的方式開發批次或串流管道
  • 可使用 Apache Beam
  • 以執行階段的形式提供服務,方便您在 Cloud Dataflow、Apache Spark 和 Apache Flink 之間轉移管道

建議的工作負載

工作負載 CLOUD DATAPROC CLOUD DATAFLOW
串流處理 (ETL)
批次處理 (ETL)
反覆處理及筆記
使用 Spark ML 進行機器學習
機器學習預先處理 (使用 Cloud ML 引擎)

Cloud Dataproc 計價方式

叢集中使用的 Compute Engine 執行個體每增加一個虛擬 CPU,Cloud Dataproc 的費用就會微幅遞增1

愛荷華州 (us-central1) 奧勒岡州 (us-west1) 北維吉尼亞州 (us-east4) 南卡羅來納州 (us-east1) 蒙特婁 (northamerica-northeast1) 聖保羅 (southamerica-east1) 比利時 (europe-west1) 倫敦 (europe-west2) 荷蘭 (europe-west4) 蘇黎世 (europe-west6) 法蘭克福 (europe-west3) 雪梨 (australia-southeast1) 孟買 (asia-south1) 香港 (asia-east2) 台灣 (asia-east1) 東京 (asia-northeast1)
機器類型 價格
標準機器
1 至 64 個虛擬 CPU
大量記憶體機器
2 至 64 個虛擬 CPU
高效率 CPU 機器
2 至 64 個虛擬 CPU
自訂機器
視 vCPU 和記憶體使用量而定
如果您使用美元以外的貨幣付費,系統將按照 Cloud Platform SKU 頁面上列出的相應貨幣價格來計費。

1Google Cloud Dataproc 的費用是依照叢集執行時的狀態計算,叢集中使用的 Compute Engine 執行個體每增加一個虛擬 CPU,費用就會微幅遞增。Cloud Dataproc 用到的其他資源 (例如 Compute Engine 網路、BigQueryCloud Bigtable 等) 則是按使用量計費。如需詳細的定價資訊,請查看定價指南

傳送您對下列選項的寶貴意見...

這個網頁
Cloud Dataproc