Cloud Dataproc

以更快速簡單、經濟實惠的方式執行 Apache Spark 和 Apache Hadoop

免費試用

雲端原生的 Apache Hadoop 和 Apache Spark

Cloud Dataproc 是快速且簡單易用的全方位管理雲端服務,可讓您以更簡單且符合成本效益的方式執行 Apache SparkApache Hadoop 叢集。過去需要數小時或數天才能處理完成的作業,現在只要幾分鐘或幾秒就能完成,而且您只需為使用到的資源付費 (以秒計費)。Cloud Dataproc 也可與其他 Google Cloud Platform (GCP) 服務輕鬆整合,是一款功能強大而完善的平台,可用於資料處理、分析及機器學習。

Managed Hadoop and Spark

速度與彈性兼具的資料處理能力

您不僅能快速建立 Cloud Dataproc 叢集,還能隨時調整大小 (三至數百個節點),因此不必擔心叢集無法容納資料處理流程。每個叢集動作平均花費的時間不到 90 秒,管理基礎架構更省時,讓您得以集中精力來探究分析資訊。

Fast and Scalable Data Processing

價格實惠

Cloud Dataproc 採用 Google Cloud Platform 的定價原則,價格結構簡單明瞭,依照實際用量以秒計費,十分經濟實惠。不僅如此,Cloud Dataproc 叢集可加入費用低廉的先佔執行個體,進一步降低總體使用成本,同時保有強大的叢集系統。

Affordable Pricing

開放原始碼生態系統

Cloud Dataproc 可與 Spark 和 Hadoop 生態系統提供的多種工具、程式庫和說明文件搭配使用。我們會提供 Spark、Hadoop、Pig 和 Hive 的原生版本並經常更新。開發人員不必學習新的工具或 API 即可開始使用,還可以直接移動現有的專案或 ETL 管線,省下重新開發的工夫

開放原始碼生態系統

Cloud Dataproc 的特色

Google Cloud Dataproc 是管理化的 Apache Spark 和 Apache Hadoop 服務,不僅介面簡單易用、執行快速,而且費用低廉。

自動化叢集管理
部署、記錄和監控作業均受管理,您只要專注於資料本身即可,不必為叢集煩惱。您的叢集具有穩定性與擴充性,而且執行迅速。
叢集可調整大小
建立叢集之後,可以快速進行擴充,並可指定各種虛擬機器類型、磁碟大小、節點數和網路選項。
整合性
內建 Cloud Storage、BigQuery、Bigtable、Stackdriver Logging 和 Stackdriver Monitoring 的整合功能,為您提供完善而實用的資料平台。
版本設定
映像檔版本設定方便您切換不同版本的 Apache Spark、Apache Hadoop 和其他工具。
可用性高
可與多個主要節點搭配執行,並設定工作失敗時重新啟動,為您的叢集和工作確保高度可用性。
開發人員工具
提供多種叢集管理方式,包括簡單易用的網頁使用介面、Google Cloud SDK、RESTful API 和 SSH。
初始化動作
建立叢集後,可以執行初始化動作,視需求安裝及調整設定和程式庫。
自動設定或手動設定
Cloud Dataproc 會自動為您設定叢集上的硬體和軟體,您也可以手動控制叢集設定。
彈性的虛擬機器
叢集可以使用自訂機器類型先佔虛擬機器,提供您所需的大小。

Cloud Dataflow 與 Cloud Dataproc 比較:您該使用哪一項產品?

Cloud Dataproc 和 Cloud Dataflow 都能用來處理資料,而它們的批次資料處理和串流功能也有重疊之處。您該如何決定哪一項產品比較適合您的環境使用?
Dataproc 與 Dataflow

Cloud Dataproc

Cloud Dataproc 適用於依賴 Apache 大數據生態系統中特定元件的環境:

  • check 工具/套件
  • check 管道
  • check 現有資源的技能集

Cloud Dataflow

一般而言,全新環境建議使用 Cloud Dataflow:

  • check 營運負擔較少
  • check 運用統一的方法來開發批次或串流管道
  • check 使用 Apache Beam
  • check 以執行階段支援跨 Cloud Dataflow、Apache Spark 和 Apache Flink 的管道轉移

建議的工作負載

工作負載 CLOUD DATAPROC CLOUD DATAFLOW
串流處理 (ETL) check
批次處理 (ETL) check check
反覆處理及筆記 check
使用 Spark ML 進行機器學習 check
機器學習預先處理 check (使用 Cloud ML 引擎)

Cloud Dataproc 價格

叢集1 中使用的 Compute Engine 執行個體每增加一個虛擬 CPU,Cloud Dataproc 的費用就會微幅增加。

愛荷華州 奧勒岡州 北維吉尼亞州 南卡羅來納州 蒙特婁 聖保羅 比利時 倫敦 荷蘭 法蘭克福 雪梨 孟買 台灣 東京
機器類型 價格
標準機器
1 至 64 個虛擬 CPU
大量記憶體機器
2 至 64 個虛擬 CPU
高效率 CPU 機器
2 至 64 個虛擬 CPU
自訂機器
視 vCPU 和記憶體使用量而定
如果您使用美元以外的貨幣付費,系統將按照 Cloud Platform SKU 頁面上列出的相應貨幣價格來計費。

1 Cloud Dataproc 的費用是依照叢集執行時的狀態計算,叢集中使用的 Compute Engine 執行個體每增加一個虛擬 CPU,就會增加些許費用。Cloud Dataproc 用到的其他資源 (例如 Compute Engine 網路、BigQueryCloud Bigtable 等) 則是按使用量計費。如需詳細的定價資訊,請查看定價指南