Dataproc

啟動預先設定的解決方案，整合資料湖泊和資料倉儲，輕鬆儲存、處理及分析結構化和非結構化資料。免費試用。

Dataproc

Dataproc 是一項全代管且擴充性極高的服務，可執行 Apache Hadoop、Apache Spark、Apache Flink、Presto 和 30 多種開放原始碼工具和架構。使用 Dataproc 大規模進行資料湖泊翻新、ETL 和安全數據資料學作業，與 Google Cloud 整合且成本極低。

免費試用 Dataproc

富有彈性：運用 Dataproc Serverless，或是在 Google Compute 和 Kubernetes 上管理叢集部署 Google 推薦的解決方案，整合資料湖泊和資料倉儲，輕鬆儲存、處理及分析結構化和非結構化資料。
開放：大規模執行開放原始碼資料分析作業，提供企業級的安全性
智慧化：透過整合 Vertex AI、BigQuery 和 Dataplex 為資料使用者提供必要功能
安全：設定進階安全防護機制，例如 Kerberos、Apache Ranger 和個人叢集驗證
符合成本效益：以秒計費，總持有成本比內部部署資料湖泊少 54%

Dataproc 圖示位於 Apache Spark、Presto、Hive、Jupyter、Hadoop、Flink 和 Apache Pig 標誌組成的環形中心位置

影片

1:23

優點

翻新開放原始碼資料處理方式

無伺服器部署、記錄和監控功能可讓您專心處理資料和數據分析工作，不必費心處理基礎架構。最多可讓 Apache Spark 管理作業的總持有成本降低 54%，建構和訓練機器學習模型的速度快 5 倍。

融合智慧技術且流暢整合的 OSS，適用於數據資料學

與 BigQuery、Dataplex、Vertex AI 和 JupyterLab 等 OSS 筆記本原生整合，讓數據資料學家和資料分析師能夠順暢地執行數據資料學工作。

與 Google Cloud 相互整合的企業級安全防護機制

提供多種安全性功能，例如預設靜態加密、OS 登入、VPC Service Controls 以及客戶自行管理的加密金鑰 (CMEK)。新增安全性設定後，還能透過 Kerberos 啟用 Hadoop 安全模式。

主要功能與特色

全代管的自動化大數據開放原始碼軟體

無伺服器部署、記錄和監控功能可讓您專心處理資料和數據分析工作，不必費心處理基礎架構。最多可讓 Apache Spark 管理作業的總持有成本降低 54%。與 Vertex AI Workbench 相互整合，讓數據資料學家和工程師建構及訓練模型的速度加快 5 倍。Dataproc Jobs API 能讓您輕鬆將大數據資料處理作業整合至自訂應用程式，而 Dataproc Metastore 則可讓您不必執行自己的 Hive 中繼存放區或目錄服務。

使用 Kubernetes 將 Apache Spark 工作容器化

透過 Kubernetes 上的 Dataproc 建構 Apache Spark 工作，以便使用 Dataproc 搭配 Google Kubernetes Engine (GKE) 來提供工作移轉和區隔功能。

與 Google Cloud 相互整合的企業安全防護機制

當您建立 Dataproc 叢集時，可新增安全性設定，以便透過 Kerberos 啟用 Hadoop 安全模式。Dataproc 也可搭配某些常見的 Google Cloud 專屬安全性功能使用，其中包括預設靜態資料加密、OS 登入、VPC Service Controls 以及客戶自行管理的加密金鑰 (CMEK)。

將最棒的開放原始碼與最出色的 Google Cloud 技術搭配使用

Dataproc 可讓您輕鬆地將目前採用的開放原始碼工具、演算法和程式設計語言運用於雲端規模的資料集上。同時，Dataproc 也與 Google Cloud 數據分析、資料庫和 AI 生態系統的其他部分整合，可讓您立即使用相關功能。數據資料學家和工程師可快速存取資料並建構資料應用程式，將 Dataproc 連結至 BigQuery、Vertex AI、Spanner、Pub/Sub 或 Data Fusion。

查看所有功能與特色

影片

示範：瞭解 Dataproc 和 Cloud Storage 如何協助加快貸款處理速度

3:39

客戶

客戶經驗談：使用 Dataproc

Blog post

Broadcom 使用 Dataproc 翻新資料湖泊，並享有彈性的資料管理功能

5 分鐘小故事

Case study

Dataproc 可讓 Wayfair 以高效率、低維護的方式存取大量非結構化資料。

8 分鐘小故事

Video

Vodafone Group 將 600 個內部部署 Apache Hadoop 伺服器移轉至雲端。

47:17

Case study

Twitter 從內部部署的 Hadoop 遷移至 Google Cloud，以更符合成本效益的方式儲存及查詢資料。

49:57

Case study

Pandora 將超過 7 PB 的資料從地端部署的 Hadoop 遷移至 Google Cloud，以便調度資源並降低成本。

50:51

Case study

由於可以輕鬆啟用及停用 Dataproc 叢集，METRO 的基礎架構成本降低了 30% 至 50%。

5 分鐘小故事

查看所有客戶

無伺服器 Spark

提交會自動佈建和自動調整資源配置的 Spark 工作。歡迎透過下方的快速入門導覽課程連結瞭解詳情。

瞭解詳情

APIs & Libraries

Dataproc 初始化動作

透過預先建構的初始化動作，將其他 OSS 專案新增至您的 Dataproc 叢集中。

瞭解詳情

APIs & Libraries

開放原始碼連接器

可與 Apache Hadoop 互通整合的程式庫和工具。

瞭解詳情

APIs & Libraries

Dataproc Workflow 範本

Dataproc WorkflowTemplates API 提供靈活易用的工作流程管理與執行機制。

瞭解詳情

找不到所需資訊嗎？

查看所有產品說明文件

版本資訊

瞭解 Dataproc 的最新版本

使用案例

用途

將 Hadoop 和 Spark 叢集移轉至雲端

為控管成本並發揮彈性擴充的優勢，企業紛紛將現有地端部署的 Apache Hadoop 和 Spark 叢集遷移至 Dataproc。企業可透過 Dataproc 啟動全代管的專用叢集。這類叢集可自動調度資源來支援各種資料或數據分析處理工作。

Best practice

Apache Spark 遷移指南

無須在 Google Cloud 中重新編寫 Spark 程式碼。

瞭解詳情

Best practice

將 HDFS 資料遷移至 Google Cloud

瞭解將內部部署 HDFS 資料遷移至 Google Cloud Storage 的時機與做法。

瞭解詳情

Best practice

將安全性控管機制從內部部署系統遷移至 Dataproc

將現有的安全性控管機制遷移至 Dataproc，藉此滿足所屬企業和產業的相關規定。

瞭解詳情

用途

Dataproc 中的數據資料學

您可以啟動專用 Dataproc 叢集，藉此打造理想的數據資料學環境。將 Apache Spark、NVIDIA RAPIDS 和 Jupyter 筆記本等開放原始碼軟體整合至 Google Cloud AI 服務和 GPU，即可加快機器學習和 AI 的開發作業。

Tutorial

使用 Dataproc 和 Apache Spark ML 執行機器學習作業

將 Dataproc 整合至其他 Google Cloud 服務，以便打造端對端的資料科學體驗。

瞭解詳情

Best practice

IT 透過 Dataproc Hub 控管開放原始碼數據資料學作業

瞭解 Dataproc Hub 如何以 IT 管理和成本控管的方式，為您的數據資料學家提供所需的所有開放原始碼工具。

瞭解詳情

Tutorial

完美結合 Dataproc 與 TensorFlow on YARN

瞭解如何使用 TonY 自動化調度管理分散式 TensorFlow 所需的資源。

瞭解詳情

查看所有技術指南

所有功能與特色

無伺服器 Spark	部署會自動調度資源的 Spark 應用程式和管道，完全不必手動佈建或調整基礎架構。
叢集可調整大小	建立叢集後，您不但能快速調度資源，還可指定各種虛擬機器類型、磁碟大小、節點數和網路選項。
自動調度叢集資源	Dataproc 的自動調度資源機制可讓您以自動化的模式管理叢集資源，進而自動新增及移除叢集工作站 (節點)。
整合式雲端	內建 Cloud Storage、BigQuery、Dataplex、Vertex AI、Composer、Bigtable、Cloud Logging 和 Cloud Monitoring 的整合功能，為您提供更完善穩固的資料平台。
自動設定或手動設定	Dataproc 會自動設定軟硬體，但您也可以選擇手動控管設定。
開發人員工具	提供多種叢集管理方式，包括簡單易用的網頁版使用者介面、Cloud SDK、符合 REST 樣式的 API 和 SSH 存取權。
初始化動作	建立叢集後，您可以執行初始化動作，視需求安裝或自訂設定和程式庫。
選用元件	您可以使用選用元件安裝及設定叢集中的其他元件。選用元件可與 Dataproc 元件整合，並針對 Zeppelin、Presto 和其他與 Apache Hadoop 及 Apache Spark 生態系統相關的開放原始碼軟體元件，提供完成設定的環境。
自訂容器和映像檔	Dataproc 無伺服器 Spark 可透過自訂 Docker 容器佈建。您可以透過含有預先安裝 Linux 作業系統套件的自訂映像檔佈建 Dataproc 叢集。
靈活有彈性的虛擬機器	叢集可以使用自訂機器類型和先占虛擬機器提供您需要的大小。
工作流程範本	Dataproc 工作流程範本提供靈活易用的工作流程管理與執行機制。工作流程範本是可重複使用的工作流程設定，其中所定義的工作圖含有要在哪裡執行工作的資訊。
自動化政策管理	將安全性、費用及基礎架構政策標準化，對整批叢集採取一致的做法。您可以在專案層級針對資源管理、安全性或網路建立政策，同時也能讓使用者輕鬆使用正確的映像檔、元件、中繼存放區和其他周邊服務，以便您日後管理大批叢集和無伺服器 Spark 政策。
智慧型快訊	Dataproc 建議的快訊可讓客戶調整預先設定的快訊門檻，以便在叢集、工作處於閒置或失控狀態、叢集使用率過高等情況收到快訊。客戶能進一步自訂這些快訊，甚至是建立進階的叢集和工作管理功能。這些功能可讓客戶大規模管理機群。
適用於 Google Distributed Cloud (GDC) 的 Dataproc	有了 Dataproc on GDC，您可以在資料中心的 GDC Edge Appliance 上執行 Spark。現在您可以在 Google Cloud 和資料中心的機密資料中，使用相同的 Spark 應用程式。
多區域 Dataproc Metastore	Dataproc Metastore 是可用性高的全代管 Hive 中繼存放區 (HMS)，具備精細的存取權控管機制。多區域 Dataproc Metastore 提供雙主動災難復原和應變恢復能力，可有效防範區域服務中斷。

定價

Dataproc 定價取決於 vCPU 數和叢集執行的時間長度。雖然顯示的定價為每小時費率，但 Dataproc 實際上是以秒計費，因此可讓您用多少就付多少。

例如：如果叢集有 6 個節點 (1 個主要節點 + 5 個工作站)，每個節點有 4 個 CPU，則執行叢集 2 小時的費用為 $0.48 美元。Dataproc 費用 = vCPU 數量 * 小時數 * Dataproc 定價 = 24 * 2 * $0.01 美元 = $0.48 美元

詳情請參閱定價頁面。

查看價格詳細資料

合作夥伴

Dataproc 已與重要合作夥伴的產品相互整合，可以為您強化現有的投資項目與技能組合。

查看所有合作夥伴

展開下一步行動

運用價值 $300 美元的免費抵免額和超過 20 項一律免費的產品，開始在 Google Cloud 中建構產品與服務。

免費試用 (產品)

需要入門協助嗎？
聯絡銷售人員
與值得信賴的夥伴合作
尋找合作夥伴
繼續瀏覽
查看所有產品

翻新開放原始碼資料處理方式

融合智慧技術且流暢整合的 OSS，適用於數據資料學

與 Google Cloud 相互整合的企業級安全防護機制

主要功能與特色

全代管的自動化大數據開放原始碼軟體

使用 Kubernetes 將 Apache Spark 工作容器化

與 Google Cloud 相互整合的企業安全防護機制

將最棒的開放原始碼與最出色的 Google Cloud 技術搭配使用

客戶經驗談：使用 Dataproc

最新消息

說明文件

無伺服器 Spark

Dataproc 初始化動作

開放原始碼連接器

Dataproc Workflow 範本

找不到所需資訊嗎？

探索更多文件

使用案例

將 Hadoop 和 Spark 叢集移轉至雲端

Dataproc 中的數據資料學

所有功能與特色

定價

合作夥伴

展開下一步行動

需要入門協助嗎？

與值得信賴的夥伴合作

繼續瀏覽