Dataproc 說明文件
Dataproc 是一項代管的 Apache Spark 和 Apache Hadoop 服務,能夠讓您妥善運用開放原始碼資料工具,進行批次處理、查詢、串流和機器學習作業。Dataproc 自動化功能可協助您快速建立叢集、輕鬆管理叢集,並在不需要叢集時關閉叢集來節省支出。省下管理作業所需的時間與費用之後,您就能專心處理工作與資料。瞭解詳情
使用價值 $300 美元的免費抵免額,開始進行概念驗證
- 取得 Gemini 2.0 Flash Thinking 的存取權
- 每月免費使用 AI API 和 BigQuery 等熱門產品
- 不會自動收費,也不會要求您一定要購買特定方案
繼續探索超過 20 項一律免費的產品
使用超過 20 項實用的免費產品,包括 AI API、VM 和 data warehouse 等。
說明文件資源
相關資源
在 Google Kubernetes Engine 上執行 Spark 工作
透過 Dataproc Jobs API,將 Spark 工作提交至正在執行的 Google Kubernetes Engine 叢集。
Cloud Dataproc 簡介:Google Cloud 中的 Hadoop 和 Spark
本課程結合了講座、示範和實作研究室,說明如何建立 Dataproc 叢集、提交 Spark 工作,然後關閉叢集。
在 Dataproc 上使用 Spark 進行機器學習
本課程結合了講座、示範和實作實驗室,說明如何使用在 Dataproc 叢集上執行的 Apache Spark 機器學習程式庫,實作羅吉斯迴歸,並為多變數資料集開發模型。
工作流程排程解決方案
在 Google Cloud 上排定工作流程。
將 HDFS 資料從內部部署環境遷移至 Google Cloud
如何將資料從內部部署的 Hadoop 分散式檔案系統 (HDFS) 移至 Google Cloud。
管理 Apache Spark 的 Java 和 Scala 依附元件
向 Dataproc 叢集提交 Spark 工作時,建議採用下列方法納入依附元件。
Python API 範例
從 Python 呼叫 Dataproc API。
Java API 範例
從 Java 呼叫 Dataproc API。
Node.js API 範例
從 Node.js 呼叫 Dataproc API。
Go API 範例
從 Go 呼叫 Dataproc API。