Dataproc 文档
Cloud Dataproc 是一项托管式 Apache Spark 和 Apache Hadoop 服务,借助该服务,您可以充分利用开源数据工具来执行批处理、查询、流式传输和机器学习。Dataproc 自动化功能可帮助您快速创建集群并轻松管理,以及在不需要集群时将其关闭以节省费用。由于在管理上花费的时间和费用更少,您可以将精力集中在作业和数据上。了解详情
获享 $300 免费赠金开始概念验证
- 体验 Gemini 2.0 Flash Thinking
- 免费使用热门产品(包括 AI API 和 BigQuery)的每月用量
- 不会自动收费,无需承诺
继续探索 20 多种提供“始终免费”用量的产品
使用适用于常见应用场景(包括 AI API、虚拟机、数据仓库等)的 20 多种免费产品。
文档资源
相关资源
在 Google Kubernetes Engine 上运行 Spark 作业
从 Dataproc Jobs API 将 Spark 作业提交到正在运行的 Google Kubernetes Engine 集群。
Cloud Dataproc 简介:Google Cloud 上的 Hadoop 和 Spark
该课程包含讲座、演示和实操实验来创建 Dataproc 集群、提交 Spark 作业,然后关闭集群。
使用 Dataproc 上的 Spark 进行机器学习
本课程包含讲座、演示和实操实验,使用在 Dataproc 集群上运行的 Apache Spark 的机器学习库实现逻辑回归,从而针对多变量数据集中的数据开发模型。
工作流安排解决方案
在 Google Cloud 上安排工作流。
将 HDFS 数据从本地迁移到 Google Cloud
如何将数据从本地 Hadoop 分布式文件系统 (HDFS) 迁移到 Google Cloud。
管理 Apache Spark 的 Java 和 Scala 依赖项
向 Dataproc 集群提交 Spark 作业时添加这些依赖项的建议方法。
Python API 示例
从 Python 调用 Dataproc API。
Java API 示例
从 Java 调用 Dataproc API。
Node.js API 示例
从 Node.js 调用 Dataproc API。
Go API 示例
从 Go 调用 Dataproc API。