Cloud Dataproc

以更快、更方便、更经济实惠的方式运行 Apache Spark 和 Apache Hadoop

免费试用

根植云端的 Apache Hadoop 和 Apache Spark 解决方案

Cloud Dataproc 是一款快速、简单易用、完全托管的云服务,能够以一种更简单、更经济实惠的方式运行 Apache SparkApache Hadoop 集群。过去需要几个小时或几天的操作现在只需几秒或几分钟即可完成,而且您只需为使用的资源付费(按秒计费)。Cloud Dataproc 还可以与其他 Google Cloud Platform (GCP) 服务轻松集成,为您提供一个强大且完整的数据处理、分析和机器学习平台。

托管式 Hadoop 与 Spark 服务

快速且可扩展的数据处理

您可以通过此服务快速创建 Cloud Dataproc 集群并随时调整其规模(可在 3 个到数百个节点之间调整),而不必担心您的数据流水线负载超过集群处理能力。完成每个集群操作平均只需不到 90 秒,让您可以花费更多时间专注于数据分析,而不是用在基础架构上。

Fast and Scalable Data Processing

价格实惠

Cloud Dataproc 采用的是 Google Cloud Platform 定价原则:费用低、价格结构简单易懂、基于实际用量计费、按秒计费。此外,Cloud Dataproc 集群可以包含费用较低的抢占式实例,以更低的总费用为您提供强大的集群。

Affordable Pricing

开源生态系统

使用 Cloud Dataproc 时,您可以利用 Spark 和 Hadoop 生态系统为您提供的工具、库和文档。由于我们提供的是经常更新的 Spark、Hadoop、Pig 和 Hive 原生版本,您无需学习新的工具或 API,也不用进行再开发即可移植现有的项目或 ETL 流水线

开源生态系统

Cloud Dataproc 特性

Google Cloud Dataproc 是一项托管式 Apache Spark 和 Apache Hadoop 服务:简单快速、易于使用、价格实惠。

自动化集群管理
托管式部署、日志记录和监控服务让您可以专注于数据,而不是集群。您的集群将保持稳定、高速、可扩展。
可调整集群的大小
您可快速创建集群并调节规模,我们提供了多种多样的虚拟机类型、磁盘大小、节点数和网络选项。
集成
内置 Cloud Storage、BigQuery、Bigtable、Stackdriver Logging 和 Stackdriver Monitoring 集成,为您提供一个完整强大的数据平台。
版本控制
映像版本控制让您可以在 Apache Spark、Apache Hadoop 和其他工具的不同版本之间切换。
高可用性
使用多个主节点运行集群,并将作业设置为失败时重启,以确保集群和作业高度可用。
开发者工具
提供多种管理集群的方式,包括简单易用的网页界面、Google Cloud SDK、RESTful API 和 SSH 访问。
初始化操作
创建集群时,运行初始化操作以安装或定制您需要的设置和库。
自动或手动配置
Cloud Dataproc 可为您自动配置集群的硬件和软件,您也可以选择手动控制
灵活使用虚拟机
集群可以使用自定义机器类型抢占式虚拟机,因此能最好地满足您对不同规模的需求。

Cloud Dataflow 与 Cloud Dataproc:您应使用哪一个?

Cloud Dataproc 和 Cloud Dataflow 均可用于数据处理,两者的批处理和流处理功能存在重叠的部分。您该如何确定哪种产品更适合您的环境?
Dataproc 与 Dataflow

Cloud Dataproc

Cloud Dataproc 适合那些依赖 Apache 大数据生态系统特定组件的环境:

  • check 工具/软件包
  • check 流水线
  • check 现有资源的技能状况

Cloud Dataflow

Cloud Dataflow 通常是全新环境的最佳选择:

  • check 更低的运营开销
  • check 以统一的方式开发批处理流水线和流处理流水线
  • check 使用 Apache Beam
  • check 支持跨 Cloud Dataflow、Apache Spark 和 Apache Flink 移植运行中的流水线

推荐的工作负载

工作负载 CLOUD DATAPROC CLOUD DATAFLOW
流处理 (ETL) check
批处理 (ETL) check check
迭代处理和笔记本 check
使用 Spark ML 进行机器学习 check
为机器学习进行预处理 check(使用 Cloud ML Engine)

Cloud Dataproc 价格

Cloud Dataproc 对您的集群中使用的 Compute Engine 实例中的每个虚拟 CPU 加收一笔小额费用1

爱荷华 俄勒冈 北弗吉尼亚 南卡罗来纳 蒙特利尔 圣保罗 比利时 伦敦 荷兰 法兰克福 悉尼 孟买 台湾 东京
机器类型 价格
标准机器
1-64 个虚拟 CPU
高内存机器
2-64 个虚拟 CPU
高 CPU 机器
2-64 个虚拟 CPU
自定义机器
根据 vCPU 和内存的使用量
如果您使用非美元货币付费,则请参阅在 Cloud Platform SKU 上以您的币种列出的价格。

1Google Cloud Dataproc 对正常工作的集群中使用的 Compute Engine 实例中的每个虚拟 CPU 加收一笔小额费用。Cloud Dataproc 使用的诸如 Compute Engine 网络、BigQuery、Cloud Bigtable 等其他资源则根据使用量进行收费。如需详细了解价格信息,请参阅价格指南