Cloud Dataproc

以更快、更方便、更经济实惠的方式运行 Apache Spark 和 Apache Hadoop

免费试用

根植云端的 Apache Hadoop 和 Apache Spark 解决方案

Cloud Dataproc 是一项快速、简单易用的全托管式云服务,可让您以更简单、更经济高效的方式来运行 Apache SparkApache Hadoop 集群。过去需要几个小时或几天的操作,现在只需几秒或几分钟即可完成,而且您只需为使用的资源付费(按秒计费)。Cloud Dataproc 还可以轻松集成其他 Google Cloud Platform (GCP) 服务,为您提供一个强大且完整的数据处理、分析和机器学习平台。

托管式 Hadoop 与 Spark 服务

快速且可伸缩的数据处理服务

您可以通过此服务快速创建 Cloud Dataproc 集群并随时调整其规模(可在 3 个到数百个节点之间调整),而不必担心您不断增长的数据流水线负载超过集群处理能力。完成每个集群操作平均只需不到 90 秒,让您可以将更多时间投入于数据分析,而不是用在基础架构上。

快速且可扩缩的数据处理

价格实惠

Cloud Dataproc 采用 Google Cloud Platform 定价原则:费用低、价格结构简单易懂、基于实际用量计费、按秒计费。此外,Cloud Dataproc 集群可以使用费用较低的抢占式实例、承诺使用折扣和持续使用折扣,以更低的总费用为您提供强大的集群。

价格实惠

开源生态系统

借助 Cloud Dataproc,您可以使用 Spark 和 Hadoop 工具、库以及文档。Cloud Dataproc 会经常更新 Spark、Hadoop、Pig 和 Hive 的原生版本,因此您无需学习新的工具或 API 即可开始使用,并且无需重新开发便可迁移现有项目或 ETL 流水线

开源生态系统

Cloud Dataproc 特性

Cloud Dataproc 是一项托管式 Apache Spark 和 Apache Hadoop 服务,具备诸多优点:简单快速、易于使用、价格实惠。

自动化集群管理
托管式部署、日志记录和监控服务让您可以专注于数据,而不是集群。Cloud Dataproc 集群具有稳定、可扩缩、速度快等特点。
集群大小可调整
您可以使用多种虚拟机类型、磁盘大小、节点数和网络选项快速创建集群并调节规模
自动扩缩集群
Cloud Dataproc 自动扩缩功能提供自动管理集群资源的机制,还支持自动添加和减少集群工作器(节点)。
云端集成
内置 Cloud Storage、BigQuery、Cloud Bigtable、Stackdriver Logging、Stackdriver Monitoring 和 AI Hub 集成,为您提供一个完整而强大的数据平台。
版本控制
映像版本控制让您可以在 Apache Spark、Apache Hadoop 和其他工具的不同版本之间切换。
可用性出色
高可用性模式下运行具有多个主节点的集群,并将作业设置为失败时重启,以确保集群和作业高度可用。
企业级安全
创建 Cloud Dataproc 集群时,您可以添加安全配置,启用基于 Kerberos 的 Hadoop 安全模式。此外,GCP 和 Cloud Dataproc 还提供其他安全功能,有助于保护您的数据。一些可与 Cloud Dataproc 配合使用且特定于 GCP 的最常用安全功能包括:默认静态加密、OS Login、VPC Service Controls 和客户管理的加密密钥 (CMEK)。
集群预定删除功能
为帮助避免非活动集群产生费用,您可以使用 Cloud Dataproc 的预定删除功能。该功能提供在达到集群闲置期限后、在指定的未来某个时间或在指定的时间段后删除集群的选项。
自动或手动配置
Cloud Dataproc 可自动配置硬件和软件,您也可以选择手动控制
开发者工具
您可通过以下多种方法来管理集群:易于使用的网页界面、Cloud SDK、RESTful API 以及 SSH 访问等。
初始化操作
创建集群时,运行初始化操作以安装或定制您需要的设置和库。
可选组件
使用可选组件可在集群上安装其他组件并进行相应配置。可选组件与 Cloud Dataproc 组件集成在一起,可为 Zeppelin、Druid、Presto 以及与 Apache Hadoop 和 Apache Spark 生态系统相关的其他开源软件组件提供配置完善的环境。
自定义映像
Cloud Dataproc 集群可以预配包含预装 Linux 操作系统软件包的自定义映像
灵活使用虚拟机
集群可以使用自定义机器类型抢占式虚拟机,能最好地满足您对计算规模的需求。
组件网关和笔记本访问
借助 Cloud Dataproc 组件网关,您可以一键安全访问集群上运行的 Cloud Dataproc 默认和可选组件网页界面。
工作流模板
Cloud Dataproc 工作流模板为工作流的管理和执行提供了一种灵活且易用的机制。 工作流模板是可重复使用的工作流配置,它定义了作业图,其中包含在哪里运行这些作业的信息。

Cloud Dataproc 价格

Cloud Dataproc 会对您的集群中使用的 Compute Engine 实例中的每个虚拟 CPU 加收一笔小额费用1

爱荷华 (us-central1) 俄勒冈 (us-west1) 北弗吉尼亚 (us-east4) 南卡罗来纳 (us-east1) 蒙特利尔 (northamerica-northeast1) 圣保罗 (southamerica-east1) 比利时 (europe-west1) 伦敦 (europe-west2) 荷兰 (europe-west4) 苏黎世 (europe-west6) 法兰克福 (europe-west3) 悉尼 (australia-southeast1) 孟买 (asia-south1) 香港 (asia-east2) 台湾 (asia-east1) 东京 (asia-northeast1) 大阪 (asia-northeast2)
机器类型 价格
标准机器
1-64 个虚拟 CPU
高内存机器
2-64 个虚拟 CPU
高 CPU 机器
2-64 个虚拟 CPU
自定义机器
根据 vCPU 和内存用量
如果您使用非美元货币付费,请参阅 Cloud Platform SKU 上以您的币种列出的价格。

1在集群运行时,Cloud Dataproc 会对您的集群中使用的 Compute Engine 实例中的每个虚拟 CPU 加收一笔小额费用。Cloud Dataproc 使用的 Compute Engine 网络、BigQuery 和 Cloud Bigtable 等其他资源则根据用量收费。如需详细了解价格信息,请参阅价格指南

精选博客

阅读最新博客,以更好地了解云端开源数据处理

Next’19 精彩回顾

观看客户如何使用 Cloud Dataproc 来降低费用,并在其组织内部制定数据驱动的决策

Cloud Dataproc 的最新功能
video_youtube
客户如何将 Hadoop 迁移到 Google Cloud Platform
video_youtube
让 Dataproc 得到广泛应用
video_youtube
Google Cloud

开始

学习和构建

刚接触 GCP?您可以领取 $300 赠金,免费开始使用任意 GCP 产品。

需要更多帮助?

我们的专家会根据您的需求,帮您打造合适的解决方案,或帮您寻找合适的合作伙伴。

此页面上列出的多项产品为 Alpha 版、测试版或抢先体验版。要详细了解我们的产品发布阶段,请点击此处

Cloud AI 产品遵循此处列出的服务等级协议 (SLA) 政策。这些产品在延迟时间或可用性方面的保证可能与其他 Google Cloud 服务有所不同。

发送以下问题的反馈:

此网页
Cloud Dataproc