Dataproc

更轻松、更迅捷、更经济高效地运行 Apache Spark 和 Apache Hadoop

免费试用

云原生 Apache Hadoop 和 Apache Spark 解决方案

Dataproc 是一项迅捷而简单易用的完全托管式云服务,为您提供了一种更简单、更经济高效的方式来运行 Apache SparkApache Hadoop 集群。过去需要几个小时或几天的操作,现在只需几秒或几分钟即可完成,而且您只需为使用的资源付费(按秒计费)。Dataproc 还可轻松集成其他 Google Cloud Platform (GCP) 服务,为您提供一个强大而完善的平台来执行数据处理、分析和机器学习等任务。

托管式 Hadoop 与 Spark 服务

快速且可扩缩的数据处理

您可以通过此服务快速创建 Dataproc 集群并随时调整其规模(可在 3 个到数百个节点之间进行调整),而不必担心您不断增长的数据流水线负载超过集群处理能力。完成每个集群操作平均只需不到 90 秒,让您可以将更多时间投入于数据分析,而不是用在基础架构上。

快速且可扩缩的数据处理

价格实惠

在 Google Cloud Platform 定价原则的基础上,Dataproc 采用基于实际用量且按秒计费的价格结构,不但费用低,而且简明易懂。此外,Dataproc 集群可以使用费用更低的抢占式实例,还可享受承诺使用折扣和持续使用折扣,以更低的总费用为您提供强大的集群。

价格实惠

开源生态系统

您可以在 Dataproc 中使用 Spark 和 Hadoop 工具、库及文档。Dataproc 提供 Spark、Hadoop、Pig 和 Hive 原生版本的经常性更新,因此您无需学习新的工具或 API 即可开始使用,并且无需重新开发即可迁移现有项目或 ETL 流水线

开源生态系统

Dataproc 特性

Dataproc 是一项托管式 Apache Spark 和 Apache Hadoop 服务,具备简单快速、易于使用、价格实惠等优势。

自动化集群管理
托管式部署、日志记录和监控服务让您可以专注于数据,而不是集群。Dataproc 集群具有稳定、可扩缩、速度快等特点。
集群大小可调整
您可以使用多种虚拟机类型、磁盘大小、节点数和网络选项快速创建集群并调整集群规模
自动扩缩集群
Dataproc 自动扩缩功能提供自动管理集群资源的机制,还支持自动添加和减少集群工作器(节点)。
云端集成
内置 Cloud Storage、BigQuery、Bigtable、Stackdriver Logging、Stackdriver Monitoring 和 AI Hub 集成,为您提供一个完整而强大的数据平台。
版本控制
映像版本控制让您可以在 Apache Spark、Apache Hadoop 和其他工具的不同版本之间切换。
高可用性
高可用性模式下运行具有多个主节点的集群,并将作业设置为失败时重启,以确保集群和作业具备高可用性。
企业级安全
创建 Dataproc 集群时,您可以添加安全配置,启用基于 Kerberos 的 Hadoop 安全模式。此外,GCP 和 Dataproc 还提供其他安全功能,有助于保护您的数据。一些可与 Dataproc 配合使用且特定于 GCP 的最常用安全功能包括:默认静态加密、OS Login、VPC Service Controls 和客户管理的加密密钥 (CMEK)。
集群预定删除功能
为帮助避免非活跃集群产生费用,您可以使用 Cloud Dataproc 的预定删除功能。该功能提供多个选项,在达到集群闲置期限后、在指定的未来某个时间或在指定的时间段之后删除集群。
自动或手动配置
Cloud Dataproc 可自动配置硬件和软件,您也可以选择手动控制
开发者工具
您可通过以下多种方法来管理集群:易于使用的网页界面、Cloud SDK、RESTful API 以及 SSH 访问等。
初始化操作
创建集群时,运行初始化操作以安装或定制您需要的设置和库。
可选组件
可选组件可在集群上安装其他组件并进行相应配置。可选组件与 Dataproc 组件集成,可为 Zeppelin、Druid、Presto 以及与 Apache Hadoop 和 Apache Spark 生态系统相关的其他开源软件组件提供配置完善的环境。
自定义映像
Dataproc 集群可以预配包含预装 Linux 操作系统软件包的自定义映像
灵活使用虚拟机
集群可以使用自定义机器类型抢占式虚拟机来更好地满足您对计算规模的需求。
组件网关和笔记本访问
借助 Dataproc 组件网关,您可以一键安全访问集群上运行的 Dataproc 默认和可选组件网页界面。
工作流模板
Dataproc 工作流模板为工作流的管理和执行提供了一种灵活且易用的机制。 工作流模板是可重复使用的工作流配置,它定义了作业图,其中包含在哪里运行这些作业的信息。

Dataproc 价格

Dataproc 会对您的集群使用的 Compute Engine 实例中的每个虚拟 CPU 加收一笔小额费用1

精选博客

阅读最新博客,以更好地了解云端开源数据处理

Next ’19 大会精彩回顾

观看客户如何使用 Dataproc 降低费用,并在其组织内部制定数据驱动的决策

Cloud Dataproc 的最新功能
video_youtube
客户如何将 Hadoop 迁移到 Google Cloud Platform
video_youtube
让 Dataproc 得到广泛应用
video_youtube
Google Cloud

开始使用

学习和构建

刚接触 GCP?您可以领取 $300 赠金,免费开始使用任意 GCP 产品。

需要更多帮助?

我们的专家会根据您的需求,帮助您打造合适的解决方案,或者寻找合适的合作伙伴。

此页面上列出的多项产品为 Alpha 版、Beta 版或抢先体验版。如需详细了解我们的产品发布阶段,请点击此处

Cloud AI 产品遵循此处列出的服务等级协议 (SLA) 政策。这些产品在延迟时间或可用性方面的保证可能与其他 Google Cloud 服务有所不同。