Dataproc

Dataproc 让您可以轻松快捷地在云端更安全地执行开源数据处理和分析处理。
免费试用 Dataproc
  • action/check_circle_24px 使用 Sketch 创建。

    90 秒内即可在自定义机器上启动自动扩缩集群

  • action/check_circle_24px 使用 Sketch 创建。

    构建全代管式的 Apache Spark、Apache Hadoop、Presto 等 OSS 集群

  • action/check_circle_24px 使用 Sketch 创建。

    只需为使用的资源付费,降低 OSS 的总拥有成本

  • action/check_circle_24px 使用 Sketch 创建。

    每个集群内置加密功能和统一的安全措施

  • action/check_circle_24px 使用 Sketch 创建。

    用专门构建的集群加快数据科学研究

更快地在自定义机器上构建自定义 OSS 集群

无论您是需要为 Presto 使用额外的内存,还是要使用 GPU 进行 Apache Spark 机器学习,Dataproc 都可以让您在 90 秒内启动专门构建的集群,加快数据处理和分析处理的速度。

轻松管理集群,费用低廉

借助自动扩缩、空闲集群删除、按秒计费等功能,Dataproc 可帮助降低 OSS 的总拥有成本,让您将时间和资源投入到别的地方。

默认内置安全机制

默认启用加密功能,帮助确保任何数据都受到保护。借助 JobsAPI 和组件网关,您可以轻松为 Cloud IAM 集群指定权限,而无需设置网络或网关节点。

主要特性

自动化集群管理

代管式部署、日志记录和监控服务让您可以专注于数据,而不是集群。Dataproc 集群具有稳定、可扩缩、速度快等特点。

将 OSS 作业容器化

在 Dataproc 上构建 Apache Spark 等 OSS 作业时,您可以使用 Kubernetes 快速将作业容器化,然后部署到 GKE 集群所在的任何地方。

企业级安全

创建 Dataproc 集群时,您可以添加安全配置以启用基于 Kerberos 的 Hadoop 安全模式。此外,Dataproc 还可以搭配部分最常用的 Google Cloud 专用安全功能,其中包括默认静态加密、OS Login、VPC Service Controls 和客户管理的加密密钥 (CMEK)。

查看所有特性

文档

API 与库
Dataproc 初始化操作

通过预建的初始化操作将其他 OSS 项目添加到您的 Dataproc 集群。

API 与库
开源连接器

用于实现 Apache Hadoop 互操作性的库和工具。

使用场景

使用场景
将 Hadoop 与 Spark 集群迁移到云端

企业正纷纷将其现有的本地 Apache Hadoop 和 Spark 集群迁移到 Dataproc,以控制费用并获享弹性扩缩能力。通过 Dataproc,企业可以获得专门构建的全代管式集群,此集群可以自动扩缩以支持任意的数据或分析处理作业。

使用场景
Dataproc 上的数据科学

启用专门的 Dataproc 集群来打造理想的数据科学环境。将 Apache Spark、NVIDIA RAPIDS 和 Juypter 笔记本等开源软件与 Google Cloud AI 服务和 GPU 集成在一起,帮助推进机器学习和 AI 开发的速度。 

所有特性

集群大小可调整 您可以使用多种虚拟机类型、磁盘大小、节点数和网络选项快速创建集群并调节规模
自动扩缩集群 Dataproc 自动扩缩功能提供自动管理集群资源的机制,还支持自动添加和减少集群工作器(节点)。
云端集成 内置 Cloud Storage、BigQuery、Cloud Bigtable、Cloud Logging、Cloud Monitoring 和 AI Hub 集成,为您提供一个完整而强大的数据平台。
版本控制 映像版本控制让您可以在 Apache Spark、Apache Hadoop 和其他工具的不同版本之间切换。
高可用性 高可用性模式下运行具有多个主节点的集群,并将作业设置为失败时重启,以确保集群和作业具备高可用性。
集群预定删除功能 为帮助避免非活跃集群产生费用,您可以使用 Dataproc 的预定删除功能。该功能可以提供在达到集群闲置期限后、在指定的未来某个时间或在指定的时间段后删除集群的选项。
自动或手动配置 Dataproc 可自动配置硬件和软件,但您也可以选择手动控制
开发者工具 您可通过以下多种方法来管理集群:易于使用的网页界面、Cloud SDK、RESTful API 以及 SSH 等。
初始化操作 创建集群时,运行初始化操作以安装或定制您需要的设置和库。
可选组件 使用可选组件在集群上安装其他组件并进行相应配置。可选组件与 Dataproc 组件集成,可为 Zeppelin、Druid、Presto 以及与 Apache Hadoop 和 Apache Spark 生态系统相关的其他开源软件组件提供配置完善的环境。
自定义映像 可以使用包含预装 Linux 操作系统软件包的自定义映像对 Dataproc 集群进行预配。
灵活使用虚拟机 集群可以使用自定义机器类型抢占式虚拟机来更好地满足您对计算规模的需求。
组件网关和笔记本访问 借助 Dataproc 组件网关,您可以一键安全访问集群上运行的 Dataproc 默认和可选组件网页界面。
工作流模板 Dataproc 工作流模板为工作流的管理和执行提供了一种灵活且易用的机制。工作流模板是可重复使用的工作流配置,其中定义的作业图包含在哪里运行这些作业的信息。

价格

Dataproc 价格取决于 vCPU 的数量及运行时长。价格显示的是小时费率,但我们计费时以秒为单位,因此您只需为实际使用的资源付费。如需了解详情,请参阅“价格”页面

合作伙伴

Dataproc 可与主要合作伙伴的产品/服务集成,为您现有的投资和技能组合提供补充。