面向开发者的 Duet AI 和适用于 Security Operations 的 Duet AI 正式版现已发布。 了解详情。
跳转到
Dataproc

Dataproc

Dataproc 是一项具有高度可伸缩性的全代管式服务,用于运行 Apache Hadoop、Apache Spark、Apache Flink、Presto 等 30 多个开源工具和框架。使用 Dataproc 可以大规模实现数据湖现代化改造、ETL 和安全数据科学,并且 Dataproc 与 Google Cloud 集成,经济实惠。

  • 开放:大规模运行开源数据分析,并获享企业级安全保护

  • 灵活:在 Google Compute 和 Kubernetes 上使用无服务器集群或管理集群

  • 智能:通过与 Vertex AIBigQueryDataplex 集成,为数据用户提供强大支持。

  • 安全:配置高级安全设置,例如 Kerberos、Apache Ranger 和个人身份验证

  • 经济高效:与按秒计价的本地数据湖相比,可将 TCO 降低 54%

优势

对开源数据处理进行现代化改造

无服务器部署、日志记录和监控服务让您可以专注于数据和分析,而不是基础架构。最多可将 Apache Spark 管理的 TCO 降低 54%。 以快 5 倍的速度构建和训练模型。

适用于数据科学的智能无缝 OSS

让数据科学家和数据分析师能够通过与 BigQueryDataplexVertex AI 和 JupyterLab 等 OSS 笔记本的原生集成,无缝地执行数据科学作业。

与 Google Cloud 集成的企业级安全性

安全功能,例如默认静态加密、OS Login、VPC Service Controls 和客户管理的加密密钥 (CMEK)。通过添加安全配置启用基于 Kerberos 的 Hadoop 安全模式。

主要特性

主要特性

全代管式自动化大数据开源软件

无服务器部署、日志记录和监控服务让您可以专注于数据和分析,而不是基础架构。最多可将 Apache Spark 管理的 TCO 降低 54%。与传统笔记本相比,可让数据科学家和工程师通过与 Vertex AI Workbench 集成,将构建和训练模型的速度加快 5 倍。Dataproc Jobs API 可让您轻松将大数据处理融入自定义应用中,而 Dataproc Metastore 可让您无需运行自己的 Hive Metastore 或目录服务。

使用 Kubernetes 将 Apache Spark 作业容器化

使用 Dataproc on Kubernetes 构建 Apache Spark 作业,以便结合使用 Dataproc 和 Google Kubernetes Engine (GKE) 来提供作业可移植性和隔离。

与 Google Cloud 集成的企业级安全性

创建 Dataproc 集群时,您可以添加安全配置以启用基于 Kerberos 的 Hadoop 安全模式。此外,Dataproc 还可以搭配部分最常用的 Google Cloud 专用安全功能,其中包括默认静态加密、OS Login、VPC Service Controls 和客户管理的加密密钥 (CMEK)。

开放源代码的优点与 Google Cloud 的优点相结合

借助 Dataproc,您可以将正在使用的开源工具、算法和编程语言轻松应用于云规模的数据集。同时,Dataproc 还可以与其他 Google Cloud 分析产品、数据库和 AI 生态系统进行开箱即用的集成。数据科学家和工程师可以快速访问数据,并构建将 Dataproc 连接到 BigQueryVertex AISpannerPub/SubData Fusion 的数据应用。

查看所有功能

文档

文档

Google Cloud 基础知识

无服务器 Spark

提交可自动预配和自动扩缩的 Spark 作业。如需了解更多详情,请参阅下方的快速入门链接。
API 和库

Dataproc 初始化操作

通过预建的初始化操作将其他 OSS 项目添加到您的 Dataproc 集群。
API 和库

开源连接器

用于实现 Apache Hadoop 互操作性的库和工具。
API 和库

Dataproc 工作流模板

Dataproc WorkflowTemplates API 为工作流的管理和执行提供了一种灵活且易用的机制。

没有看到您需要的内容?

使用场景

使用场景

使用场景
将 Hadoop 与 Spark 集群迁移到云端

企业正纷纷将其现有的本地 Apache Hadoop 和 Spark 集群迁移到 Dataproc,以控制费用并获享弹性扩缩能力。通过 Dataproc,企业可以获得专门构建的全代管式集群,此集群可以自动扩缩以支持任意的数据或分析处理作业。

所有特性

所有特性

无服务器 Spark
部署可自动扩缩的 Spark 应用和流水线,无需对基础架构执行任何手动预配或调整。
集群大小可调整
您可以使用多种虚拟机类型、磁盘大小、节点数和网络选项快速创建集群并调节集群规模
自动扩缩集群
Dataproc 自动扩缩功能提供自动管理集群资源的机制,还支持自动添加和减少集群工作器(节点)。
云端集成
内置 Cloud Storage、BigQuery、Dataplex、Vertex AI、Composer、Bigtable、Cloud Logging 和 Cloud Monitoring 集成,为您提供一个更加完整而强大的数据平台。
自动或手动配置
Dataproc 可自动配置硬件和软件,但您也可以选择手动控制
开发者工具
您可通过以下多种方法来管理集群:易于使用的网页界面、Cloud SDK、RESTful API 以及 SSH 访问等。
初始化操作
创建集群时,运行初始化操作以安装或定制您需要的设置和库。
可选组件
使用可选组件在集群上安装其他组件并进行相应配置。可选组件与 Dataproc 组件集成,可为 Zeppelin、Presto 以及与 Apache Hadoop 和 Apache Spark 生态系统相关的其他开源软件组件提供配置完善的环境。
自定义容器和映像
可以使用自定义 Docker 容器预配 Dataproc 无服务器 Spark。可以使用包含预装 Linux 操作系统软件包的自定义映像对 Dataproc 集群进行预配。
灵活的虚拟机选择
集群可以使用自定义机器类型抢占式虚拟机来更好地满足您对计算规模的需求。
工作流模板
Dataproc 工作流模板为工作流的管理和执行提供了一种灵活且易用的机制。工作流模板是可重复使用的工作流配置,其中定义的作业图包含在哪里运行这些作业的信息。
自动化政策管理
将一组集群的安全、费用和基础架构政策标准化。您可以在项目级层创建资源管理、安全或网络政策。这使用户能够方便地使用正确的映像、组件、元数据存储区和其他外围设备,也便于您日后管理集群舰队和无服务器 Spark 政策。
智能提醒
Dataproc 建议的提醒允许客户调整预配置提醒的阈值,以获取有关空闲集群、失控集群、作业、利用率过高的集群等的提醒。客户可以进一步自定义这些提醒,甚至创建高级集群和作业管理功能。这些功能使客户能够大规模管理舰队。
Dataproc on Google Distributed Cloud (GDC)
Dataproc on GDC 使您可以在数据中心内的 GDC Edge 设备上运行 Spark。现在,您可以在 Google Cloud 上以及数据中心内的敏感数据中使用相同的 Spark 应用。
多区域 Dataproc Metastore
Dataproc Metastore 是全代管式、高可用性 Hive Metastore (HMS),具有精细的访问权限控制。多区域 Dataproc Metastore 提供针对区域级服务中断的主动-主动灾难恢复和弹性。

价格

价格

Dataproc 价格取决于 vCPU 的数量及运行时长。价格显示的是小时费率,但我们计费时以秒为单位,因此您只需为实际使用的资源付费。

例如:包含具有 4 个 CPU 的 6 个节点(1 个主节点 + 5 个工作器节点)的集群,每个 CPU 运行 2 小时,费用为 $0.48。Dataproc 费用 = vCPU 数 * 小时数 * Dataproc 价格 = 24 * 2 * $0.01 = $0.48

如需了解详情,请参阅价格页面。

合作伙伴

合作伙伴

Dataproc 可与主要合作伙伴的产品/服务集成,为您现有的投资和技能组合提供补充。

更进一步

获享 $300 赠金以及 20 多种提供“始终免费”用量的产品,开始在 Google Cloud 上构建项目。

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
控制台
  • 利用我们透明的定价方法节省资金
  • Google Cloud 的随用随付价格方案会根据预付费资源的每月用量和折扣费率自动为您节省费用。请立即联系我们,获取报价。
Google Cloud