了解 Analytics Lakehouse 如何帮助您的组织为新数据经济做好准备。 在此报名
跳转到

Dataproc

Dataproc 是一项具有高度可伸缩性的全代管式服务,用于运行 Apache Hadoop、Apache Spark、Apache Flink、Presto 和 30 多个开源工具和框架。使用 Dataproc 可以大规模实现数据湖现代化改造、ETL 和安全数据科学,并且 Dataproc 与 Google Cloud 集成,经济实惠。

  • 开放:大规模运行开源数据分析,并获享企业级安全保护

  • 灵活:在 Google Compute 和 Kubernetes 上使用无服务器集群或管理集群

  • 智能:通过与 Vertex AIBigQueryDataplex 集成支持数据用户。

  • 安全:配置高级安全设置,例如 Kerberos、Apache Ranger 和个人身份验证

  • 经济高效:与按秒计价的本地数据湖相比,可将 TCO 降低 54%

优势

对开源数据处理进行现代化改造

无论您需要虚拟机还是 Kubernetes、额外的 Presto 内存,甚至 GPU,Dataproc 都可以通过按需专门构建的环境或无服务器环境来帮助加快数据和分析处理速度。

适用于数据科学的智能无缝 OSS

让数据科学家和数据分析师能够通过与 BigQueryDataplexVertex AI 的原生集成,无缝地执行数据科学作业。

高级安全设置、合规性和治理

使用 Dataproc、BigLakeDataplex 强制执行精细的行级和列级访问权限控制。使用现有的 KerberosApache Ranger 政策管理和强制执行用户授权和身份验证。

主要特性

主要特性

全代管式自动化大数据开源软件

无服务器部署、日志记录和监控服务让您可以专注于数据和分析,而不是基础架构。最多可将 Apache Spark 管理的 TCO 降低 54%。与传统笔记本相比,可让数据科学家和工程师通过与 Vertex AI Workbench 集成,将构建和训练模型的速度加快 5 倍。Dataproc Jobs API 可让您轻松将大数据处理融入自定义应用中,而 Dataproc Metastore 可让您无需运行自己的 Hive Metastore 或目录服务。

使用 Kubernetes 将 Apache Spark 作业容器化

使用 Dataproc on Kubernetes 构建 Apache Spark 作业,以便结合使用 Dataproc 和 Google Kubernetes Engine (GKE) 来提供作业可移植性和隔离。

与 Google Cloud 集成的企业级安全性

创建 Dataproc 集群时,您可以添加安全配置以启用基于 Kerberos 的 Hadoop 安全模式。此外,Dataproc 还可以搭配部分最常用的 Google Cloud 专用安全功能,其中包括默认静态加密、OS Login、VPC Service Controls 和客户管理的加密密钥 (CMEK)。

开放源代码的优点与 Google Cloud 的优点相结合

借助 Dataproc,您可以将正在使用的开源工具、算法和编程语言轻松应用于云规模的数据集。同时,Dataproc 还可以与其他 Google Cloud 分析产品、数据库和 AI 生态系统进行开箱即用的集成。数据科学家和工程师可以快速访问数据,并构建将 Dataproc 连接到 BigQueryVertex AICloud SpannerPub/SubData Fusion 的数据应用。 

查看所有特性

最新资讯

最新资讯

无服务器 Spark 现已正式推出。注册以预览其他 Spark on Google Cloud 服务。

文档

文档

Google Cloud 基础知识
无服务器 Spark

提交可自动预配和自动扩缩的 Spark 作业。如需了解更多详情,请参阅下方的快速入门链接。 

API 与库
Dataproc 初始化操作

通过预建的初始化操作将其他 OSS 项目添加到您的 Dataproc 集群。

API 与库
开源连接器

用于实现 Apache Hadoop 互操作性的库和工具。

API 与库
Dataproc 工作流模板

Dataproc WorkflowTemplates API 为工作流的管理和执行提供了一种灵活且易用的机制。

使用场景

使用场景

使用场景
将 Hadoop 与 Spark 集群迁移到云端

企业正纷纷将其现有的本地 Apache Hadoop 和 Spark 集群迁移到 Dataproc,以控制费用并获享弹性扩缩能力。通过 Dataproc,企业可以获得专门构建的全代管式集群,此集群可以自动扩缩以支持任意的数据或分析处理作业。

所有特性

所有特性

无服务器 Spark 部署可自动扩缩的 Spark 应用和流水线,无需任何人工基础架构预配或调整。
集群大小可调整 您可以使用多种虚拟机类型、磁盘大小、节点数和网络选项快速创建集群并调节集群规模
自动扩缩集群 Dataproc 自动扩缩功能提供自动管理集群资源的机制,还支持自动添加和减少集群工作器(节点)。
云端集成 内置 Cloud Storage、BigQuery、Dataplex、Vertex AI、Composer、Cloud Bigtable、Cloud Logging 和 Cloud Monitoring 集成,为您提供一个更加完整而强大的数据平台。
版本控制 映像版本控制功能让您可以在 Apache Spark、Apache Hadoop 和其他工具的不同版本之间切换。
集群预订删除功能 为帮助避免非活跃集群产生费用,您可以使用 Dataproc 的预订删除功能。该功能可以提供以下选项:在集群达到闲置期限后将其删除、在指定的将来某个时间删除集群或在指定的时间段后删除集群。
自动或手动配置 Dataproc 可自动配置硬件和软件,但您也可以选择手动控制
开发者工具 您可通过以下多种方法来管理集群:易于使用的网页界面、Cloud SDK、RESTful API 以及 SSH 访问等。
初始化操作 创建集群时,运行初始化操作以安装或定制您需要的设置和库。
可选组件 使用可选组件在集群上安装其他组件并进行相应配置。可选组件与 Dataproc 组件集成,可为 Zeppelin、Presto 以及与 Apache Hadoop 和 Apache Spark 生态系统相关的其他开源软件组件提供配置完善的环境。
自定义容器和映像 可以使用自定义 Docker 容器预配 Dataproc 无服务器 Spark。可以使用包含预装 Linux 操作系统软件包的自定义映像对 Dataproc 集群进行预配。
灵活的虚拟机选择 集群可以使用自定义机器类型抢占式虚拟机来更好地满足您对计算规模的需求。
组件网关和笔记本访问 借助 Dataproc 组件网关,您可以一键安全访问集群上运行的 Dataproc 默认和可选组件网页界面。
工作流模板 Dataproc 工作流模板为工作流的管理和执行提供了一种灵活且易用的机制。工作流模板是可重复使用的工作流配置,其中定义的作业图包含在哪里运行这些作业的信息。 
自动化政策管理 将一组集群的安全、费用和基础架构政策标准化。您可以在项目级层创建资源管理、安全或网络政策。您还可以使用户能够方便地使用正确的映像、组件、元数据存储区和其他外围设备,这样您能够在以后管理集群舰队和无服务器 Spark 政策。 
智能提醒 Dataproc 建议的提醒允许客户调整预配置提醒的阈值,以获取有关空闲集群、失控集群、作业、利用率过高的集群等的提醒。客户可以进一步自定义这些提醒,甚至创建高级集群和作业管理功能。这些功能使客户能够大规模管理舰队。
Dataproc Metastore 全代管式高可用性 Hive Metastore (HMS) 具有精细的访问权限控制,并与 BigQuery Metastore、Dataplex 和 Data Catalog 集成。

价格

价格

Dataproc 价格取决于 vCPU 的数量及运行时长。价格显示的是小时费率,但我们计费时以秒为单位,因此您只需为实际使用的资源付费。

示例:6 个集群(1 个主实例 + 5 个工作器),每个集群有 4 个 CPU,运行 2 小时的费用为 $0.48。Dataproc 费用 = vCPU 数 * 小时数 * Dataproc 价格 = 24 * 2 * $0.01 = $0.48

如需了解详情,请参阅价格页面。

合作伙伴

合作伙伴

Dataproc 可与主要合作伙伴的产品/服务集成,为您现有的投资和技能组合提供补充。