如需了解如何简化企业分析,请点击此处,观看 Next 大会上的“Google Cloud 上的开放式和集成式数据分析”研讨会。

跳转到

Dataproc

Dataproc 是一项具有高度可伸缩性的全代管式服务,用于运行 Apache Spark、Apache Flink、Presto 和 30 多个开源工具和框架。使用 Dataproc 可以大规模实现数据湖现代化改造、ETL 和安全数据科学,并且 Dataproc 与 Google Cloud 全面集成,经济实惠。

  • action/check_circle_24px 使用 Sketch 创建。

    开放:大规模运行开源数据分析,并获享企业级安全保护

  • action/check_circle_24px 使用 Sketch 创建。

    灵活:在 Google ComputeKubernetes 上使用无服务器集群或管理集群

  • action/check_circle_24px 使用 Sketch 创建。

    智能:通过与 Vertex AIBigQueryDataplex 集成支持数据用户。

  • action/check_circle_24px 使用 Sketch 创建。

    安全:配置高级安全设置,例如 Kerberos、Apache Ranger 和个人身份验证

  • action/check_circle_24px 使用 Sketch 创建。

    经济高效:与按秒计价的本地数据湖相比,可将 TCO 费用降低 57%

优势

对开源数据处理进行现代化改造

无论您需要虚拟机还是 Kubernetes、额外的 Presto 内存,甚至 GPU,Dataproc 都可以通过按需专门构建的环境或无服务器环境来帮助加快数据和分析处理速度。

适用于数据科学的智能无缝 OSS

让数据科学家和数据分析师能够通过与 Vertex AI 的原生集成,无缝地执行数据科学作业。

高级安全设置、合规性和治理

使用现有的 KerberosApache Ranger 政策或个人集群身份验证管理并强制执行用户授权和身份验证。无需设置网络节点即可定义权限。

主要特性

主要特性

全代管式自动化大数据开源软件

无服务器部署、日志记录和监控服务让您可以专注于数据和分析,而不是基础架构。最多可将 Apache Spark 管理的 TCO 降低 57%。与传统笔记本相比,可让数据科学家和工程师通过与 Vertex AI Workbench 集成,将构建和训练模型的速度加快 5 倍。Dataproc Jobs API 可让您轻松将大数据处理融入自定义应用中,而 Dataproc Metastore 可让您无需运行自己的 Hive Metastore 或目录服务。

使用 Kubernetes 将 Apache Spark 作业容器化

使用 Dataproc on Kubernetes 构建 Apache Spark 作业,以便结合使用 Dataproc 和 Google Kubernetes Engine (GKE) 来提供作业可移植性和隔离。

与 Google Cloud 集成的企业级安全性

创建 Dataproc 集群时,您可以添加安全配置以启用基于 Kerberos 的 Hadoop 安全模式。此外,Dataproc 还可以搭配部分最常用的 Google Cloud 专用安全功能,其中包括默认静态加密、OS Login、VPC Service Controls 和客户管理的加密密钥 (CMEK)。

开放源代码的优点与 Google Cloud 的优点相结合

借助 Dataproc,您可以将正在使用的开源工具、算法和编程语言轻松应用于云规模的数据集。同时,Dataproc 还可以与其他 Google Cloud 分析产品、数据库和 AI 生态系统进行开箱即用的集成。数据科学家和工程师可以快速访问数据,并构建将 Dataproc 连接到 BigQueryVertex AICloud SpannerPub/SubData Fusion 的数据应用。 

查看所有特性

最新资讯

最新资讯

订阅 Google Cloud 简报,了解产品动态、活动安排、特别优惠以及更多资讯。

文档

文档

API 与库
Dataproc 初始化操作

通过预建的初始化操作将其他 OSS 项目添加到您的 Dataproc 集群。

API 与库
开源连接器

用于实现 Apache Hadoop 互操作性的库和工具。

API 与库
Dataproc 工作流模板

Dataproc WorkflowTemplates API 为工作流的管理和执行提供了一种灵活且易用的机制。

使用场景

使用场景

使用场景
将 Hadoop 与 Spark 集群迁移到云端

企业正纷纷将其现有的本地 Apache Hadoop 和 Spark 集群迁移到 Dataproc,以控制费用并获享弹性扩缩能力。通过 Dataproc,企业可以获得专门构建的全代管式集群,此集群可以自动扩缩以支持任意的数据或分析处理作业。

所有特性

所有特性

集群大小可调整 您可以使用多种虚拟机类型、磁盘大小、节点数和网络选项快速创建集群并调节集群规模
自动扩缩集群 Dataproc 自动扩缩功能提供自动管理集群资源的机制,还支持自动添加和减少集群工作器(节点)。
云端集成 内置 Cloud Storage、BigQuery、Cloud Bigtable、Cloud Logging、Cloud Monitoring 和 AI Hub 集成,为您提供一个完整而强大的数据平台。
版本控制 映像版本控制功能让您可以在 Apache Spark、Apache Hadoop 和其他工具的不同版本之间切换。
高可用性 高可用性模式下运行具有多个主节点的集群,并将作业设置为失败时重启,以确保集群和作业具备高可用性。
集群预订删除功能 为帮助避免非活跃集群产生费用,您可以使用 Dataproc 的预订删除功能。该功能可以提供以下选项:在集群达到闲置期限后将其删除、在指定的将来某个时间删除集群或在指定的时间段后删除集群。
自动或手动配置 Dataproc 可自动配置硬件和软件,但您也可以选择手动控制
开发者工具 您可通过以下多种方法来管理集群:易于使用的网页界面、Cloud SDK、RESTful API 以及 SSH 访问等。
初始化操作 创建集群时,运行初始化操作以安装或定制您需要的设置和库。
可选组件 使用可选组件在集群上安装其他组件并进行相应配置。可选组件与 Dataproc 组件集成,可为 Zeppelin、Druid、Presto 以及与 Apache Hadoop 和 Apache Spark 生态系统相关的其他开源软件组件提供配置完善的环境。
自定义映像 可以使用包含预装 Linux 操作系统软件包的自定义映像对 Dataproc 集群进行预配。
灵活的虚拟机选择 集群可以使用自定义机器类型抢占式虚拟机来更好地满足您对计算规模的需求。
组件网关和笔记本访问 借助 Dataproc 组件网关,您可以一键安全访问集群上运行的 Dataproc 默认和可选组件网页界面。
工作流模板 Dataproc 工作流模板为工作流的管理和执行提供了一种灵活且易用的机制。工作流模板是可重复使用的工作流配置,其中定义的作业图包含在哪里运行这些作业的信息。

价格

价格

Dataproc 价格取决于 vCPU 的数量及运行时长。价格显示的是小时费率,但我们计费时以秒为单位,因此您只需为实际使用的资源付费。

示例:6 个集群(1 个主实例 + 5 个工作器),每个集群有 4 个 CPU,运行 2 小时的费用为 $0.48。Dataproc 费用 = vCPU 数 * 小时数 * Dataproc 价格 = 24 * 2 * $0.01 = $0.48

如需了解详情,请参阅价格页面。

合作伙伴

合作伙伴

Dataproc 可与主要合作伙伴的产品/服务集成,为您现有的投资和技能组合提供补充。