了解 Analytics Lakehouse 如何帮助您的组织为新数据经济做好准备。在此报名
跳转到
Dataproc

Dataproc

Dataproc 是一项具有高度可伸缩性的全代管式服务,用于运行 Apache Hadoop、Apache Spark、Apache Flink、Presto 等 30 多个开源工具和框架。使用 Dataproc 可以大规模实现数据湖现代化改造、ETL 和安全数据科学,并且 Dataproc 与 Google Cloud 集成,经济实惠。

  • 开放:大规模运行开源数据分析,并获享企业级安全保护

  • 灵活:在 Google Compute 和 Kubernetes 上使用无服务器集群或管理集群

  • 智能:通过与 Vertex AIBigQueryDataplex 集成,为数据用户提供强大支持。

  • 安全:配置高级安全设置,例如 Kerberos、Apache Ranger 和个人身份验证

  • 经济高效:与按秒计价的本地数据湖相比,可将 TCO 降低 54%

优势

对开源数据处理进行现代化改造

无论您需要虚拟机还是 Kubernetes、额外的 Presto 内存,甚至 GPU,Dataproc 都可以通过按需专门构建的环境或无服务器环境来帮助加快数据和分析处理速度。

适用于数据科学的智能无缝 OSS

让数据科学家和数据分析师能够通过与 BigQueryDataplexVertex AI 的原生集成,无缝地执行数据科学作业。

高级安全设置、合规性和治理

使用 Dataproc、BigLakeDataplex 强制执行精细的行级和列级访问权限控制。使用现有的 KerberosApache Ranger 政策管理和强制执行用户授权和身份验证。

主要特性

主要特性

全代管式自动化大数据开源软件

无服务器部署、日志记录和监控服务让您可以专注于数据和分析,而不是基础架构。最多可将 Apache Spark 管理的 TCO 降低 54%。与传统笔记本相比,可让数据科学家和工程师通过与 Vertex AI Workbench 集成,将构建和训练模型的速度加快 5 倍。Dataproc Jobs API 可让您轻松将大数据处理融入自定义应用中,而 Dataproc Metastore 可让您无需运行自己的 Hive Metastore 或目录服务。

使用 Kubernetes 将 Apache Spark 作业容器化

使用 Dataproc on Kubernetes 构建 Apache Spark 作业,以便结合使用 Dataproc 和 Google Kubernetes Engine (GKE) 来提供作业可移植性和隔离。

与 Google Cloud 集成的企业级安全性

创建 Dataproc 集群时,您可以添加安全配置以启用基于 Kerberos 的 Hadoop 安全模式。此外,Dataproc 还可以搭配部分最常用的 Google Cloud 专用安全功能,其中包括默认静态加密、OS Login、VPC Service Controls 和客户管理的加密密钥 (CMEK)。

开放源代码的优点与 Google Cloud 的优点相结合

借助 Dataproc,您可以将正在使用的开源工具、算法和编程语言轻松应用于云规模的数据集。同时,Dataproc 还可以与其他 Google Cloud 分析产品、数据库和 AI 生态系统进行开箱即用的集成。数据科学家和工程师可以快速访问数据,并构建将 Dataproc 连接到 BigQueryVertex AICloud SpannerPub/SubData Fusion 的数据应用。

查看所有功能

文档

文档

Google Cloud 基础知识

无服务器 Spark

提交可自动预配和自动扩缩的 Spark 作业。如需了解更多详情,请参阅下方的快速入门链接。
API 和库

Dataproc 初始化操作

通过预建的初始化操作将其他 OSS 项目添加到您的 Dataproc 集群。
API 和库

开源连接器

用于实现 Apache Hadoop 互操作性的库和工具。
API 和库

Dataproc 工作流模板

Dataproc WorkflowTemplates API 为工作流的管理和执行提供了一种灵活且易用的机制。