Dataproc 是一项具有高度可伸缩性的全代管式服务,用于运行 Apache Hadoop、Apache Spark、Apache Flink、Presto 等 30 多个开源工具和框架。使用 Dataproc 可以大规模实现数据湖现代化改造、ETL 和安全数据科学,并且 Dataproc 与 Google Cloud 集成,经济实惠。
灵活:在 Google Compute 和 Kubernetes 上使用无服务器集群或管理集群。部署 Google 推荐的解决方案,将数据湖和数据仓库统一起来,用于存储、处理和分析结构化数据与非结构化数据
开放:大规模运行开源数据分析,并获享企业级安全保护
安全:配置高级安全设置,例如 Kerberos、Apache Ranger 和个人身份验证
经济高效:与按秒计价的本地数据湖相比,可将 TCO 降低 54%
优势
安全功能,例如默认静态加密、OS Login、VPC Service Controls 和客户管理的加密密钥 (CMEK)。通过添加安全配置启用基于 Kerberos 的 Hadoop 安全模式。
主要特性
无服务器部署、日志记录和监控服务让您可以专注于数据和分析,而不是基础架构。最多可将 Apache Spark 管理的 TCO 降低 54%。与传统笔记本相比,可让数据科学家和工程师通过与 Vertex AI Workbench 集成,将构建和训练模型的速度加快 5 倍。Dataproc Jobs API 可让您轻松将大数据处理融入自定义应用中,而 Dataproc Metastore 可让您无需运行自己的 Hive Metastore 或目录服务。
使用 Dataproc on Kubernetes 构建 Apache Spark 作业,以便结合使用 Dataproc 和 Google Kubernetes Engine (GKE) 来提供作业可移植性和隔离。
创建 Dataproc 集群时,您可以添加安全配置以启用基于 Kerberos 的 Hadoop 安全模式。此外,Dataproc 还可以搭配部分最常用的 Google Cloud 专用安全功能,其中包括默认静态加密、OS Login、VPC Service Controls 和客户管理的加密密钥 (CMEK)。
借助 Dataproc,您可以将正在使用的开源工具、算法和编程语言轻松应用于云规模的数据集。同时,Dataproc 还可以与其他 Google Cloud 分析产品、数据库和 AI 生态系统进行开箱即用的集成。数据科学家和工程师可以快速访问数据,并构建将 Dataproc 连接到 BigQuery、Vertex AI、Spanner、Pub/Sub 或 Data Fusion 的数据应用。
客户
最新资讯
无服务器 Spark 现已正式发布。注册后可试用 Google Cloud 上推出的其他预览版 Spark 服务。
文档
使用场景
企业正纷纷将其现有的本地 Apache Hadoop 和 Spark 集群迁移到 Dataproc,以控制费用并获享弹性扩缩能力。通过 Dataproc,企业可以获得专门构建的全代管式集群,此集群可以自动扩缩以支持任意的数据或分析处理作业。
启用专门的 Dataproc 集群来打造理想的数据科学环境。将 Apache Spark、NVIDIA RAPIDS 和 Juypter 笔记本等开源软件与 Google Cloud AI 服务和 GPU 集成在一起,以加快机器学习和 AI 开发的速度。
所有特性
无服务器 Spark | 部署可自动扩缩的 Spark 应用和流水线,无需对基础架构执行任何手动预配或调整。 |
集群大小可调整 | 您可以使用多种虚拟机类型、磁盘大小、节点数和网络选项快速创建集群并调节集群规模。 |
自动扩缩集群 | Dataproc 自动扩缩功能提供自动管理集群资源的机制,还支持自动添加和减少集群工作器(节点)。 |
云端集成 | 内置 Cloud Storage、BigQuery、Dataplex、Vertex AI、Composer、Bigtable、Cloud Logging 和 Cloud Monitoring 集成,为您提供一个更加完整而强大的数据平台。 |
自动或手动配置 | Dataproc 可自动配置硬件和软件,但您也可以选择手动控制。 |
开发者工具 | 您可通过以下多种方法来管理集群:易于使用的网页界面、Cloud SDK、RESTful API 以及 SSH 访问等。 |
初始化操作 | 创建集群时,运行初始化操作以安装或定制您需要的设置和库。 |
可选组件 | 使用可选组件在集群上安装其他组件并进行相应配置。可选组件与 Dataproc 组件集成,可为 Zeppelin、Presto 以及与 Apache Hadoop 和 Apache Spark 生态系统相关的其他开源软件组件提供配置完善的环境。 |
自定义容器和映像 | 可以使用自定义 Docker 容器预配 Dataproc 无服务器 Spark。可以使用包含预装 Linux 操作系统软件包的自定义映像对 Dataproc 集群进行预配。 |
灵活的虚拟机选择 | |
工作流模板 | Dataproc 工作流模板为工作流的管理和执行提供了一种灵活且易用的机制。工作流模板是可重复使用的工作流配置,其中定义的作业图包含在哪里运行这些作业的信息。 |
自动化政策管理 | 将一组集群的安全、费用和基础架构政策标准化。您可以在项目级层创建资源管理、安全或网络政策。这使用户能够方便地使用正确的映像、组件、元数据存储区和其他外围设备,也便于您日后管理集群舰队和无服务器 Spark 政策。 |
智能提醒 | Dataproc 建议的提醒允许客户调整预配置提醒的阈值,以获取有关空闲集群、失控集群、作业、利用率过高的集群等的提醒。客户可以进一步自定义这些提醒,甚至创建高级集群和作业管理功能。这些功能使客户能够大规模管理舰队。 |
Dataproc on Google Distributed Cloud (GDC) | Dataproc on GDC 使您可以在数据中心内的 GDC Edge 设备上运行 Spark。现在,您可以在 Google Cloud 上以及数据中心内的敏感数据中使用相同的 Spark 应用。 |
多区域 Dataproc Metastore | Dataproc Metastore 是全代管式、高可用性 Hive Metastore (HMS),具有精细的访问权限控制。多区域 Dataproc Metastore 提供针对区域级服务中断的主动-主动灾难恢复和弹性。 |
价格
Dataproc 价格取决于 vCPU 的数量及运行时长。价格显示的是小时费率,但我们计费时以秒为单位,因此您只需为实际使用的资源付费。
例如:包含具有 4 个 CPU 的 6 个节点(1 个主节点 + 5 个工作器节点)的集群,每个 CPU 运行 2 小时,费用为 $0.48。Dataproc 费用 = vCPU 数 * 小时数 * Dataproc 价格 = 24 * 2 * $0.01 = $0.48
如需了解详情,请参阅价格页面。