Dataproc 徽标

Dataproc

使用 Google Dataproc 管理 Apache Spark 和 Hadoop

借助托管式服务,让要求最严苛的 Spark 和开源工作负载运行更轻松;借助 Gemini,让它们运行更智能;借助 Lightning Engine,让它们运行更快速

Apache Spark 是 Apache Software Foundation 的商标。

功能

业界领先的性能

使用 Lightning Engine 加快要求最严苛的 Spark 作业的处理速度。我们的新一代引擎通过托管式优化将性能提升至 4.3 倍以上,同时降低了 TCO 并减少了手动调优。现已推出适用于 Dataproc 的预览版。

AI 赋能的开发和运维

使用 Gemini 加快整个工作流程的速度。获取依托 AI 技术的 PySpark 代码编写和调试辅助功能,并使用 Gemini Cloud Assist 自动分析失败或运行缓慢的作业的根本原因,从而大幅缩短问题排查时间\

企业级 AI/机器学习就绪

构建整个机器学习生命周期,并将其付诸使用。借助 NVIDIA RAPIDS™ 支持的 GPU 和预配置的机器学习运行时,加速模型训练和推理。然后,与更广泛的 Google Cloud AI 生态系统集成,以使用 Vertex AI Pipelines 编排端到端 MLOps。

强大的湖仓一体集成

以原生方式连接到开放式湖仓一体架构。直接从 BigQuery 处理数据,使用 Vertex AI Pipelines 编排 MLOps,并使用 BigLakeDataplex Universal Catalog 统一开放数据的治理。

卓越的控制与自定义能力

根据您的确切需求定制每个 Dataproc 集群。您可以使用 Python、Scala 或 Java 进行开发,从各种机器类型中进行选择,使用初始化操作安装自定义软件,并自带容器映像以最大化可移植性。

专为现代开源数据栈而构建

不会受制于特定供应商。Dataproc 针对 Apache Spark 进行了优化,同时还支持 Apache Hadoop、Flink、Trino 和 Presto 等 30 多种开源工具。它可与 Airflow 等常用的编排器无缝集成,并可使用 Kubernetes 和 Docker 进行扩展,以实现最大的灵活性。

企业级安全防护

与您的安全状况无缝集成。利用 IAM 实现精细的权限控制,利用 VPC Service Controls 实现网络安全,并利用 Kerberos 在 Spark 集群上实现强身份验证。

工作方式

配置自定义集群,提交 Spark 作业以处理来自 BigQuery 和 Cloud Storage 的数据。通过集成式监控和安全功能管理性能和治理。

常见用途

云迁移

无缝地直接原样迁移本地 Apache Hadoop 和 Spark 工作负载。这也是从自行管理的“DIY Spark”迁移到全托管式服务的理想途径。Dataproc 支持各种 Spark 版本,包括旧版 2.x,因此无需立即重构代码,从而简化了迁移。这样,您就可以利用团队现有的开源技能,更快地迁移到云端。

    云迁移

    无缝地直接原样迁移本地 Apache Hadoop 和 Spark 工作负载。这也是从自行管理的“DIY Spark”迁移到全托管式服务的理想途径。Dataproc 支持各种 Spark 版本,包括旧版 2.x,因此无需立即重构代码,从而简化了迁移。这样,您就可以利用团队现有的开源技能,更快地迁移到云端。

      湖仓一体现代化改造

      将 Dataproc 用作现代数据湖仓的强大开源处理引擎。直接从数据湖处理 Apache Iceberg 等开放格式的数据,消除数据孤岛和高昂的数据移动成本。与 BigQuery 和 Dataplex Universal Catalog 无缝集成,打造真正的多引擎分析和治理统一平台。

        湖仓一体现代化改造

        将 Dataproc 用作现代数据湖仓的强大开源处理引擎。直接从数据湖处理 Apache Iceberg 等开放格式的数据,消除数据孤岛和高昂的数据移动成本。与 BigQuery 和 Dataplex Universal Catalog 无缝集成,打造真正的多引擎分析和治理统一平台。

          数据工程

          构建和编排复杂、长时间运行的 Spark ETL 流水线,实现企业级可靠性和规模。利用自动扩缩等强大功能优化成本和性能,并使用工作流模板端到端地自动执行和管理最重要的生产级作业。

          即时报价

          数据工程

          构建和编排复杂、长时间运行的 Spark ETL 流水线,实现企业级可靠性和规模。利用自动扩缩等强大功能优化成本和性能,并使用工作流模板端到端地自动执行和管理最重要的生产级作业。

          即时报价

          大规模数据科学

          为数据科学团队提供强大且可自定义的 Spark 集群环境,用于大规模模型训练和批量推理。借助预配置的机器学习运行时和 GPU 支持,您可以加速整个机器学习生命周期,并与 Vertex AI 集成,以构建端到端 MLOps 流水线,并将其付诸使用。

          Spark 笔记本亮点

          大规模数据科学

          为数据科学团队提供强大且可自定义的 Spark 集群环境,用于大规模模型训练和批量推理。借助预配置的机器学习运行时和 GPU 支持,您可以加速整个机器学习生命周期,并与 Vertex AI 集成,以构建端到端 MLOps 流水线,并将其付诸使用。

          Spark 笔记本亮点

          灵活的 OSS(开源软件)分析引擎

          不局限于 Spark 和 Hadoop,同时不增加运营开销。部署包含用于交互式 SQL 的 Trino、用于高级流处理的 Flink 或其他专用开源引擎的专用集群。Dataproc 提供统一的控制平面,能够以托管式服务的简便方式管理这个多样化的生态系统。

          OSS(开源软件)支持

            灵活的 OSS(开源软件)分析引擎

            不局限于 Spark 和 Hadoop,同时不增加运营开销。部署包含用于交互式 SQL 的 Trino、用于高级流处理的 Flink 或其他专用开源引擎的专用集群。Dataproc 提供统一的控制平面,能够以托管式服务的简便方式管理这个多样化的生态系统。

            OSS(开源软件)支持

              价格

              Dataproc 托管式集群Dataproc 采用随用随付的价格模式。通过自动扩缩容和抢占式虚拟机,优化费用。

              关键组件

              • Compute Engine 实例(vCPU、内存)
              • Dataproc 服务费(每 vCPU 小时)
              • 永久性磁盘


              示例

              一个集群包含 6 个节点(1 个主节点 + 5 个工作器节点),每个节点有 4 个 CPU,若每个 CPU 运行 2 小时,费用将为 $0.48。Dataproc 费用 = vCPU 数 * 小时数 * Dataproc 价格 = 24 * 2 * $0.01 = $0.48

              Dataproc 托管式集群

              Dataproc 采用随用随付的价格模式。通过自动扩缩容和抢占式虚拟机,优化费用。

              关键组件

              • Compute Engine 实例(vCPU、内存)
              • Dataproc 服务费(每 vCPU 小时)
              • 永久性磁盘


              示例

              一个集群包含 6 个节点(1 个主节点 + 5 个工作器节点),每个节点有 4 个 CPU,若每个 CPU 运行 2 小时,费用将为 $0.48。Dataproc 费用 = vCPU 数 * 小时数 * Dataproc 价格 = 24 * 2 * $0.01 = $0.48

              价格计算器

              估算您的每月 Dataproc 成本,包括各区域的定价和相关费用。

              定制报价

              请与我们的销售团队联系,获取为贵组织量身定制的报价。

              开始概念验证

              新客户可获享 $300 赠金

              有一个大型项目?

              使用模板提交 Spark 作业

              教程:Dataproc Spark 到 BigQuery 连接器

              查看 Dataproc 文档,了解详细信息

              业务用例

              围绕 Google Dataproc 打造您的业务场景


              与其他解决方案相比,Google Cloud Dataproc 与 Serverless for Apache Spark 的经济优势

              了解与本地部署方案和其他云解决方案相比,Dataproc 如何显著降低总拥有成本并创造业务价值。

              在此报告中:

              了解与其他基于云的 Spark 替代方案相比,Dataproc 和 Serverless for Apache Spark 如何节省 18% 至 60% 的费用。

              了解 Google Cloud Serverless for Apache Spark 如何提供比其他无服务器 Spark 产品高出 21% 到 55% 的性价比。

              了解 Dataproc 和 Google Cloud Serverless for Apache Spark 如何简化 Spark 部署并帮助降低运维复杂性。

              常见问题解答

              我应该在何种情况下选择 Dataproc,而不是 Google Cloud Serverless for Apache Spark?

              如果您需要对集群环境进行精细控制、迁移现有的 Hadoop/Spark 工作负载,或者需要一个包含各种开源工具的永久性集群,请选择 Dataproc。详细了解管理模式、理想工作负载和成本结构方面的差异。

              查看我们的完整指南

              是。Dataproc 是专为现代开源数据栈而构建的统一平台。它支持 30 多个组件,让您可以在单一托管式服务下运行专用集群,以使用 Flink 进行流处理,或使用 Trino 进行交互式 SQL 查询。

              查看所有可选组件

              您可以获得高度可控的体验。Dataproc 支持自定义机器类型、磁盘大小和网络配置。您还可以使用初始化操作来安装自定义软件、自带容器映像,并利用 Spot 虚拟机来优化费用。

              了解如何自定义集群

              Dataproc