
借助托管式服务,让要求最严苛的 Spark 和开源工作负载运行更轻松;借助 Gemini,让它们运行更智能;借助 Lightning Engine,让它们运行更快速。
Apache Spark 是 Apache Software Foundation 的商标。
功能
使用 Lightning Engine 加快要求最严苛的 Spark 作业的处理速度。我们的新一代引擎通过托管式优化将性能提升至 4.3 倍以上,同时降低了 TCO 并减少了手动调优。现已推出适用于 Dataproc 的预览版。
使用 Gemini 加快整个工作流程的速度。获取依托 AI 技术的 PySpark 代码编写和调试辅助功能,并使用 Gemini Cloud Assist 自动分析失败或运行缓慢的作业的根本原因,从而大幅缩短问题排查时间\
构建整个机器学习生命周期,并将其付诸使用。借助 NVIDIA RAPIDS™ 支持的 GPU 和预配置的机器学习运行时,加速模型训练和推理。然后,与更广泛的 Google Cloud AI 生态系统集成,以使用 Vertex AI Pipelines 编排端到端 MLOps。
以原生方式连接到开放式湖仓一体架构。直接从 BigQuery 处理数据,使用 Vertex AI Pipelines 编排 MLOps,并使用 BigLake 和 Dataplex Universal Catalog 统一开放数据的治理。
根据您的确切需求定制每个 Dataproc 集群。您可以使用 Python、Scala 或 Java 进行开发,从各种机器类型中进行选择,使用初始化操作安装自定义软件,并自带容器映像以最大化可移植性。
不会受制于特定供应商。Dataproc 针对 Apache Spark 进行了优化,同时还支持 Apache Hadoop、Flink、Trino 和 Presto 等 30 多种开源工具。它可与 Airflow 等常用的编排器无缝集成,并可使用 Kubernetes 和 Docker 进行扩展,以实现最大的灵活性。
与您的安全状况无缝集成。利用 IAM 实现精细的权限控制,利用 VPC Service Controls 实现网络安全,并利用 Kerberos 在 Spark 集群上实现强身份验证。
常见用途
为数据科学团队提供强大且可自定义的 Spark 集群环境,用于大规模模型训练和批量推理。借助预配置的机器学习运行时和 GPU 支持,您可以加速整个机器学习生命周期,并与 Vertex AI 集成,以构建端到端 MLOps 流水线,并将其付诸使用。
为数据科学团队提供强大且可自定义的 Spark 集群环境,用于大规模模型训练和批量推理。借助预配置的机器学习运行时和 GPU 支持,您可以加速整个机器学习生命周期,并与 Vertex AI 集成,以构建端到端 MLOps 流水线,并将其付诸使用。
价格
| Dataproc 托管式集群 | Dataproc 采用随用随付的价格模式。通过自动扩缩容和抢占式虚拟机,优化费用。 |
|---|---|
关键组件 |
|
示例 | 一个集群包含 6 个节点(1 个主节点 + 5 个工作器节点),每个节点有 4 个 CPU,若每个 CPU 运行 2 小时,费用将为 $0.48。Dataproc 费用 = vCPU 数 * 小时数 * Dataproc 价格 = 24 * 2 * $0.01 = $0.48 |
Dataproc 托管式集群
Dataproc 采用随用随付的价格模式。通过自动扩缩容和抢占式虚拟机,优化费用。
关键组件
示例
一个集群包含 6 个节点(1 个主节点 + 5 个工作器节点),每个节点有 4 个 CPU,若每个 CPU 运行 2 小时,费用将为 $0.48。Dataproc 费用 = vCPU 数 * 小时数 * Dataproc 价格 = 24 * 2 * $0.01 = $0.48
业务用例
围绕 Google Dataproc 打造您的业务场景
与其他解决方案相比,Google Cloud Dataproc 与 Serverless for Apache Spark 的经济优势
了解与本地部署方案和其他云解决方案相比,Dataproc 如何显著降低总拥有成本并创造业务价值。
在此报告中:
了解与其他基于云的 Spark 替代方案相比,Dataproc 和 Serverless for Apache Spark 如何节省 18% 至 60% 的费用。
了解 Google Cloud Serverless for Apache Spark 如何提供比其他无服务器 Spark 产品高出 21% 到 55% 的性价比。
了解 Dataproc 和 Google Cloud Serverless for Apache Spark 如何简化 Spark 部署并帮助降低运维复杂性。
常见问题解答
如果您需要对集群环境进行精细控制、迁移现有的 Hadoop/Spark 工作负载,或者需要一个包含各种开源工具的永久性集群,请选择 Dataproc。详细了解管理模式、理想工作负载和成本结构方面的差异。
是。Dataproc 是专为现代开源数据栈而构建的统一平台。它支持 30 多个组件,让您可以在单一托管式服务下运行专用集群,以使用 Flink 进行流处理,或使用 Trino 进行交互式 SQL 查询。
您可以获得高度可控的体验。Dataproc 支持自定义机器类型、磁盘大小和网络配置。您还可以使用初始化操作来安装自定义软件、自带容器映像,并利用 Spot 虚拟机来优化费用。