Google Cloud 上的 Apache Spark

全新方式,让 Spark 更轻松、更智能、更快速。

在 Google Cloud 上运行 Apache Spark 工作负载,以更少的运维开销、更多 AI 赋能的帮助以及更高的性价比完成任务。专注于代码,而不是集群管理。


优势

在 Google Cloud 上获得更佳的 Apache Spark 使用体验

更轻松 - 消除 Spark 的运维负担

您可以选择零运维的 Google Cloud Serverless for Apache Spark,也可以选择托管式 Dataproc 集群。两者都能自动消除基础设施的复杂性,帮助您加快开发生命周期。

比较两种方案

更智能 - AI 辅助的 Spark 开发

借助 Gemini in DataprocGoogle Cloud Serverless for Apache Spark,加速整个工作流。获取由 Gemini 赋能的帮助,用于生成和调试代码,并排查失败的作业。

了解 Gemini Code Assist

更快 - 提升 Spark 性能

自动获得业界领先的性价比。对于要求最严苛的作业,使用 Lightning Engine 可将性能提升 4.3 倍以上。这有助于降低总拥有成本,并缩短获得分析洞见所需的时间。

探索 Lightning Engine

主要特性

为您的工作负载选择合适的 Spark

您可以选择 Serverless for Apache Spark,享受零运维的简便性;也可以选择 Dataproc,使用支持深度自定义的托管式集群。

查看决策指南

Google Cloud Serverless for Apache Spark

只需专注于代码,即可加快开发速度。它提供经济实惠的批处理层和高性能 AI/机器学习层,非常适合新的 Apache Spark 流水线、交互式分析,以及需求不可预测且更适合采用“NoOps”模型的工作负载。

最适合:数据科学家和机器学习工程师、临时查询、新应用以及提升开发效率。

探索无服务器 Spark

Dataproc

最大限度地掌控集群环境。非常适合迁移现有的 Apache Hadoop/Spark 工作负载、运行长期运行的持久集群,或利用多样化的开源生态系统。

最适合:企业工程与运维、本地环境迁移、长时间运行的作业以及深度自定义。

探索 Dataproc

文档

文档

Tutorial

运行您的第一个无服务器 Spark 作业

按照本快速入门中的说明,体验无服务器 Spark 的速度和简洁性。了解如何使用 Google Cloud CLI 提交 PySpark 批处理作业。

Tutorial

创建托管式 Dataproc 集群

本教程将引导您使用 Google Cloud 控制台创建 Dataproc 集群。了解如何为 Spark 和 Hadoop 工作负载配置和预配托管式环境。

Best Practice

统一分析:在单一数据副本上同时使用 SQL 和 Spark

不必再在 SQL 的强大功能和 Spark 的灵活性之间做出选择。BigLake 可让您在同一份受治理的数据之上使用这两种引擎。它提供统一的体验,让您能够针对每个任务使用最合适的工具。

Best Practice

加速整个 AI 和机器学习生命周期

从数据准备到模型训练和推理,全流程都能更快完成。我们的高级层级专为 AI/机器学习而设计,让您可以使用预配置的机器学习运行时(内置 GPU 支持,例如 NVIDIA RAPIDS),从而免去复杂的设置。

没有看到您需要的内容?


Apache Spark 是 Apache Software Foundation 的商标。

** 这些查询源自 TPC-DS 标准TPC-H 标准,因此无法与已发布的 TPC-DS 标准TPC-H 标准结果进行比较,因为这些运行不符合 TPC-DS 标准TPC-H 标准规范的所有要求。

更进一步

告诉我们您需要解决什么问题。Google Cloud 专家会帮助您找到最合适的解决方案。