为 Apache Spark 和 SQL 提供原生 BigQuery 支持。了解详情

Spark on Google Cloud

业内首个自动扩缩的无服务器 Spark,与出色的 Google 原生和开源工具集成。根据需要跨所有使用场景(包括 ETL、数据科学和数据探索)开发和运行 Spark。

优势

提高开发者的工作效率并更快地获取数据洞见

通过无服务器 Spark 简化运维

编写可自动扩缩的 Spark 应用和流水线,无需对基础设施进行任何手动预配或调整。

适合所有数据用户的无缝 Spark

Spark 与 BigQueryVertex AIDataplex 集成,因此无需自定义集成,只需点击两下即可从这些界面编写和运行用于 ETL、数据探索、分析和机器学习的 Spark 作业。

灵活的使用方式

并没有一种通用的选项。您可以为 Spark 应用选择无服务器、Kubernetes 集群和计算集群。

主要特性

只需点击两下,即可从所选界面运行可自动扩缩的 Spark 作业

适用于 Apache Spark 的 BigQuery 外部过程

统一的 SQL 和 Spark 体验:直接从 BigQuery 中创建并运行以 Python 编写的 Apache Spark 代码。然后,您可以使用 Google 标准 SQL 查询在 BigQuery 中运行和安排这些存储过程,类似于运行 SQL 存储过程

无服务器 Spark

开发者可以将全部时间用于代码和逻辑,并使用所选界面提交可以自动预配和自动扩缩的 Spark 作业。阅读无服务器 Spark 的文档。

通过 Vertex AI 运行 Spark

一键式将 Spark 用于数据科学:数据科学家可以从 Vertex AI Workbench 无缝使用 Spark 进行开发,还内置了安全防护功能。Spark 与 Vertex AI 的 MLOps 功能集成,用户可以通过与 Vertex AI Pipelines 集成的笔记本执行程序执行 Spark 代码。

通过 Dataplex 运行 Spark

通过统一界面对 Google Cloud 中的数据运行自动扩缩 Spark 作业。用户可以通过该界面一键访问 SparkSQL、Notebooks 或 PySpark,还可以轻松保存、共享、搜索笔记本和脚本以及数据,还内置了跨数据湖的治理功能。

灵活的使用选项

除了用于实现免运维部署的无服务器 Spark 外,标准化 Kubernetes 以管理基础设施的客户还可以在 Google Kubernetes Engine上运行 Spark,以提高资源利用率并简化基础设施管理。希望使用 Hadoop 式基础设施管理的客户可以在 Compute Engine 上运行 Spark。

准备好开始了吗?与我们联系


Spark 是 Apache Software Foundation 的商标。

更进一步

告诉我们您需要解决什么问题。Google Cloud 专家会帮助您找到最合适的解决方案。

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
控制台