在 Google Cloud 中使用 Apache Spark

革新 Spark 工作,更輕鬆、聰明、快速。

在 Google Cloud 執行 Apache Spark 工作負載,可減少作業負擔、獲得更多 AI 輔助功能,並提升成本效益。專心編寫程式碼,不必費心管理叢集。


優點

在 Google Cloud 使用 Apache Spark 體驗再升級

更輕鬆:免除 Spark 的作業負擔

您可以選擇免去作業負擔的 Google Cloud Serverless for Apache Spark,或是代管 Dataproc 叢集。兩者都能自動化處理複雜的基礎架構,加快開發生命週期。

比較兩種方案

更聰明:AI 輔助 Spark 開發

DataprocGoogle Cloud Serverless for Apache Spark 中使用 Gemini,加快整個工作流程。在 Gemini 的協助下,生成程式碼、偵錯,以及對失敗的工作進行疑難排解。

瞭解 Gemini Code Assist

速度更快:提升 Spark 效能

自動享有領先業界的成本效益。Lightning Engine 可將效能提升 4.3 倍以上,適合用於處理最嚴苛的工作。這能降低 TCO,並加速取得洞察資訊。

探索 Lightning Engine

主要功能與特色

為工作負載選擇合適的 Spark

您可以選擇 Serverless for Apache Spark,享受免去作業負擔的便利性,也可以選擇 Dataproc,建立可深度自訂的代管叢集。

參閱決策指南

Google Cloud Serverless for Apache Spark

您只要專心編寫程式碼,加快開發速度。Dataproc Serverless 提供符合成本效益的批次處理和高效能 AI/機器學習層級,非常適合用於新的 Apache Spark 管道、互動式分析,以及需求難以預測的工作負載,這類工作負載會優先考量「NoOps」模型。

最適合:資料科學家和機器學習工程師、臨時查詢、新應用程式、開發人員工作效率。

探索無伺服器 Spark

Dataproc

充分掌控叢集環境。非常適合遷移現有的 Apache Hadoop/Spark 工作負載、執行長期持續叢集,或使用多元的開放原始碼生態系統。

最適合:企業工程與營運、地端部署遷移、長時間執行的工作、深度自訂。

探索 Dataproc

說明文件

說明文件

Tutorial

執行您的第一個無伺服器 Spark 工作

參考這堂快速入門導覽課程,體驗無伺服器 Spark 的速度與便利性。瞭解如何使用 Google Cloud CLI 提交 PySpark 批次工作。

Tutorial

建立代管 Dataproc 叢集

本教學課程將逐步說明如何使用 Google Cloud 控制台建立 Dataproc 叢集。瞭解如何為 Spark 和 Hadoop 工作負載設定及佈建代管環境。

Best Practice

整合數據分析:在單一資料副本上執行 SQL 和 Spark

不必再為了兼顧 SQL 的強大功能和 Spark 的彈性而煩惱。BigLake 可讓您使用這兩種引擎處理相同的受管理資料。這項整合式體驗可讓您針對每項工作使用最合適的工具。

Best Practice

加速整個 AI 和機器學習生命週期

從準備資料到訓練模型和推論,都能更快完成。我們的進階級專為 AI/機器學習而設計,可讓您使用預先設定的機器學習執行階段 (內建 GPU 支援),例如 NVIDIA RAPIDS,免除複雜的設定程序。

找不到所需資訊嗎?


Apache Spark 是 Apache Software Foundation 的商標。

** 查詢速度是依據 TPC-DS 標準TPC-H 標準估算,無法與已發布的 TPC-DS 標準TPC-H 標準結果比較,因為這些執行作業未完全符合 TPC-DS 標準TPC-H 標準規格的要求。

展開下一步行動

告訴我們您要解決的問題,Google Cloud 專家會協助您找到最合適的解決方案。