與其他雲端式 Apache Spark 替代方案相比，Google Cloud 可節省 18 至 60% 的費用。取得 ESG 報告。

在 Google Cloud 中使用 Apache Spark

在 Google Cloud 中發揮 Spark 的最大潛力。您可以選擇無伺服器的簡便性，或是叢集控制功能，並透過高速處理、AI 輔助和順暢的開放式 lakehouse 連線能力，進一步提升效能。

鄧白氏的資料工作流程完成時間縮短為幾分鐘，產品回應速度加快 60%

2:46

優點

提高開發人員的效率，更快取得資料深入分析結果

讓所有資料使用者都能順暢使用 Spark

透過 BigQuery、Vertex AI 和 IDE，使用無伺服器或代管叢集輕鬆執行 Spark。運用 Gemini 的程式碼和作業功能，省去自訂整合作業、簡化 ETL 到機器學習的工作流程，並提高工作效率。

透過無伺服器 Spark 簡化作業

Google Cloud Serverless for Apache Spark 可立即自動調度資源，且幾乎不需要任何設定。Lightning Engine (預先發布版) 可將查詢效能提升 4.3 倍*。Dataplex Universal Catalog 整合中繼資料，簡化作業。

以您偏好的方式執行 Spark

不同的需求，需要不同的做法。Google Cloud 提供多種選項，您可以彈性地為 Spark 工作負載選擇無伺服器、代管叢集和運算叢集。

主要功能與特色

在 Google Cloud 中執行 Spark 的強大方法

Google Cloud Serverless for Apache Spark

使用 Google Cloud Serverless for Apache Spark，透過 Lightning Engine* 和 Gemini 提升工作效率和效能。這個體驗是高度整合的環境，可直接在 BigQuery 中執行 Apache Spark 和 SQL 工作負載。這項服務提供統一的安全防護機制、使用 BigLake metastore 的執行階段中繼資料，以及透過 Dataplex Universal Catalog 進行治理。透過整合的 CI/CD 和筆記本中的 Gemini 功能，並省去 Apache Spark 叢集的管理作業，盡可能提高工作效率。

* 查詢速度是依據 TPC-DS 標準和 TPC-H 標準估算，因此無法與已發布的 TPC-DS 標準和 TPC-H 標準結果比較，因為這些執行作業未完全符合 TPC-DS 標準和 TPC-H 標準規格的要求。

透過 Dataproc 使用代管的 Spark、Hadoop 和 OSS 叢集

Dataproc 是擴充性極高的全代管服務，可用於部署及操作專屬的 Spark、Hadoop，以及 30 多種開放原始碼工具的龐大生態系統。這個解決方案與更廣大的 Google Cloud 產品和服務整合，包括 Dataproc on Google Compute Engine 適用的 Lightning Engine (進階級)，因此非常適合用於翻新 data lake、建立高效率的 ETL pipeline，以及推動安全的大規模資料科學計畫，尤其是在叢集控制方面。

在 Google Cloud 中使用 Apache Spark 的資料科學

無論您偏好 Google Cloud Serverless for Apache Spark 可免去作業負擔的簡便性，還是代管 Dataproc 叢集的控管機制，都能加速整個機器學習生命週期。優點：

完美整合：輕鬆連結 BigQuery 以存取資料，並連結 Vertex AI 以執行 MLOps，建構端對端資料科學 pipeline。
開發人員工作效率：在 BigQuery Studio 和 Vertex AI Workbench 等筆記本環境中，運用 Gemini 取得程式碼洞察資料和相關協助。
支援 AI/機器學習技術：利用預先封裝的機器學習程式庫，以及無伺服器 Spark 和 Dataproc 叢集的 GPU 加速功能，執行嚴苛的訓練和推論任務。
加快疊代速度：無論您的選擇為何，都能專注於開發和實驗。

透過 Vertex AI 使用 Spark

透過 Vertex AI，順暢地開發及運作資料科學用途的 Spark。使用 Vertex AI Workbench 中的 Spark 進行互動式開發，並享有內建安全防護機制和 Gemini 的協助。將 Spark 處理作業整合至 Vertex AI Pipelines，以利進行穩健的 MLOps。

適用於 lakehouse 的開放原始碼資料表格式支援

Google Cloud 的 Spark 產品與 Apache Iceberg、Delta Lake 和 Hudi 等開放原始碼格式相容性極佳。運用 BigLake metastore 或 Dataproc metastore，以統一的方式管理各種格式的中繼資料，並採用開放式 lakehouse 架構，選擇所需的 Spark 引擎來處理資料。

合作夥伴