原生 BigQuery 支援 Apache Spark 和 SQL。瞭解詳情

在 Google Cloud 中使用 Spark

業界首屈一指的無伺服器 Spark,可自動調度資源,並與出色的 Google 原生和開放原始碼工具整合。在任何用途中視需求開發及執行 Spark,包括 ETL、數據資料學和探索。

優點

提高開發人員的效率,更快取得資料深入分析結果

透過無伺服器 Spark 簡化作業

編寫自動調度資源的 Spark 應用程式和管道,完全不須手動佈建或調整基礎架構。

讓所有資料使用者都能順暢使用 Spark

Spark 已與 BigQueryVertex AIDataplex 整合,因此您不必自訂整合,即可在這些介面中輕鬆編寫和執行 Spark,適用於 ETL、資料探索、數據分析和機器學習。

靈活選擇

不同的需求,需要不同的做法。您可以針對自家的 Spark 應用程式選用無伺服器、Kubernetes 或運算叢集。

主要功能與特色

只要按兩下滑鼠,即可選擇要從哪個介面執行自動調度資源的 Spark 工作

Apache Spark 適用的 BigQuery 外部程序

統合 SQL 與 Spark 體驗:直接從 BigQuery 建立及執行以 Python 編寫的 Apache Spark 程式碼。接著,您可以使用 Google 標準 SQL 查詢,在 BigQuery 執行及排定這些儲存的程序,原理類似執行 SQL 儲存程序

無伺服器 Spark

開發人員可以將所有時間花在程式碼和邏輯上,並使用所選介面提交 Spark 工作,以自動佈建及調整資源配置。查看無伺服器 Spark 的說明文件。

透過 Vertex AI 使用 Spark

有了 Spark,按一下滑鼠即可執行數據資料學作業:數據資料學家可使用 Spark 從 Vertex AI Workbench 順暢執行開發作業,且內建安全防護機制。Spark 已與 Vertex AI 的機器學習運作功能相互整合,可讓使用者透過與 Vertex AI Pipelines 整合的筆記本執行程式來執行 Spark 程式碼。

透過 Dataplex 使用 Spark

有了 Spark,按一下滑鼠即可存取 SparkSQL、Notebooks 或 PySpark,透過單一介面對 Google Cloud 中的資料執行自動調整資源配置。此外,您也能運用儲存、共用、搜尋筆記本和指令碼與資料,以及跨資料湖泊內建的管理機制,協同合作更輕鬆。

靈活的用量方案

除了無伺服器 Spark 的免人工管理部署作業之外,統一使用 Kubernetes 執行基礎架構管理的客戶還可在 Google Kubernetes Engine 上執行 Spark 來改善資源使用率,並簡化基礎架構管理作業。需要 Hadoop 樣式基礎架構管理的客戶可以在 Compute Engine 上執行 Spark。

準備好了嗎?聯絡我們


Spark 是 Apache Software Foundation 的商標。

展開下一步行動

告訴我們您要解決的問題,Google Cloud 專家會協助您找到最合適的解決方案。