Apache Spark 向け Lightning Engine

Apache Spark ジョブのパフォーマンスを 4.3 倍* 向上

Lightning Engine は、ベクトル化された実行、組み込みのインテリジェント キャッシング、最適化されたストレージ I/O を備えた新しい Spark 処理エンジンです。このエンジンにより、クエリのパフォーマンスが向上します。Lightning Engine は現在プレビュー版で公開されています。

*クエリは TPC-DS 標準TPC-H 標準から派生したものであり、TPC-DS 標準TPC-H 標準のすべての要件を満たしていないため、公開されている TPC-DS 標準TPC-H 標準の結果と比較することはできません。

Apache Spark は Apache Software Foundation の商標です。

機能

Spark のパフォーマンスの向上

Lightning Engine は、ベクトル化された実行、組み込みのインテリジェント キャッシング、最適化されたストレージ I/O を備えた新しい Apache Spark 処理エンジンを活用して、クエリ パフォーマンスを大幅に高速化します。Lightning Engine は、オープンソースの Spark アプリケーションと完全な互換性があります。



業界屈指の費用対性能

優れたパフォーマンスと費用効率を実現し、ユーザーはより少ない費用でより多くのデータを処理できます。Lightning Engine は、オープンソースの Apache Spark と比較して 4.3 倍以上* のパフォーマンスを実現し、BigQuery や Vertex AI など、Google Cloud サービス全体において緊密なインテグレーションを提供します。マネージド最適化により、手動によるパフォーマンス調整が不要になります。


オープン レイクハウスとの相互運用

Lightning Engine は Apache Iceberg および Google Cloud BigLake と緊密に統合されており、統一されたデータ分析と AI プラットフォームを提供します。Cloud Storage と BigQuery 向けに最適化されたデータコネクタを備え、データアクセスのレイテンシとスループットを大幅に改善します。

柔軟なデプロイ

Lightning Engine は現在プレビュー版ですが、Apache Spark 向け Google Cloud サーバーレスのプレミアム ティアと Dataproc のマネージド クラスタで利用できるようになります。どちらのサービスも、ML ワークロードの高速化のための GPU サポートと、運用効率向上のための最高水準のジョブ モニタリング ツールを備えています。サーバーレス Spark は、柔軟な Spark 構成と大規模なレコードサイズの処理を通じて、大規模で堅牢な本番環境ジョブサポートを支援するため、リソースの使用率もほぼ 100% に達します。

仕組み

Lightning Engine は、データアクセスの最適化、インテリジェント キャッシングの実装、ベクトル化された C++ 実行エンジンの活用により、Google Cloud 上での Spark のパフォーマンスを大幅に向上させ、さまざまなベンチマークでクエリ時間を大幅に短縮し、リソース消費を削減します。

一般的な使用例

大規模な ETL/ELT ワークロード

複雑な SQL 変換でワークロードのパフォーマンスを向上

複雑な SQL クエリを含む大規模な ETL/ELT ワークロードは、多くの場合 CPU に依存し、大量のデータシャッフルと計算を伴います。Lightning Engine の列処理とベクトル化された実行により、これらの複雑な SQL 操作の処理時間を大幅に短縮できるため、データ パイプラインの高速化、実行時間の短縮による費用削減、データのより頻繁な更新が可能になります。

    複雑な SQL 変換でワークロードのパフォーマンスを向上

    複雑な SQL クエリを含む大規模な ETL/ELT ワークロードは、多くの場合 CPU に依存し、大量のデータシャッフルと計算を伴います。Lightning Engine の列処理とベクトル化された実行により、これらの複雑な SQL 操作の処理時間を大幅に短縮できるため、データ パイプラインの高速化、実行時間の短縮による費用削減、データのより頻繁な更新が可能になります。

      AI / ML ワークロード

      ネイティブ GPU サポートにより AI/ML ワークロードと ETL ワークロードを高速化

      追加のセットアップや構成なしで、Spark ML トレーニングとバッチ推論のワークロードを実行できます。Spark イメージには、NVIDIA ドライバと一般的な ML ライブラリが事前にパッケージ化されています。Spark Rapids の組み込みサポートを使用することで、Lightning Engine のパフォーマンス向上の恩恵を受け、GPU をより有効に活用するジョブの構成を最適化できます。また、ノードの自動スケーリングも高速です。

        ネイティブ GPU サポートにより AI/ML ワークロードと ETL ワークロードを高速化

        追加のセットアップや構成なしで、Spark ML トレーニングとバッチ推論のワークロードを実行できます。Spark イメージには、NVIDIA ドライバと一般的な ML ライブラリが事前にパッケージ化されています。Spark Rapids の組み込みサポートを使用することで、Lightning Engine のパフォーマンス向上の恩恵を受け、GPU をより有効に活用するジョブの構成を最適化できます。また、ノードの自動スケーリングも高速です。

          ソリューションの生成
          解決したい問題は何ですか?
          What you'll get:
          手順ガイド
          リファレンス アーキテクチャ
          利用可能な事前構築済みソリューション
          このサービスは Vertex AI を使用して構築されました。ご利用いただけるのは 18 歳以上のユーザーのみです。機密情報や個人情報は入力しないでください。

          料金

          Lightning Engine の料金の仕組みApache Spark 向け Lightning Engine はプレビュー版であり、料金は近日発表予定です
          サービスと用途説明価格(米ドル)

          データ コンピューティング単位(DCU)

          DCU の料金の詳細は近日発表予定です


          近日提供予定

          Lightning Engine(プレビュー版)の料金は近日中に発表されます。

          Lightning Engine の料金の仕組み

          Apache Spark 向け Lightning Engine はプレビュー版であり、料金は近日発表予定です

          データ コンピューティング単位(DCU)

          説明

          DCU の料金の詳細は近日発表予定です


          価格(米ドル)

          近日提供予定

          Lightning Engine(プレビュー版)の料金は近日中に発表されます。

          料金計算ツール

          リージョン固有の料金と手数料を含む、毎月の費用を試算できます。

          カスタムの見積もり

          カスタム見積もりをご希望の場合は、Google のセールスチームにお問い合わせください。

          概念実証を開始する

          Spark ジョブを高速化

          大規模なプロジェクトがある場合は、

          Apache Spark 向け Google Cloud サーバーレスの詳細

          Apache Spark 向け Lightning Engine を使用するタイミング

          Lightning Engine Spark ワークロードのチューニング

          • Google Cloud プロダクト
          • 100 種類を超えるプロダクトをご用意しています。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。また、すべてのお客様に 25 以上のプロダクトを無料でご利用いただけます(毎月の使用量上限があります)。
          Google Cloud