Apache Spark とは

Apache Spark は、SQL、ストリーミング、機械学習、グラフ処理用の組み込みモジュールを備えた大規模なデータ処理のための統合分析エンジンです。Spark は、Apache Hadoop、Kubernetes、クラウド上で単独で実行でき、さまざまなデータソースに対応します。Java、Scala、Python(PySpark)、R 向けに豊富な API を提供しているため、幅広いデベロッパーやデータ サイエンティストが利用できます。

Google Cloud では、Apache Spark は「データを AI につなげる」プラットフォームへと変わります。Google Cloud は、サーバーレス オプションや Lightning Engine といったパフォーマンスを強化する画期的な機能を活用することで、従来の Spark デプロイに伴う「チューニング税」を解消します。統合データ / AI プラットフォームへの深い統合により、ユーザーはこれまで以上に迅速に、元データを AI ドリブンなアクションにつなげることができます。

Apache Spark と Apache Hadoop の違い

よくある質問として、Apache Spark と Apache Hadoop それぞれの使いどころに関するものがあります。Hadoop は、主に MapReduce パラダイムを使用したディスクを大量に使用するオペレーションに使用されますが、Spark はより柔軟な、(多くの場合)より費用のかかるインメモリ処理アーキテクチャです。Spark は、Hadoop クラスタモードでもスタンドアロン モードでもデプロイできる高速な汎用クラスタ計算エンジンです。両者の機能を理解すれば、ワークロードのレイテンシやメモリ要件に基づいて、どちらを実装するかを決定できるようになります。

Apache Spark のエコシステムとコンポーネント

Spark のエコシステムには、次の 5 つの主要コンポーネントがあり、それぞれが Google Cloud のインフラストラクチャによって強化されています。

  • Spark Core: 基盤となる実行エンジンとして、分散タスクの割り当てや I/O 処理を管理します。Spark Core は、Resilient Distributed Datasets(RDD)という概念を導入しました。RDD は、耐障害性で並列処理できるオブジェクトの不変的な分散コレクションです。
  • Spark SQL: DataFrames を使用して構造化データを処理するモジュールです。Google Cloud は Lightning Engine でこれらのオペレーションをさらに高速化し、手動チューニングなしで大幅な高速化を実現します。
  • Spark Streaming: バッチジョブとリアルタイム ジョブの両方で、スケーラブルでフォールト トレラントなストリーミング ソリューションを実現します。
  • MLlib: スケーラブルな機械学習ライブラリです。Vertex AI と組み合わせることで、MLlib ワークフローを MLOps パイプラインにシームレスに統合でき、コーディングやトラブルシューティングに Gemini を活用して開発作業を効率化できます。
  • GraphX: グラフおよびグラフ並列計算用の API です。

データ サイエンティストやエンジニアのニーズに対応

Google Cloud は、データ プロフェッショナルの固有のニーズに対応する専用の環境を提供します。

  • BigQuery Studio での統合開発: データ サイエンティストは、BigQuery Studio ノートブックで Spark コードを直接作成して実行できます。これにより、単一のクエリ可能なメタデータ サービスを使用して、Spark と BigQuery 全体でエクスペリエンスを統合できます。
  • Gemini による AI を活用した生産性向上: Gemini を活用して、複雑な PySpark ジョブのライフサイクル全体(開発、デプロイ、モニタリング、トラブルシューティングなど)を支援します。
  • ゼロオペレーションのサーバーレス実行: クラスタの管理に伴う運用上の負担を軽減します。サーバーレス Spark では、単一のコマンドを送信するだけで、Google Cloud が関連するタスクを処理します。ユーザーがクラスタの作成、設定、管理を行う必要はありません。
  • 統合ガバナンス: Dataplex Universal Catalog を使用してデータと AI のガバナンスを管理します。エージェントにセマンティクスを提供して、データの取り込みから AI ドリブンな分析情報に至るまで、一貫したデータ ライフサイクルを確保します。

参考情報

次のステップ

$300 分の無料クレジットと 20 以上の無料枠プロダクトを活用して、Google Cloud で構築を開始しましょう。

  • Google Cloud プロダクト
  • 100 種類を超えるプロダクトをご用意しています。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。また、すべてのお客様に 25 以上のプロダクトを無料でご利用いただけます(毎月の使用量上限があります)。
Google Cloud