Apache Spark は、SQL、ストリーミング、機械学習、グラフ処理用の組み込みモジュールを備えた大規模なデータ処理のための統合分析エンジンです。Spark は、Apache Hadoop、Kubernetes、クラウド上で単独で実行でき、さまざまなデータソースに対応します。Java、Scala、Python(PySpark)、R 向けに豊富な API を提供しているため、幅広いデベロッパーやデータ サイエンティストが利用できます。
Google Cloud では、Apache Spark は「データを AI につなげる」プラットフォームへと変わります。Google Cloud は、サーバーレス オプションや Lightning Engine といったパフォーマンスを強化する画期的な機能を活用することで、従来の Spark デプロイに伴う「チューニング税」を解消します。統合データ / AI プラットフォームへの深い統合により、ユーザーはこれまで以上に迅速に、元データを AI ドリブンなアクションにつなげることができます。
よくある質問として、Apache Spark と Apache Hadoop それぞれの使いどころに関するものがあります。Hadoop は、主に MapReduce パラダイムを使用したディスクを大量に使用するオペレーションに使用されますが、Spark はより柔軟な、(多くの場合)より費用のかかるインメモリ処理アーキテクチャです。Spark は、Hadoop クラスタモードでもスタンドアロン モードでもデプロイできる高速な汎用クラスタ計算エンジンです。両者の機能を理解すれば、ワークロードのレイテンシやメモリ要件に基づいて、どちらを実装するかを決定できるようになります。
Spark のエコシステムには、次の 5 つの主要コンポーネントがあり、それぞれが Google Cloud のインフラストラクチャによって強化されています。
Google Cloud は、データ プロフェッショナルの固有のニーズに対応する専用の環境を提供します。