AI で調査を迅速化: Dataproc と Serverless for Apache Spark で使用できる Gemini Cloud Assist
Anika Kelhanka
Software Engineer
Pardha Saradhi Uppala
Senior Product Manager
※この投稿は米国時間 2025 年 9 月 6 日に、Google Cloud blog に投稿されたものの抄訳です。
Apache Spark は、ほとんどの最新のレイクハウス アーキテクチャに欠かせない重要な要素です。そして、Google Cloud の Dataproc は、Spark アプリケーションを実行するための強力なフルマネージド プラットフォームを提供します。しかし、データ エンジニアやデータ サイエンティストにとって、分散システムにおける障害とパフォーマンス ボトルネックのデバッグは、いまだ克服できない普遍的な課題です。
Spark ジョブを手動でトラブルシューティングするには、さまざまなソースから手がかりを集めて検討する必要があり、対象はドライバとエグゼキュータのログ、Spark UI の指標、構成ファイル、インフラストラクチャのモニタリング ダッシュボードなど多岐にわたります。
この複雑な分析を数分で実行してくれる、専門的なアシスタントがいたらどうでしょうか。
このたび、Spark ワークロードのトラブルシューティングに役立つ Gemini Cloud Assist Investigations の公開プレビュー版がリリースされました。Google Compute Engine 上の Dataproc と Google Cloud Serverless for Apache Spark の両方で利用できる Gemini Cloud Assist は、問題の背景を特定し、実行しやすい明確な推奨事項を提示します。


この機能は Google Cloud コンソールから直接利用でき、調査対象のリソースのページ(例: Google Cloud Serverless for Apache Spark のバッチジョブ リスト、バッチの詳細ページ)、または機能の中心となる Cloud Assist Investigationsリストからアクセスできます。Gemini Cloud Assist は、次のような強力な機能を備えています。
-
データ エンジニア向け: 複雑なジョブの障害を迅速に修正。インテリジェントな要約とプロダクトをまたいだ根本原因分析が優先順位付きでリスト化されるため、問題をすばやく絞り込んで解決できます。
-
データ サイエンティストと ML エンジニア向け: Spark の専門知識なしでパフォーマンスと環境の問題を解決。Gemini がインフラストラクチャと Spark のエキスパートとして必要なときにいつでも支援してくれるため、モデルに集中できます。
-
サイト信頼性エンジニア(SRE)向け: 障害の原因がコードにあるのか、インフラストラクチャにあるのかを迅速に特定。Gemini は、さまざまな Google Cloud サービスの指標とログを関連付けることで根本原因を検出し、問題特定にかかる時間を短縮します。
-
ビッグデータ アーキテクトとテクニカル マネージャー向け: チームの効率とプラットフォームの信頼性を改善。Gemini を使用すると、新メンバーがより早くチームに貢献できるようになり、自然言語での問題の説明やサポートケースの作成にも役立ちます。
Gemini Cloud Assist には、API から直接、またはその他のインターフェースからもアクセスできます。
Spark ジョブのデバッグに内在する課題
Spark アプリケーションは、高度に分散されたシステムのあらゆる場所で障害が発生しうるという性質上、デバッグが複雑です。問題は一般に 2 つのカテゴリに分けられ、1 つ目は明白なジョブの失敗、2 つ目はより厄介で微妙なパフォーマンス ボトルネックです。さらに、クラウド インフラストラクチャの問題が原因でワークロードが失敗し、調査が複雑になることもあります。
Gemini Cloud Assist は、これらの課題すべてに正面から対処します。
Gemini Cloud Assist: AI を活用したオペレーション エキスパート
Gemini によって、一般的な実際のシナリオの調査プロセスがどのように変わるかを見てみましょう。
例 1: パフォーマンスのボトルネックがある遅いジョブ
最も難しい問題としてよくあるのは、明白な障害ではなく、パフォーマンスのボトルネックです。ジョブの実行が遅いと、サービスレベル目標(SLO)に影響が及ぶとともに、費用も増加する可能性があります。しかし、エラーログなしで原因を診断するには Spark に関する深い専門知識が必要になります。
たとえば、重要なバッチジョブが成功したものの、予想よりもはるかに時間がかかったとします。失敗メッセージは表示されず、パフォーマンスが低かったというだけです。
人手による調査では、Spark UI で詳細な分析を行う必要があり、ジョブを遅らせているタスクを手動で探さなければなりません。また、メモリ不足やデータスキューの兆候を見つけるために、複数のタスクレベルの指標を分析するプロセスも必要です。
Gemini のアシスト機能を活用した場合
[調査] をクリックすると、パフォーマンス指標の複雑な分析が自動的に実行され、ボトルネックの概要が表示されます。


Gemini は必要に応じて頼れるパフォーマンスの専門家です。開発者のワークフローを補完して、Spark の内部構造のスペシャリストでなくてもワークロードを調整できるよう支援してくれます。
例 2: インフラストラクチャのサイレント障害
Spark ジョブやクラスタが、基盤となるクラウド インフラストラクチャや統合されているサービスの問題によって失敗することがあります。これらの問題は、根本原因がアプリケーション ログではなく、基盤となるプラットフォームの見落としやすい一行のログに記録されていることが多いため、デバッグが困難です。
GPU を使用するように構成されたクラスタが予期せず停止したとします。
手動での調査は、アプリケーション エラーのクラスタログを確認することから始まります。エラーが見つからない場合は、次に他の Google Cloud サービスを調査します。これには、プラットフォームの問題(リソース割り当て量の超過など)が発生していないか、Cloud Audit Logs を検索したりモニタリング ダッシュボードを確認したりすることが含まれます。
Gemini のアシスト機能を活用した場合
[調査] ボタンをクリックするだけで、クラスタのログの確認にとどまらない、プロダクトをまたいだ分析が始まります。Gemini は、リソース割り当ての枯渇などの根本原因を迅速に特定し、対応策を提示します。


Gemini がアプリケーションとプラットフォームのギャップを埋めてくれるため、何時間もかけて複数サービスの広範な調査を行わずにすみます。
今すぐ使ってみる
デバッグにかかる時間を短縮し、その分を構築とイノベーションに投資しませんか。Compute Engine 上の Dataproc と Google Cloud Serverless for Apache Spark で、ビッグデータ オペレーションの専門家アシスタントとして Gemini Cloud Assist を活用しましょう。
今すぐ Gemini Cloud Assist をご利用ください。
こちらで、Compute Engine 上の Dataproc と Google Cloud Serverless for Apache Spark で利用できる Gemini Cloud Assist について詳細をご確認いただけます。
-ソフトウェア エンジニア Anika Kelhanka
-シニア プロダクト マネージャー Pardha Saradhi Uppala