コンテンツに移動
データ分析

AI で調査を迅速化: Dataproc と Serverless for Apache Spark で使用できる Gemini Cloud Assist

2025年9月10日
Anika Kelhanka

Software Engineer

Pardha Saradhi Uppala

Senior Product Manager

Try Gemini 2.5

Our most intelligent model is now available on Vertex AI

Try now

※この投稿は米国時間 2025 年 9 月 6 日に、Google Cloud blog に投稿されたものの抄訳です。

Apache Spark は、ほとんどの最新のレイクハウス アーキテクチャに欠かせない重要な要素です。そして、Google Cloud の Dataproc は、Spark アプリケーションを実行するための強力なフルマネージド プラットフォームを提供します。しかし、データ エンジニアやデータ サイエンティストにとって、分散システムにおける障害とパフォーマンス ボトルネックのデバッグは、いまだ克服できない普遍的な課題です。

Spark ジョブを手動でトラブルシューティングするには、さまざまなソースから手がかりを集めて検討する必要があり、対象はドライバとエグゼキュータのログ、Spark UI の指標、構成ファイル、インフラストラクチャのモニタリング ダッシュボードなど多岐にわたります。

この複雑な分析を数分で実行してくれる、専門的なアシスタントがいたらどうでしょうか。

このたび、Spark ワークロードのトラブルシューティングに役立つ Gemini Cloud Assist Investigations の公開プレビュー版がリリースされました。Google Compute Engine 上の DataprocGoogle Cloud Serverless for Apache Spark の両方で利用できる Gemini Cloud Assist は、問題の背景を特定し、実行しやすい明確な推奨事項を提示します。

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/1_-_gif_-_GCA.gif

この機能は Google Cloud コンソールから直接利用でき、調査対象のリソースのページ(例: Google Cloud Serverless for Apache Spark のバッチジョブ リスト、バッチの詳細ページ)、または機能の中心となる Cloud Assist Investigationsリストからアクセスできます。Gemini Cloud Assist は、次のような強力な機能を備えています。

  • データ エンジニア向け: 複雑なジョブの障害を迅速に修正。インテリジェントな要約とプロダクトをまたいだ根本原因分析が優先順位付きでリスト化されるため、問題をすばやく絞り込んで解決できます。

  • データ サイエンティストと ML エンジニア向け: Spark の専門知識なしでパフォーマンスと環境の問題を解決。Gemini がインフラストラクチャと Spark のエキスパートとして必要なときにいつでも支援してくれるため、モデルに集中できます。

  • サイト信頼性エンジニア(SRE)向け: 障害の原因がコードにあるのか、インフラストラクチャにあるのかを迅速に特定。Gemini は、さまざまな Google Cloud サービスの指標とログを関連付けることで根本原因を検出し、問題特定にかかる時間を短縮します。

  • ビッグデータ アーキテクトとテクニカル マネージャー向け: チームの効率とプラットフォームの信頼性を改善。Gemini を使用すると、新メンバーがより早くチームに貢献できるようになり、自然言語での問題の説明やサポートケースの作成にも役立ちます。

Gemini Cloud Assist には、API から直接、またはその他のインターフェースからもアクセスできます。

Spark ジョブのデバッグに内在する課題

Spark アプリケーションは、高度に分散されたシステムのあらゆる場所で障害が発生しうるという性質上、デバッグが複雑です。問題は一般に 2 つのカテゴリに分けられ、1 つ目は明白なジョブの失敗、2 つ目はより厄介で微妙なパフォーマンス ボトルネックです。さらに、クラウド インフラストラクチャの問題が原因でワークロードが失敗し、調査が複雑になることもあります。

Gemini Cloud Assist は、これらの課題すべてに正面から対処します。

問題領域

一般的な問題

Gemini Cloud Assist の活用方法

インフラストラクチャ

権限の問題、ネットワーキング エラー、リソースの枯渇

Google Cloud サービス全体にわたる幅広いデータ(指標、構成、ログなど)を分析して関連付け、インフラストラクチャの問題の根本原因を特定して、明確な解決策を提示します。

構成

リソースのプロビジョニング不足、構成のミス

Spark とクラスタの構成が不適切または不十分な場合にそのことを自動的に特定し、ワークロードに適した設定を推奨します。

アプリ

アプリケーション ロジック関連の問題、非効率的なコードとアルゴリズム

アプリケーション ログ、Spark 指標、パフォーマンス データを分析してコードエラーやパフォーマンスのボトルネックを診断し、それらを修正するための実用的な推奨事項を提示します。

データ

ステージ / タスクの失敗、データ関連の問題

Spark の指標とログを分析して、データスキューなどのデータ関連の問題を特定し、パフォーマンスと安定性を高めるための実用的な推奨事項を提示します。

Gemini Cloud Assist: AI を活用したオペレーション エキスパート

Gemini によって、一般的な実際のシナリオの調査プロセスがどのように変わるかを見てみましょう。

例 1: パフォーマンスのボトルネックがある遅いジョブ

最も難しい問題としてよくあるのは、明白な障害ではなく、パフォーマンスのボトルネックです。ジョブの実行が遅いと、サービスレベル目標(SLO)に影響が及ぶとともに、費用も増加する可能性があります。しかし、エラーログなしで原因を診断するには Spark に関する深い専門知識が必要になります。 

たとえば、重要なバッチジョブが成功したものの、予想よりもはるかに時間がかかったとします。失敗メッセージは表示されず、パフォーマンスが低かったというだけです。

人手による調査では、Spark UI で詳細な分析を行う必要があり、ジョブを遅らせているタスクを手動で探さなければなりません。また、メモリ不足やデータスキューの兆候を見つけるために、複数のタスクレベルの指標を分析するプロセスも必要です。

Gemini のアシスト機能を活用した場合

[調査] をクリックすると、パフォーマンス指標の複雑な分析が自動的に実行され、ボトルネックの概要が表示されます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_-_image_-_potential-perofrmance-bottlene.max-1000x1000.png

Gemini は必要に応じて頼れるパフォーマンスの専門家です。開発者のワークフローを補完して、Spark の内部構造のスペシャリストでなくてもワークロードを調整できるよう支援してくれます。

例 2: インフラストラクチャのサイレント障害

Spark ジョブやクラスタが、基盤となるクラウド インフラストラクチャや統合されているサービスの問題によって失敗することがあります。これらの問題は、根本原因がアプリケーション ログではなく、基盤となるプラットフォームの見落としやすい一行のログに記録されていることが多いため、デバッグが困難です。

GPU を使用するように構成されたクラスタが予期せず停止したとします。

手動での調査は、アプリケーション エラーのクラスタログを確認することから始まります。エラーが見つからない場合は、次に他の Google Cloud サービスを調査します。これには、プラットフォームの問題(リソース割り当て量の超過など)が発生していないか、Cloud Audit Logs を検索したりモニタリング ダッシュボードを確認したりすることが含まれます。

Gemini のアシスト機能を活用した場合

[調査] ボタンをクリックするだけで、クラスタのログの確認にとどまらない、プロダクトをまたいだ分析が始まります。Gemini は、リソース割り当ての枯渇などの根本原因を迅速に特定し、対応策を提示します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/3_-_image_-_insufficient-nvidia-l4-gpus-quot.max-800x800.png

Gemini がアプリケーションとプラットフォームのギャップを埋めてくれるため、何時間もかけて複数サービスの広範な調査を行わずにすみます。

今すぐ使ってみる

デバッグにかかる時間を短縮し、その分を構築とイノベーションに投資しませんか。Compute Engine 上の Dataproc と Google Cloud Serverless for Apache Spark で、ビッグデータ オペレーションの専門家アシスタントとして Gemini Cloud Assist を活用しましょう。

今すぐ Gemini Cloud Assist をご利用ください。

こちらで、Compute Engine 上の DataprocGoogle Cloud Serverless for Apache Spark で利用できる Gemini Cloud Assist について詳細をご確認いただけます。

-ソフトウェア エンジニア Anika Kelhanka 

-シニア プロダクト マネージャー Pardha Saradhi Uppala 

投稿先