Dataproc は、Apache Hadoop、Apache Spark、Apache Flink、Trino などのオープンソース分散処理プラットフォームを実行するためのフルマネージドで拡張性の高いサービスです。以下のセクションで説明するツールとファイルを使用して、Dataproc クラスタとジョブの調査、トラブルシューティング、モニタリングを行うことができます。
Gemini Cloud Assist による AI を活用した調査(プレビュー)
概要
Gemini Cloud Assist Investigations のプレビュー機能は、Gemini の高度な機能を使用して、Dataproc クラスタとジョブの作成と実行を支援します。この機能は、失敗したクラスタと、失敗したジョブや実行速度の遅いジョブを分析して根本原因を特定し、修正を推奨します。これにより、レビュー、保存、 Google Cloud サポートとの共有が可能な持続的な分析を実施し、コラボレーションの促進と迅速な問題解決を行うことができます。
機能
この機能を使用して、 Google Cloud コンソールから調査を作成します。
- 調査を作成する前に、自然言語のコンテキストの説明を問題に追加します。
- 失敗したクラスタ、処理の遅いジョブや失敗したジョブを分析します。
- 推奨の修正方法に従って問題の根本原因を特定します。
- 調査の完全なコンテキストが添付された Google Cloud サポートケースを作成します。
始める前に
調査機能の使用を始める前に、 Google Cloud プロジェクトで Gemini Cloud Assist API を有効にします。
調査を作成する
調査の作成手順は次のとおりです。
Google Cloud コンソールで、[Cloud Assist の調査] ページに移動します。
[
作成] をクリックします。内容を具体的に入力してください: クラスタまたはジョブの問題の説明を入力します。
期間の選択: 問題が発生した期間を指定します(デフォルトは 30 分)。
リソースを選択:
- [
- [クイック フィルタ] フィールドに「dataproc」と入力し、フィルタとして
dataproc.Batch
、dataproc.Job
、dataproc.Cluster
のいずれかを選択するか、この中の複数を選択します。 - リストから調査するバッチ、ジョブ、クラスタを選択します。
リソースを追加] をクリックします。
- [クイック フィルタ] フィールドに「dataproc」と入力し、フィルタとして
- [
[作成] をクリックします。
調査結果を解釈する
調査が完了すると、[調査の詳細] ページが開きます。このページには、Gemini の完全な分析結果が表示されます。分析結果は次のセクションに整理されています。
- 問題: 調査中のジョブの詳細が自動的に入力されます。このセクションは折りたたみ可能です。
- 関連する観察結果: ログと指標の分析中に Gemini が検出した重要なデータポイントと異常値が一覧表示されます。このセクションは折りたたみ可能です。
- 仮説: メインのセクション。デフォルトでは開いた状態で表示されます。検出された問題の根本原因の候補が一覧表示されます。仮説には次の情報が含まれます。
- 概要: 考えられる原因の説明。たとえば、「シャッフル書き込み時間が長く、タスクの偏りが発生する可能性がある」など。
- 推奨する修正: 潜在的な問題に対処するための実行可能な手順のリスト。
対処
仮説と推奨事項を確認したら、次の操作を行います。
提案された修正を 1 つ以上のジョブ構成またはコードに適用し、ジョブを再実行します。
パネルの上部にある高評価アイコンまたは低評価アイコンをクリックして、調査の有用性に関するフィードバックを送信します。
調査結果を確認してエスカレーションする
以前に実行した調査の結果を確認するには、[Cloud Assist の調査] ページで調査名をクリックして、[調査の詳細] ページを開きます。
さらにサポートが必要な場合は、 Google Cloud サポートケースを登録します。このプロセスにより、サポート エンジニアは、Gemini によって生成された観察結果や仮説など、以前に実施された調査の完全なコンテキストを取得できます。このコンテキストの共有により、サポートチームとのやり取りが大幅に減り、ケースの解決が迅速になります。
調査からサポートケースを作成するには:
[調査の詳細] ページで [サポートをリクエスト] をクリックします。
プレビュー版のステータスと料金
公開プレビュー版の間、Gemini Cloud Assist の調査は無料です。この機能は、一般提供(GA)された時点で料金が発生します。
一般提供後の料金の詳細については、Gemini Cloud Assist の料金をご覧ください。
オープンソースのウェブ インターフェース
Apache Hadoop や Apache Spark など、Dataproc クラスタの多くのオープンソース コンポーネントにはウェブ インターフェースが用意されています。これらのインターフェースを使用して、クラスタ リソースとジョブのパフォーマンスをモニタリングできます。たとえば、YARN Resource Manager UI を使用して、Dataproc クラスタでの YARN アプリケーション リソースの割り当てを表示できます。
永続的履歴サーバー
クラスタで実行されているオープンソース ウェブ インターフェースは、クラスタの実行中は使用できますが、クラスタを削除すると終了します。クラスタの削除後にクラスタとジョブデータを表示するには、永続履歴サーバー(PHS)を作成します。
例: 分析するジョブエラーや速度低下が発生した場合。ジョブクラスタを停止または削除してから、PHS を使用してジョブ履歴データを表示して分析します。
PHS を作成したら、クラスタの作成時またはバッチ ワークロードの送信時に、Dataproc クラスタまたはGoogle Cloud Apache Spark 用 Serverless バッチ ワークロードで有効にします。PHS は、複数のクラスタで実行されるジョブの履歴データにアクセスできるため、異なるクラスタで実行されている個別の UI をモニタリングするのではなく、プロジェクト全体のジョブをモニタリングできます。
Dataproc のログ
Dataproc は、クラスタ上で実行されている Apache Hadoop、Spark、Hive、Zookeeper などのオープンソース システムによって生成されたログを収集し、Logging に送信します。これらのログはログのソースに基づいてグループ化されているため、関心のあるログを選択して表示できます。たとえば、クラスタで生成された YARN NodeManager ログと Spark Executor ログは別々にラベル付けされます。Dataproc ログの内容とオプションの詳細については、Dataproc ログをご覧ください。
Cloud Logging
Logging は、フルマネージドでリアルタイムのログ管理システムです。 Google Cloud サービスから取り込まれたログのストレージと、ログの大規模な検索、フィルタリング、分析を行うツールを提供します。Dataproc クラスタは、Dataproc サービス エージェントのログ、クラスタ起動ログ、OSS コンポーネント ログ(YARN NodeManager ログなど)を含む複数のログを生成します。
ロギングは、Dataproc クラスタと Apache Spark バッチ ワークロード向けサーバーレスでデフォルトで有効になっています。ログは定期的に Logging にエクスポートされ、クラスタの削除やワークロードの完了後も保持されます。
Dataproc 指標
dataproc.googleapis.com/
の接頭辞が付いた Dataproc クラスタとジョブ指標は、CPU 使用率やジョブ ステータスなどのクラスタのパフォーマンスに関する分析情報を提供する時系列データで構成されます。custom.googleapis.com/
の接頭辞が付いた Dataproc カスタム指標には、YARN running applications
指標などのクラスタ上で実行されているオープンソース システムによって出力された指標が含まれます。Dataproc 指標の分析情報を取得すると、クラスタを効率的に構成できます。指標ベースのアラートを設定すると、すばやく問題を認識して対応できます。
Dataproc クラスタとジョブの指標は、デフォルトで料金なしで収集されます。カスタム指標の収集はお客様に請求されます。クラスタの作成時に、カスタム指標の収集を有効にできます。Apache Spark 向けサーバーレスの Spark 指標の収集は、Spark バッチ ワークロードでデフォルトで有効になっています。
Cloud Monitoring
Monitoring は、クラスタのメタデータと指標(HDFS、YARN、ジョブ、オペレーション指標など)を使用して、Dataproc クラスタとジョブの健全性、パフォーマンス、可用性を可視化します。Monitoring を使用すると、指標の確認、グラフの追加、ダッシュボードの作成、アラートの作成を行えます。
Metrics Explorer
Metrics Explorer を使用して Dataproc 指標を確認できます。Dataproc クラスタ、ジョブ、Serverless for Apache Spark バッチの指標は、Cloud Dataproc Cluster
、Cloud Dataproc Job
、Cloud Dataproc Batch
リソースの下に一覧表示されます。Dataproc カスタム指標は、VM Instances
リソースの Custom
カテゴリに一覧表示されます。
グラフ
Metrics Explorer を使用して、Dataproc 指標を可視化するグラフを作成できます。
例: クラスタで実行されているアクティブな Yarn アプリケーションの数を示すグラフを作成し、フィルタを追加して、クラスタ名またはリージョンで可視化された指標を選択します。
ダッシュボード
複数のプロジェクトとさまざまな Google Cloud プロダクトの指標を使用して、Dataproc クラスタとジョブをモニタリングするダッシュボードを構築できます。Metrics Explorer ページでチャートをクリックして作成し、保存を行うことで、 Google Cloud コンソールの [ダッシュボードの概要] ページからダッシュボードを作成できます。
アラート
Dataproc 指標アラートを作成すると、クラスタまたはジョブの問題をタイムリーに受信できます。
次のステップ
- Dataproc のエラー メッセージのトラブルシューティング方法を確認する。
- Dataproc クラスタの診断データの表示方法を確認する。
- Dataproc のよくある質問を確認する。