Dataproc のモニタリング ツールとトラブルシューティング ツール

はじめに

Dataproc は、Apache Hadoop、Apache Spark、Apache Flink、Trino などのオープンソースの分散処理プラットフォームを実行するための、フルマネージドでスケーラビリティの高いサービスです。以下のセクションで説明するファイルとツールを使用して Dataproc クラスタとジョブのトラブルシューティングとモニタリングを行うことができます。

オープンソースのウェブ インターフェース

Apache Hadoop や Apache Spark などの Dataproc クラスタの多くのオープンソース コンポーネントは、ウェブ インターフェースを備えています。これらのインターフェースを使用して、クラスタ リソースとジョブのパフォーマンスをモニタリングできます。たとえば、YARN リソース マネージャー UI を使用して、Dataproc クラスタで YARN アプリケーション リソースの割り当てを表示できます。

永続的履歴サーバー

クラスタで実行されるオープンソースのウェブ インターフェースは、クラスタの実行中にも使用できますが、クラスタを削除すると終了します。クラスタの削除後にクラスタとジョブのデータを表示するには、永続履歴サーバー(PHS)を作成します。

例: 分析するジョブエラーまたは速度低下が発生した場合。ジョブクラスタを停止または削除し、PHS を使用してジョブ履歴データを表示して分析します。

PHS を作成したら、クラスタの作成時またはバッチ ワークロードの送信時に、Dataproc クラスタまたは Dataproc サーバーレス バッチ ワークロードで PHS を有効にします。PHS は、複数のクラスタで実行されているジョブの履歴データにアクセスできます。これにより、異なるクラスタで実行されている個別の UI をモニタリングするのではなく、プロジェクト全体のジョブをモニタリングできます。

Dataproc のログ

Dataproc は、Apache Hadoop、Spark、Hive、Zookeeper などのクラスタで動作しているオープンソース システムによって生成されたログを収集し、Logging に送信します。これらのログは、ログのソースに基づいてグループ化されます。これにより、関心のあるログを選択して表示できます。たとえば、クラスタで生成された YARN NodeManager と Spark Executor のログには個別にラベルが付けられます。Dataproc ログの内容とオプションの詳細については、Dataproc のログをご覧ください。

Cloud Logging

Logging は、フルマネージドのリアルタイム ログ管理システムです。Google Cloud サービスとツールから取り込まれたログのストレージを提供し、大規模なログの検索、フィルタ、分析を行います。Dataproc クラスタは、Dataproc サービス エージェントのログ、クラスタの起動ログ、YARN NodeManager ログなどの OSS コンポーネント ログなど、複数のログを生成します。

Dataproc クラスタと Dataproc Serverless バッチ ワークロードでは、ロギングがデフォルトで有効になります。ログは Logging に定期的にエクスポートされます。Logging は、クラスタが削除されるか、ワークロードが完了した後に保持されます。

Dataproc 指標

dataproc.googleapis.com/ の接頭辞が付いた Dataproc クラスタとジョブ指標は、CPU 使用率やジョブ ステータスなどのクラスタのパフォーマンスに関する分析情報を提供する時系列データで構成されます。custom.googleapis.com/ の接頭辞が付いた Dataproc カスタム指標には、YARN running applications 指標などのクラスタ上で実行されているオープンソース システムによって出力された指標が含まれます。Dataproc の指標から分析情報を得ることで、クラスタを効率的に構成できます。指標ベースのアラートを設定すると、問題をすばやく認識して対処できます。

Dataproc クラスタとジョブの指標は、デフォルトで無料で収集されます。カスタム指標のコレクションはお客様に課金されます。クラスタの作成時にカスタム指標の収集を有効にできます。Dataproc Serverless Spark 指標のコレクションは、Spark バッチ ワークロードでデフォルトで有効になっています。

Cloud Monitoring

Monitoring は、クラスタのメタデータと指標(HDFS、YARN、ジョブ、オペレーション指標など)を使用して、Dataproc クラスタとジョブの健全性、パフォーマンス、可用性を可視化します。Monitoring を使用して、指標の探索、グラフの追加、ダッシュボードの構築、アラートの作成を行うことができます。

Metrics Explorer

Metrics Explorer を使用して、Dataproc の指標を表示できます。Dataproc クラスタ、ジョブ、サーバーレスのバッチ指標は、Cloud Dataproc ClusterCloud Dataproc JobCloud Dataproc Batch の各リソースの下に表示されます。Dataproc のカスタム指標は、VM Instances リソースの Custom カテゴリの下に表示されます。

チャート

Metrics Explorer を使用して、Dataproc の指標を可視化するグラフを作成できます。

例: クラスタで実行されているアクティブな Yarn アプリケーションの数を確認するグラフを作成し、クラスタ名またはリージョンごとに可視化された指標を選択するフィルタを追加します。

ダッシュボード

ダッシュボードを作成すると、複数のプロジェクトやさまざまな Google Cloud プロダクトの指標を使用して Dataproc クラスタとジョブをモニタリングできます。。Metrics Explorer ページでチャートをクリックして作成し、保存を行うことで、ダッシュボードの概要ページから、Google Cloud コンソール でダッシュボードを作成できます。

アラート

Dataproc の指標アラートを作成して、クラスタやジョブの問題を適切なタイミングで通知を受け取ることができます。

追加情報

その他のガイダンスについては、以下をご覧ください。