Dataproc のモニタリング ツールとトラブルシューティング ツール

はじめに

Dataproc は、Apache Hadoop、Apache Spark、Apache Flink、Trino などのオープンソース分散処理プラットフォームを実行するための、フルマネージドでスケーラビリティの高いサービスです。以下のセクションで説明するファイルとツールを使用して Dataproc クラスタとジョブのトラブルシューティングとモニタリングを行うことができます。

オープンソースのウェブ インターフェース

Apache Hadoop や Apache Spark など、Dataproc クラスタの多くのオープンソース コンポーネントにはウェブ インターフェースが用意されています。これらのインターフェースを使用して、クラスタ リソースとジョブのパフォーマンスをモニタリングできます。たとえば、YARN Resource Manager UI を使用して、Dataproc クラスタでの YARN アプリケーション リソースの割り当てを表示できます。

永続的履歴サーバー

クラスタで実行されているオープンソース ウェブ インターフェースは、クラスタの実行中は使用できますが、クラスタを削除すると終了します。クラスタの削除後にクラスタとジョブデータを表示するには、永続履歴サーバー(PHS)を作成します。

例: 分析するジョブエラーや速度低下が発生した場合。ジョブクラスタを停止または削除してから、PHS を使用してジョブ履歴データを表示して分析します。

PHS を作成したら、クラスタの作成時またはバッチ ワークロードの送信時に、Dataproc クラスタまたは Dataproc Serverless バッチ ワークロードで有効にします。PHS は、複数のクラスタで実行されるジョブの履歴データにアクセスできるため、異なるクラスタで実行されている個別の UI をモニタリングするのではなく、プロジェクト全体のジョブをモニタリングできます。

Dataproc のログ

Dataproc は、クラスタで実行されている Apache Hadoop、Spark、Hive、Zookeeper などのオープンソース システムによって生成されたログを収集し、Logging に送信します。これらのログはログのソースに基づいてグループ化されているため、関心のあるログを選択して表示できます。たとえば、クラスタで生成された YARN NodeManager ログと Spark Executor ログは別々にラベル付けされます。Dataproc ログの内容とオプションの詳細については、Dataproc ログをご覧ください。

Cloud Logging

Logging は、フルマネージドでリアルタイムのログ管理システムです。サービスから取り込まれたログのストレージと、ログの大規模な検索、フィルタリング、分析を行うツールを提供します。 Google Cloud Dataproc クラスタは、Dataproc サービス エージェントのログ、クラスタ起動ログ、OSS コンポーネント ログ(YARN NodeManager ログなど)を含む複数のログを生成します。

ロギングは、Dataproc クラスタと Dataproc Serverless バッチ ワークロードでデフォルトで有効になっています。ログは定期的に Logging にエクスポートされ、クラスタの削除後またはワークロードの完了後に保持されます。

Dataproc 指標

dataproc.googleapis.com/ の接頭辞が付いた Dataproc クラスタとジョブ指標は、CPU 使用率やジョブ ステータスなどのクラスタのパフォーマンスに関する分析情報を提供する時系列データで構成されます。custom.googleapis.com/ の接頭辞が付いた Dataproc カスタム指標には、YARN running applications 指標などのクラスタ上で実行されているオープンソース システムによって出力された指標が含まれます。Dataproc 指標の分析情報を取得すると、クラスタを効率的に構成できます。指標ベースのアラートを設定すると、問題を迅速に認識して対応できます。

Dataproc クラスタとジョブの指標は、デフォルトで料金なしで収集されます。カスタム指標の収集はお客様に請求されます。クラスタの作成時に、カスタム指標の収集を有効にできます。Dataproc Serverless Spark 指標のコレクションは、Spark バッチ ワークロードでデフォルトで有効になっています。

Cloud Monitoring

Monitoring は、クラスタのメタデータと指標(HDFS、YARN、ジョブ、オペレーション指標など)を使用して、Dataproc クラスタとジョブの健全性、パフォーマンス、可用性を可視化します。Monitoring を使用すると、指標の確認、グラフの追加、ダッシュボードの作成、アラートの作成を行うことができます。

Metrics Explorer

Metrics Explorer を使用して Dataproc 指標を表示できます。Dataproc クラスタ、ジョブ、サーバーレス バッチの指標は、Cloud Dataproc ClusterCloud Dataproc JobCloud Dataproc Batch リソースの下に一覧表示されます。Dataproc カスタム指標は、VM Instances リソースの Custom カテゴリに表示されます。

チャート

Metrics Explorer を使用して、Dataproc 指標を可視化するグラフを作成できます。

例: クラスタで実行されているアクティブな Yarn アプリケーションの数を示すグラフを作成し、フィルタを追加して、クラスタ名またはリージョンで可視化された指標を選択します。

ダッシュボード

複数のプロジェクトとさまざまなプロダクトの指標を使用して、Dataproc クラスタとジョブをモニタリングするダッシュボードを構築できます。 Google Cloud 。Metrics Explorer ページでチャートをクリックして作成し、保存を行うことで、ダッシュボードの概要ページから、Google Cloud コンソール でダッシュボードを作成できます。

アラート

Dataproc 指標アラートを作成すると、クラスタまたはジョブの問題をタイムリーに通知できます。

追加情報

その他のガイダンスについては、以下をご覧ください。