ディスクの健全性をモニタリングする


Persistent Disk ボリュームまたは Google Cloud Hyperdisk ボリュームの健全性を確認するには、ディスク パフォーマンス ステータスの指標を確認します。この指標は、ディスクのパフォーマンスが Compute Engine 内の悪影響を受ける可能性があるかどうかを示します。

ディスク パフォーマンスのステータスに影響する問題は、プロジェクトの Personal Service Health(PSH)ダッシュボードまたは Google Cloud Service Health ダッシュボードにも表示される場合があります。

このドキュメントでは、ディスクのパフォーマンス ステータスと、パフォーマンスの問題のトラブルシューティングに使用する方法について説明します。

ディスクの状態を確認するタイミング

ディスクのパフォーマンスの問題に気付いた場合は、ディスク パフォーマンス ステータス指標を確認してディスクの状態を確認します。ディスク パフォーマンス ステータス指標は毎分更新され、直前の 1 分間のディスク パフォーマンスを表します。ディスクの健全性を確認する手順については、ディスクのパフォーマンス ステータスを表示するをご覧ください。

次の表に、ディスク パフォーマンス ステータスの有効な値を示します。

ステータス 意味
Healthy ディスク パフォーマンスは想定どおりです。
Degraded 一時的に I/O レイテンシが想定よりも高くなることがあります。
Severely degraded I/O レイテンシが高い、またはその他のエラーが発生している。

パフォーマンス ステータスが Healthy でない場合は、各ステータスの意味を参照して次のステップに進みます。

パフォーマンス ステータスが Healthy の場合、ディスクは正常に機能しています。パフォーマンスの問題の他の原因を確認する必要があります。アプリケーションまたはオペレーティング システムのエラーがないか確認し、ディスクが正しく最適化されていることを確認する必要があります。最適化のガイドラインについては、Hyperdisk を最適化するPersistent Disk を最適化するをご覧ください。

ディスクの健全性が他のディスク パフォーマンス指標とどのように関連しているか

パフォーマンス ステータス指標で示されるディスクの健全性は、Google の視点から見たディスクの内部ステータスを示します。ディスクのステータスが Degraded または Severely Degraded の場合、根本原因は常に Compute Engine インフラストラクチャ内にあります。

通常、ワークロードを変更してもディスクの状態を変更することはできません。ただし、まれにワークロードの変更が内部の問題を引き起こす可能性があるため、ワークロードを変更することで問題を軽減できる場合があります。

使用可能な他のディスク パフォーマンス指標については、ディスク パフォーマンス指標を確認するをご覧ください。

ディスク パフォーマンスのステータスに影響しないシナリオ

ディスク パフォーマンスのステータスは、次の要因によって発生するパフォーマンスの問題とは関係ありません。

  • ディスクの最適化が不完全または不十分
  • ディスクとマシンタイプに関連付けられたパフォーマンスの上限(選択したマシンタイプがワークロードのパフォーマンス要件を満たせない場合)
  • ワークロード トラフィックによるディスクの負荷の増加
  • ユーザー、アプリ、オペレーティング システムのエラー
  • ディスクの空き容量がない、またはディスクが破損している
  • Hyperdisk と Extreme Persistent Disk ボリュームの場合、IOPS またはスループットが十分にプロビジョニングされていません。

このような状況では、ディスクの最適化、ワークロードのスケールアップ、マシンタイプの変更、容量、IOPS、スループットの増加プロビジョニングなど、パフォーマンスを改善する責任はお客様にあります。

Cloud Monitoring でディスクの状態を表示する

ディスクの状態を表示するには、Metrics Explorer でグラフを作成します。

必要なロールと権限

ディスク パフォーマンス ステータス指標の確認に必要な権限を取得するには、プロジェクトに対する次の IAM ロールを付与するよう管理者に依頼してください。

ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。

Metrics Explorer でグラフを作成する

グラフを作成するには、メニュー ドリブン インターフェース、 Monitoring Query Language(MQL)、または PromQL を使用してクエリを作成します。

1 つ以上のディスクの状態をグラフで表示する手順は次のとおりです。
  1. Google Cloud コンソールで、[Metrics Explorer] ページに移動します。

    Metrics Explorer に移動

    検索バーを使用してこのページを検索する場合は、小見出しが [Monitoring] の結果を選択します。

  2. [指標] 要素の [指標を選択] メニューを開いてフィルタバーに「VM Instance」と入力し、サブメニューを使用して特定のリソースタイプと指標を選択します。
    1. [有効なリソース] メニューで、[VM インスタンス] を選択します。
    2. [Active metric categories] メニューで、[Instance] を選択します。
    3. [有効な指標] メニューで、[ディスク パフォーマンスのステータス] を選択します。
    4. [適用] をクリックします。
    この指標の完全修飾名は compute.googleapis.com/instance/disk/performance_status です。
  3. データの表示方法を構成します。
    集計を無効にします。[集計] 要素で、最初のメニューが [未集計] に設定され、2 つ目のメニューが [なし] に設定されていることを確認します。
    特定のディスクの状態を表示するには、device_name でフィルタします。

    グラフの構成の詳細については、Metrics Explorer 使用時の指標の選択をご覧ください。

MQL

  1. クエリエディタを開きます。MQL クエリを作成するの手順に沿って操作します。

  2. クエリエディタにクエリを入力します。たとえば、特定のディスクのパフォーマンス ステータスを表示するには、次のクエリを入力します。

        fetch gce_instance
        | metric 'compute.googleapis.com/instance/disk/performance_status'
        | filter metric.device_name == 'DISK_NAME'
        | group_by 1m,
            [value_performance_status_fraction_true:
              fraction_true(value.performance_status)]
        | every 1m
      

    DISK_NAME は、ディスク名に置き換えます(例: disk-1)。

PromQL

  1. クエリエディタを開きます。PromQL クエリを作成するの手順に沿って操作します。

  2. クエリエディタにクエリを入力します。たとえば、特定のディスクのパフォーマンス ステータスを表示するには、次のクエリを入力します。

  last_over_time
    (compute_googleapis_com:instance_disk_performance_status
      {monitored_resource="gce_instance",
        project_id ="PROJECT_ID",
        device_name="DISK_NAME"}[${__interval}])

DISK_NAME は、ディスク名に置き換えます(例: disk-1)。

結果をグラフで表示すると、ディスクごとに 3 本の線が表示されます。これは、考えられるステータスごとに 1 本です。同様に、クエリ結果をテーブルで表示すると、テーブルにはディスクごとに 3 つの行が表示されます。

PromQL または MQL でクエリを作成した場合、各行の値は 1 または 0 になります。メニューで作成されたクエリの場合、値は 100% または 0 です。

ディスクの現在の状態は、値が 100% または 1 の行または線で表されます。

たとえば、次のスクリーンショットは、ステータスが Healthya-test-VM という名前のディスクのグラフを示しています。

ディスクのステータスが正常なグラフを示すスクリーンショット

クエリ結果をテーブルとして表示すると、次の表は Healthy のディスクの結果の例です。

performance_status
Healthy 1
Degraded 0
Severely Degraded 0

次のスクリーンショットは、ステータスが [Degraded] の replica-23509 というディスクのグラフを示しています。 ディスクのステータスが「低下」のグラフを示すスクリーンショット

各パフォーマンス ステータスの意味については、各ステータスの意味をご覧ください。グラフを作成したら、グラフをダッシュボードに保存して後で使用できます。

小数値の結果

クエリに小数値の結果が含まれている場合(次の表を参照)、通常は選択した表示期間が長すぎることが原因です。その結果、Cloud Monitoring は時間の経過とともにデータを集約しました。Healthy ステータスの値が 77% の場合、ディスクのステータスは、選択した表示期間の 77% が Healthy でした。

performance_status
Healthy 77%
Degraded 23%
Severely Degraded 0

ディスクの状態をより詳細に確認するには、表示期間を数時間または数分に設定します。

各ステータスの意味

このセクションでは、各ステータスの意味と、追加の対応が必要になる場合について説明します。

Healthy

Healthy ステータスは、Google から見たディスクの動作が正常であることを示します。

Healthy ディスクのパフォーマンスに問題がある場合は、サポートにお問い合わせにならないでください。代わりに、次の推奨事項を使用してディスクのトラブルシューティングを行います。

  • レイテンシやキュー深度などのディスク パフォーマンス指標を確認します。
  • ワークロードのログと指標で異常やボトルネックを確認します。
  • Persistent Disk を使用している場合は、プロビジョニングされた容量がディスクのパフォーマンス要件を満たしていることを確認します。Hyperdisk ボリュームまたは Extreme Persistent Disk ボリュームを使用している場合は、十分な IOPS とスループットがプロビジョニングされていることを確認します。
  • ディスクを最適化するためのガイドラインに沿って作業していることを確認します。詳細については、Hyperdisk を最適化するPersistent Disk を最適化するをご覧ください。

Degraded

通常、ディスクのステータスが Degraded の場合は、サポートにお問い合わせいただく必要はありませんDegraded status は通常、Compute Engine インフラストラクチャの通常の内部メンテナンスによって発生します。

ステータスが Degraded の間は、ディスクのパフォーマンスに影響がないことに気付かない場合があります。パフォーマンスの問題と Degraded ステータスが時間的に関連している場合でも、パフォーマンスの問題は Degraded ステータスとは関係がない可能性があります。

パフォーマンスの問題が Degraded ステータスによるものである可能性は低いですが、影響は一時的なものです。数分以内にディスクのステータスが Healthy に戻ります。

ディスクにパフォーマンスの問題がない場合は、Degraded ステータスを無視してかまいません。

パフォーマンスの問題が発生した場合の対処方法

ディスクのパフォーマンス ステータスが Degraded で、パフォーマンスの問題が発生している場合は、次の操作を行います。

  1. PSH ダッシュボードで、ディスクに影響するインシデントがあるかどうかを確認します。インシデントが発生した場合は、Google が認識しており、問題の解決に取り組んでいるため、サポートに連絡しないでください。
  2. 既知の問題がない場合は、パフォーマンスの問題が自然に解決するまで 5 分以上待ちます。
  3. 5 分経過してもパフォーマンスの問題が解決せず、ステータスが Degraded のままである場合は、ディスクの最適化が不十分なためにパフォーマンスの問題が発生していないことを確認します。たとえば、ディスクのレイテンシとキューの深さを確認します。パフォーマンスの問題と Degraded ステータスは無関係で、偶然一致している可能性があります。これを行うには、ディスクの指標パフォーマンスの最適化に関するガイドラインを確認します。

  4. パフォーマンスの問題が解決せず、以下の条件がすべて満たされている場合は、サポートにお問い合わせください。

    • ディスクのステータスが 5 分以上 Degraded になっている
    • ディスクを最適化し、ボトルネックやアプリケーションのオーバーロードなどの他の問題がないことを確認したため、ワークロードの問題ではないと合理的に確信している
    • PSH ダッシュボードにアラートが表示されない

Degraded ステータスに対して直接アラートを作成することはおすすめしません。代わりに、より上位のアプリケーション ステータスに対してアラートを作成し、この指標を使用して問題をデバッグすることをおすすめします。

Severely Degraded

パフォーマンス ステータスが Severely Degraded のディスクにはパフォーマンスの問題が発生しています。この問題は、インシデントまたはエラーが原因で発生している可能性があり、PSH ダッシュボードまたは Google Cloud Service Health ダッシュボードにすでに表示されている可能性があります。

必要なご対応

ディスクのパフォーマンス ステータスが Severely Degraded の場合は、次の手順を行います。

  1. PSH ダッシュボードと一般的な Google Cloud のヘルス ダッシュボードで、ディスクに影響するインシデントを確認します。インシデントが発生した場合は、Google が認識しており、問題の解決に取り組んでいるため、サポートに連絡しないでください。
  2. 両方のダッシュボードに既知の問題がない場合は、サポートにお問い合わせください。

ディシジョン ツリー

次の図は、ディスクにパフォーマンスの問題がある場合に行うべき手順を示しています。また、前のセクションで説明した情報をまとめたものです。

ディスク パフォーマンス ステータス指標を解釈するために必要な手順を示すフローチャート。

フローチャートのように、PSH と Cloud サービスのダッシュボードに既知のアラートがないか、ディスクのステータスが Severely Degraded である場合にのみ、サポートにお問い合わせください。ディスクが Degraded の場合は、次の条件がすべて満たされている場合にのみ、サポートにお問い合わせください。

  • ディスクが 5 分以上 Degraded になっている
  • ワークロードのエラーや構成ミス(ネットワークの問題など)を除外した
  • アプリケーション、ワークロード、ディスク レベルで追加の最適化を実行できない
  • ディスクのすべての指標を確認した
  • ワークロードと仮想マシン(VM)のログを確認した

次のステップ