このページは Cloud Translation API によって翻訳されました。

ディスクの健全性をモニタリングする

Persistent Disk ボリュームまたは Google Cloud Hyperdisk ボリュームの健全性を確認するには、ディスクパフォーマンスステータスの指標を確認します。この指標は、ディスクのパフォーマンスが Compute Engine 内の悪影響を受ける可能性があるかどうかを示します。

ディスクパフォーマンスのステータスに影響する問題は、プロジェクトの Personal Service Health（PSH）ダッシュボードまたは Google Cloud Service Health ダッシュボードにも表示される場合があります。

このドキュメントでは、ディスクのパフォーマンスステータスと、パフォーマンスの問題のトラブルシューティングに使用する方法について説明します。

ディスクの状態を確認するタイミング

ディスクのパフォーマンスの問題に気付いた場合は、ディスクパフォーマンスステータス指標を確認してディスクの状態を確認します。ディスクパフォーマンスステータス指標は毎分更新され、直前の 1 分間のディスクパフォーマンスを表します。ディスクの健全性を確認する手順については、ディスクのパフォーマンスステータスを表示するをご覧ください。

次の表に、ディスクパフォーマンスステータスの有効な値を示します。

ステータス	意味
`Healthy`	ディスクパフォーマンスは想定どおりです。
`Degraded`	一時的に I/O レイテンシが想定よりも高くなることがあります。
`Severely degraded`	I/O レイテンシが高い、またはその他のエラーが発生している。

パフォーマンスステータスが Healthy でない場合は、各ステータスの意味を参照して次のステップに進みます。

パフォーマンスステータスが Healthy の場合、ディスクは正常に機能しています。パフォーマンスの問題の他の原因を確認する必要があります。アプリケーションまたはオペレーティングシステムのエラーがないか確認し、ディスクが正しく最適化されていることを確認する必要があります。最適化のガイドラインについては、Hyperdisk を最適化すると Persistent Disk を最適化するをご覧ください。

ディスクの健全性が他のディスクパフォーマンス指標とどのように関連しているか

パフォーマンスステータス指標で示されるディスクの健全性は、Google の視点から見たディスクの内部ステータスを示します。ディスクのステータスが Degraded または Severely Degraded の場合、根本原因は常に Compute Engine インフラストラクチャ内にあります。

通常、ワークロードを変更してもディスクの状態を変更することはできません。ただし、まれにワークロードの変更が内部の問題を引き起こす可能性があるため、ワークロードを変更することで問題を軽減できる場合があります。

使用可能な他のディスクパフォーマンス指標については、ディスクパフォーマンス指標を確認するをご覧ください。

ディスクパフォーマンスのステータスに影響しないシナリオ

ディスクパフォーマンスのステータスは、次の要因によって発生するパフォーマンスの問題とは関係ありません。

ディスクの最適化が不完全または不十分
ディスクとマシンタイプに関連付けられたパフォーマンスの上限（選択したマシンタイプがワークロードのパフォーマンス要件を満たせない場合）
ワークロードトラフィックによるディスクの負荷の増加
ユーザー、アプリ、オペレーティングシステムのエラー
ディスクの空き容量がない、またはディスクが破損している
Hyperdisk と Extreme Persistent Disk ボリュームの場合、IOPS またはスループットが十分にプロビジョニングされていません。

このような状況では、ディスクの最適化、ワークロードのスケールアップ、マシンタイプの変更、容量、IOPS、スループットの増加プロビジョニングなど、パフォーマンスを改善する責任はお客様にあります。

Cloud Monitoring でディスクの状態を表示する

ディスクの状態を表示するには、Metrics Explorer でグラフを作成します。

必要なロールと権限

ディスクパフォーマンスステータス指標の確認に必要な権限を取得するには、プロジェクトに対する次の IAM ロールを付与するよう管理者に依頼してください。

モニタリング閲覧者（roles/monitoring.viewer）
グラフをダッシュボードに保存するには: モニタリング編集者（roles/monitoring.editor）

ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。

Metrics Explorer でグラフを作成する

グラフを作成するには、メニュードリブンインターフェース、 Monitoring Query Language（MQL）、または PromQL を使用してクエリを作成します。

1 つ以上のディスクの状態をグラフで表示する手順は次のとおりです。

Google Cloud コンソールで、[Metrics Explorer] ページに移動します。
Metrics Explorer に移動

検索バーを使用してこのページを検索する場合は、小見出しが [Monitoring] の結果を選択します。
[指標] 要素の [指標を選択] メニューを開いてフィルタバーに「VM Instance」と入力し、サブメニューを使用して特定のリソースタイプと指標を選択します。
1. [有効なリソース] メニューで、[VM インスタンス] を選択します。
2. [Active metric categories] メニューで、[Instance] を選択します。
3. [有効な指標] メニューで、[ディスクパフォーマンスのステータス] を選択します。
4. [適用] をクリックします。
この指標の完全修飾名は compute.googleapis.com/instance/disk/performance_status です。
データの表示方法を構成します。
集計を無効にします。[集計] 要素で、最初のメニューが [未集計] に設定され、2 つ目のメニューが [なし] に設定されていることを確認します。
特定のディスクの状態を表示するには、device_name でフィルタします。

グラフの構成の詳細については、Metrics Explorer 使用時の指標の選択をご覧ください。

MQL

クエリエディタを開きます。MQL クエリを作成するの手順に沿って操作します。

クエリエディタにクエリを入力します。たとえば、特定のディスクのパフォーマンスステータスを表示するには、次のクエリを入力します。

    fetch gce_instance
    | metric 'compute.googleapis.com/instance/disk/performance_status'
    | filter metric.device_name == 'DISK_NAME'
    | group_by 1m,
        [value_performance_status_fraction_true:
          fraction_true(value.performance_status)]
    | every 1m

DISK_NAME は、ディスク名に置き換えます（例: disk-1）。

PromQL

クエリエディタを開きます。PromQL クエリを作成するの手順に沿って操作します。
クエリエディタにクエリを入力します。たとえば、特定のディスクのパフォーマンスステータスを表示するには、次のクエリを入力します。

  last_over_time
    (compute_googleapis_com:instance_disk_performance_status
      {monitored_resource="gce_instance",
        project_id ="PROJECT_ID",
        device_name="DISK_NAME"}[${__interval}])

DISK_NAME は、ディスク名に置き換えます（例: disk-1）。

結果をグラフで表示すると、ディスクごとに 3 本の線が表示されます。これは、考えられるステータスごとに 1 本です。同様に、クエリ結果をテーブルで表示すると、テーブルにはディスクごとに 3 つの行が表示されます。

PromQL または MQL でクエリを作成した場合、各行の値は 1 または 0 になります。メニューで作成されたクエリの場合、値は 100% または 0 です。

ディスクの現在の状態は、値が 100% または 1 の行または線で表されます。

たとえば、次のスクリーンショットは、ステータスが Healthy の a-test-VM という名前のディスクのグラフを示しています。

ディスクのステータスが正常なグラフを示すスクリーンショット

クエリ結果をテーブルとして表示すると、次の表は Healthy のディスクの結果の例です。

performance_status	値
`Healthy`	`1`
`Degraded`	`0`
`Severely Degraded`	`0`

次のスクリーンショットは、ステータスが [Degraded] の replica-23509 というディスクのグラフを示しています。ディスクのステータスが「低下」のグラフを示すスクリーンショット

各パフォーマンスステータスの意味については、各ステータスの意味をご覧ください。グラフを作成したら、グラフをダッシュボードに保存して後で使用できます。

小数値の結果

クエリに小数値の結果が含まれている場合（次の表を参照）、通常は選択した表示期間が長すぎることが原因です。その結果、Cloud Monitoring は時間の経過とともにデータを集約しました。Healthy ステータスの値が 77% の場合、ディスクのステータスは、選択した表示期間の 77% が Healthy でした。

performance_status	値
`Healthy`	`77%`
`Degraded`	`23%`
`Severely Degraded`	`0`

ディスクの状態をより詳細に確認するには、表示期間を数時間または数分に設定します。

各ステータスの意味

このセクションでは、各ステータスの意味と、追加の対応が必要になる場合について説明します。

`Healthy`

Healthy ステータスは、Google から見たディスクの動作が正常であることを示します。

Healthy ディスクのパフォーマンスに問題がある場合は、サポートにお問い合わせにならないでください。代わりに、次の推奨事項を使用してディスクのトラブルシューティングを行います。

レイテンシやキュー深度などのディスクパフォーマンス指標を確認します。
ワークロードのログと指標で異常やボトルネックを確認します。
Persistent Disk を使用している場合は、プロビジョニングされた容量がディスクのパフォーマンス要件を満たしていることを確認します。Hyperdisk ボリュームまたは Extreme Persistent Disk ボリュームを使用している場合は、十分な IOPS とスループットがプロビジョニングされていることを確認します。
ディスクを最適化するためのガイドラインに沿って作業していることを確認します。詳細については、Hyperdisk を最適化すると Persistent Disk を最適化するをご覧ください。

`Degraded`

通常、ディスクのステータスが Degraded の場合は、サポートにお問い合わせいただく必要はありません。Degraded status は通常、Compute Engine インフラストラクチャの通常の内部メンテナンスによって発生します。

ステータスが Degraded の間は、ディスクのパフォーマンスに影響がないことに気付かない場合があります。パフォーマンスの問題と Degraded ステータスが時間的に関連している場合でも、パフォーマンスの問題は Degraded ステータスとは関係がない可能性があります。

パフォーマンスの問題が Degraded ステータスによるものである可能性は低いですが、影響は一時的なものです。数分以内にディスクのステータスが Healthy に戻ります。

ディスクにパフォーマンスの問題がない場合は、Degraded ステータスを無視してかまいません。

パフォーマンスの問題が発生した場合の対処方法

ディスクのパフォーマンスステータスが Degraded で、パフォーマンスの問題が発生している場合は、次の操作を行います。

PSH ダッシュボードで、ディスクに影響するインシデントがあるかどうかを確認します。インシデントが発生した場合は、Google が認識しており、問題の解決に取り組んでいるため、サポートに連絡しないでください。
既知の問題がない場合は、パフォーマンスの問題が自然に解決するまで 5 分以上待ちます。
5 分経過してもパフォーマンスの問題が解決せず、ステータスが Degraded のままである場合は、ディスクの最適化が不十分なためにパフォーマンスの問題が発生していないことを確認します。たとえば、ディスクのレイテンシとキューの深さを確認します。パフォーマンスの問題と Degraded ステータスは無関係で、偶然一致している可能性があります。これを行うには、ディスクの指標とパフォーマンスの最適化に関するガイドラインを確認します。
パフォーマンスの問題が解決せず、以下の条件がすべて満たされている場合は、サポートにお問い合わせください。
- ディスクのステータスが 5 分以上 Degraded になっている
- ディスクを最適化し、ボトルネックやアプリケーションのオーバーロードなどの他の問題がないことを確認したため、ワークロードの問題ではないと合理的に確信している
- PSH ダッシュボードにアラートが表示されない

Degraded ステータスに対して直接アラートを作成することはおすすめしません。代わりに、より上位のアプリケーションステータスに対してアラートを作成し、この指標を使用して問題をデバッグすることをおすすめします。

`Severely Degraded`

パフォーマンスステータスが Severely Degraded のディスクにはパフォーマンスの問題が発生しています。この問題は、インシデントまたはエラーが原因で発生している可能性があり、PSH ダッシュボードまたは Google Cloud Service Health ダッシュボードにすでに表示されている可能性があります。

必要なご対応

ディスクのパフォーマンスステータスが Severely Degraded の場合は、次の手順を行います。

PSH ダッシュボードと一般的な Google Cloud のヘルスダッシュボードで、ディスクに影響するインシデントを確認します。インシデントが発生した場合は、Google が認識しており、問題の解決に取り組んでいるため、サポートに連絡しないでください。
両方のダッシュボードに既知の問題がない場合は、サポートにお問い合わせください。

ディシジョンツリー

次の図は、ディスクにパフォーマンスの問題がある場合に行うべき手順を示しています。また、前のセクションで説明した情報をまとめたものです。

ディスクパフォーマンスステータス指標を解釈するために必要な手順を示すフローチャート。

フローチャートのように、PSH と Cloud サービスのダッシュボードに既知のアラートがないか、ディスクのステータスが Severely Degraded である場合にのみ、サポートにお問い合わせください。ディスクが Degraded の場合は、次の条件がすべて満たされている場合にのみ、サポートにお問い合わせください。

ディスクが 5 分以上 Degraded になっている
ワークロードのエラーや構成ミス（ネットワークの問題など）を除外した
アプリケーション、ワークロード、ディスクレベルで追加の最適化を実行できない
ディスクのすべての指標を確認した
ワークロードと仮想マシン（VM）のログを確認した

次のステップ

Metrics Explorer でグラフを作成する方法と、グラフにフィルタを追加してクエリ結果を絞り込む方法の詳細を確認する。
個人用 Service Health ダッシュボードと Google Service Health で、アクティブなサービスヘルスイベントと過去のサービスヘルスイベントを確認します。
パフォーマンスの最適化ガイドラインについては、Hyperdisk を最適化すると Persistent Disk を最適化するをご覧ください。

ディスクの健全性をモニタリングする

ディスクの状態を確認するタイミング

ディスクの健全性が他のディスク パフォーマンス指標とどのように関連しているか

ディスク パフォーマンスのステータスに影響しないシナリオ