コンテンツに移動
コンピューティング

Regional Persistent Disk のモニタリングを極める: RPO=0 になる条件を把握する方法

2023年11月30日
Google Cloud Japan Team

※この投稿は米国時間 2023 年 11 月 18 日に、Google Cloud blog に投稿されたものの抄訳です。

Google Cloud 上でミッション クリティカルなワークロードの実行状態を常に把握できたらすばらしいと思いませんか。このブログ投稿をご覧になっている方の中には、アプリケーションの規制遵守を任されているコンプライアンス担当者の方や、アプリケーションがクラウド上でスムーズに実行されるようオブザーバビリティを重視しているクラウド管理者の方もいらっしゃると思います。

Google Cloud は、ミッション クリティカルなワークロードを念頭に置いて Regional Persistent Disk を構築し、2 つの Google Cloud アベイラビリティ ゾーン間で書き込みの同期レプリケーション(RPO = 0)を利用して高可用性を実現しています。このたびは、高可用性に関する継続的なイノベーションの一環として、Regional Persistent Disk のレプリケーション状態ダッシュボードと、レプリカ状態の Cloud Monitoring 指標を導入しましたのでお知らせいたします。この 2 つの新機能により、Regional Persistent Disk のレプリケーション状態をモニタリングして分析情報を取得できます。

Regional Persistent Disk のレプリケーション状態をモニタリングする利点

  1. 高可用性のコンプライアンス監査のためのモニタリング: Regional Persistent Disk は、厳格な高可用性コンプライアンス目標が関連付けられたミッション クリティカルなワークロード(MySQL、SQL Server、Elasticsearch など)のプライマリ ストレージとして広く使用されています。コンプライアンス監査は定期的に実施され、こうした目標に求められる可用性と復元力の基準を、ワークロードとその基盤となるインフラストラクチャが満たしているかどうかが検証されます。現在と過去のレプリケーション状態を定期的にモニタリングする Regional Persistent Disk の機能がなければ、アプリケーションとワークロードが目標を満たしていることを Google Cloud ユーザーが正確に証明するのは困難だったでしょう。
  2. 高可用性のコンプライアンス維持のためのモニタリング: Google Cloud ユーザーは、コンプライアンス レポートのためにレプリケーションの状態を定期的にモニタリングすることに加え、アプリケーションと Regional Persistent Disk に保存されているデータの高可用性およびレプリケーション基準を維持し続けたいと考えています。レプリケーション基準を維持するには、ユーザーがレプリケーションの状態を調べて基準が満たされていることを絶えず確認し続ける必要があるため、困難が伴います。こうした場合に、レプリケーションの状態がコンプライアンスに影響を及ぼす状態に変化したときにトリガーされるプロアクティブなアラート メカニズムがあれば、コンプライアンス維持のプロセスが大幅に効率化されるはずです。

Regional Persistent Disk によって、こうした利点がミッション クリティカルなワークロードにどのようにもたらされるかを詳しく見ていきましょう。

レプリケーション状態: クイックガイド

Regional Persistent Disk によって利点が得られる仕組みについて深く掘り下げる前に、さまざまなレプリケーションの状態と、その状態が重要である理由を理解しておきましょう。Regional Persistent Disk では、同じリージョン内の異なる Google Cloud ゾーンにある 2 つのレプリカにデータが同期的に複製されます。個々のレプリカの状態に応じて、Regional Persistent Disk ボリュームは次のいずれかのレプリケーション状態になります。

  1. 完全に複製済み: 両方のゾーンのレプリカが利用可能であり、RPO=0 で完全に複製されています。この状態では、ゾーンの問題によって仮想マシンをもう一方の複製されたゾーンにフェイルオーバーする必要がある場合でも、ユーザーにデータ損失が発生しません。これは、厳格な高可用性コンプライアンス目標がある組織にとって最適なレプリケーション状態です。
  2. デグレード(劣化)状態: レプリカの 1 つがオフラインであり、2 つのレプリカの間でデータが複製されていません。この状態でもう一方のレプリカにゾーンエラーが発生した場合、高い確率でディスクの可用性に影響が及びます。ただし、Persistent Disk プラットフォームが積極的に自己回復を行い、完全に複製済みの状態に可能な限り早く戻ろうとするため、ディスクがこの状態に長時間留まることは通常ありません。もう一方のレプリカの障害によってデータが利用できなくなることを避けるには、スナップショットまたは Persistent Disk の非同期レプリケーションを有効にすることをおすすめします。
  3. 最新情報のチェック中: レプリケーションの自己回復が可能な場合、Regional Persistent Disk はデグレード状態から最新情報のチェック中に変化し、最終的に完全に複製済みになります。この状態は、ディスクの処理がまもなく終わり、「完全に複製済み」となる可能性が高いことを知らせています。

レプリケーション状態の詳細については、レプリケーション状態の公開ドキュメントをご覧ください。

コンプライアンス監査のためのモニタリング

現在と過去の Regional Persistent Disk のレプリケーション状態を確認するには、アタッチされているすべてのディスクの Google Cloud コンソールで、Regional Persistent Disk のレプリケーション状態ダッシュボードを表示します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/2-Figure_1-_The_Regional_Persistent_Disk_R.max-1900x1900.jpg

図 1: Google Cloud コンソール内の Regional Persistent Disk のレプリケーション状態ダッシュボード

このダッシュボードを使用すると、Regional Persistent Disk の 2 つのレプリカのレプリケーション状態を確認できます。値 1 は、レプリカがもう一方のゾーンのレプリカと完全に同期していることを示し、値 0 は、レプリケーションがもう一方のゾーンのレプリカと同期していないことを示します。Regional Persistent Disk を完全に複製するには、両方のレプリカが同期している必要があります。このダッシュボードを使用すると、高可用性コンプライアンスの監査とレポートのために、Regional Persistent Disk の現在および過去のレプリケーション状態を簡単かつ迅速に表示できます。

より複雑な監査の場合は、Cloud Monitoring の Metric Explorer と「Regional Disk Replica State」(リージョン ディスクのレプリカの状態)という Cloud Monitoring の指標を使用して独自のカスタム モニタリング ビューを作成し、各レプリカの状態を詳しく調べます。この指標は 60 日間の時間枠で各レプリカのレプリケーション状態情報を記録し、以下のような分析情報を提供します。

  1. Regional Persistent Disk がレプリケーションのデグレード状態になっている期間。この指標を使用して、高可用性コンプライアンス目標を満たしている期間をユーザーに通知できます。
  2. Regional Persistent Disk のデグレード状態の原因となっている、同期されていないレプリカ。この情報は、ディスクのレプリケーションに関する問題のトラブルシューティングと修正に役立ちます。
https://storage.googleapis.com/gweb-cloudblog-publish/images/3-Figure_2-_Diving_deeper_into_each_replic.max-1700x1700.jpg

図 2: 1 つの Regional Persistent Disk とカスタムの期間について、Metrics Explorer を使用して各レプリカを詳しく調べる

この指標の詳細については、Google Cloud リージョン ディスク レプリカの状態に関するドキュメントをご覧ください。

リージョン ディスク レプリカの状態は Cloud Monitoring の指標であるため、Cloud Monitoring が提供する他の多数のモニタリングおよびオブザーバビリティ機能に組み込んで、次のような広範な監査を行うことができます。

  1. 他の公式 Cloud Monitoring 指標を使用してダッシュボードを作成し、コンピューティングやネットワーキングなどの他のプロダクト指標と組み合わせて包括的なビューを作成する。
  2. Cloud Monitoring の Metrics Explorer を使用して、より柔軟な指標分析で監査をカスタマイズする。
  3. Grafana や Prometheus などの外部モニタリング ツールに指標をエクスポートして、Regional Persistent Disk のレプリケーション状態を組織のオブザーバビリティ ツールに統合する。

コンプライアンス維持のためのモニタリング - プロアクティブなアラート

https://storage.googleapis.com/gweb-cloudblog-publish/images/4-Figure_3-Setting_up_a_proactive_alerting.max-2200x2200.jpg

図 3: リージョン ディスク レプリカの状態指標を使用したプロアクティブなアラート ポリシーの設定

リージョン ディスク レプリカの状態指標のもう一つのメリットは、Cloud Monitoring アラート ポリシーに統合できることです。これにより、SMS、Slack、PagerDuty などの多様なチャネルによる柔軟かつプロアクティブなアラートを、組織インフラストラクチャのニーズに合わせて実現できます。

ディスクが複製されていない状態になった場合や、個々のレプリカの状態が切り替わった場合など、Regional Persistent Disk のレプリケーション状態の変化に関するアラートを設定できるため、高可用性目標のコンプライアンスを追跡し維持しやすくなります。リージョン ディスク レプリカの状態指標を使用したアラート ポリシーの有効化の詳細については、Cloud Monitoring のアラート ポリシーのドキュメントをご覧ください。

早速使ってみましょう

Regional Persistent Disk のレプリケーション状態ダッシュボードとリージョン ディスク レプリカ状態指標を活用して、Regional Persistent Disk の高可用性コンプライアンスに関する分析情報を取得しましょう。ディスクがアタッチされているすべてのプロジェクトでダッシュボードと指標を今すぐご利用になれます。開始方法の詳細については、リージョン ディスクのレプリケーション モニタリングに関するドキュメント ページをご覧ください。

ー プロダクト マネージャー Michael Ng

投稿先