リソースの冗長性により高可用性システムを構築する

Last reviewed 2024-12-30 UTC

Google Cloud Well-Architected Framework の信頼性の柱にあるこの原則では、障害を回避するためにリソースの冗長性を計画、構築、管理するための推奨事項が示されています。

この原則は、信頼性のスコープ設定重点領域に関連しています。

原則の概要

必要な信頼性のレベルを決定したら、単一障害点を回避するようにシステムを設計する必要があります。システム内のすべての重要なコンポーネントは、複数のマシン、ゾーン、リージョンにレプリケートする必要があります。たとえば、重要なデータベースを 1 つのリージョンにのみ配置することはできません。また、メタデータ サーバーを 1 つのゾーンまたはリージョンにのみデプロイすることはできません。これらの例では、単一のゾーンまたはリージョンが停止すると、システム全体が停止します。

推奨事項

冗長システムを構築するには、次のサブセクションの推奨事項を検討してください。

障害ドメインを特定してサービスを複製する

個々の VM からリージョンまで、システムの障害ドメインをマッピングし、障害ドメイン全体で冗長性を考慮して設計します。

高可用性を実現するには、サービスとアプリケーションを複数のゾーンとリージョンに分散して複製します。ゾーンまたはリージョンが停止した場合にサービスとアプリケーションが引き続き使用できるように、自動フェイルオーバー用にシステムを構成します。

マルチゾーン アーキテクチャとマルチリージョン アーキテクチャの例については、Google Cloud のワークロードに適した信頼性の高いインフラストラクチャを設計する Google Cloudをご覧ください。

問題を迅速に検出して対処する

障害ドメインのステータスを継続的に追跡して、問題を迅速に検出して対処します。

Google Cloud Service Health ダッシュボードを使用すると、すべてのリージョンのサービスの現在のステータスをモニタリングできます。 Google Cloud また、Personalized Service Health を使用して、プロジェクトに関連するインシデントを参照することもできます。ロードバランサを使用してリソースの健全性を検出し、正常なバックエンドにトラフィックを自動的に転送できます。詳細については、ヘルスチェックの概要をご覧ください。

フェイルオーバー シナリオをテストする

消火訓練と同様に、障害を定期的にシミュレートして、レプリケーションとフェイルオーバー戦略の効果を確認します。

詳細については、リージョン MIG のゾーンの停止をシミュレートするGKE リージョン クラスタでゾーン障害をシミュレートするをご覧ください。