Google Cloud アーキテクチャ フレームワークの信頼性に関する柱では、 Google Cloudで信頼性の高いワークロードを設計、デプロイ、管理するための原則と推奨事項が示されています。
このドキュメントは、クラウド アーキテクト、デベロッパー、プラットフォーム エンジニア、管理者、サイト信頼性エンジニアを対象としています。
信頼性とは、定義された条件内で意図した機能を一貫して実行し、サービスを中断することなく維持するシステムの能力です。信頼性に関するベスト プラクティスには、冗長性、フォールト トレラントな設計、モニタリング、自動復旧プロセスなどがあります。
信頼性の一部である復元力とは、パフォーマンスを維持しながら、障害や予期しない中断に耐えて復旧するシステムの能力です。Google Cloud の機能(マルチリージョン デプロイ、自動バックアップ、障害復旧ソリューションなど)を使用すると、システムの復元力を高めることができます。
信頼性は、次のような多くの理由からクラウド戦略にとって重要です。
- 最小限のダウンタイム: ダウンタイムは、収益の損失、生産性の低下、評判の低下を招く可能性があります。復元力のあるアーキテクチャは、障害発生中もシステムが機能し続けるようにしたり、障害から効率的に復旧できるようにしたりするのに役立ちます。
- ユーザー エクスペリエンスの向上: ユーザーはテクノロジーとシームレスにやり取りすることを期待しています。復元力のあるシステムは、一貫したパフォーマンスと可用性を維持し、需要の急増や予期しない問題が発生しても信頼性の高いサービスを提供できます。
- データの整合性: 障害が発生すると、データの損失やデータの破損が発生する可能性があります。復元力のあるシステムでは、バックアップ、冗長性、レプリケーションなどのメカニズムを実装してデータを保護し、正確でアクセス可能な状態を維持します。
- ビジネス継続性: ビジネスの重要なオペレーションにテクノロジーが不可欠である。レジリエントなアーキテクチャは、致命的な障害が発生した後の継続性を保証するのに役立ちます。これにより、ビジネス機能が大幅な中断なく継続され、迅速な復旧をサポートできます。
- コンプライアンス: 多くの業界には、システムの可用性とデータ保護に関する規制要件があります。レジリエント アーキテクチャは、システムの運用とセキュリティを維持することで、これらの標準を満たすのに役立ちます。
- 長期的な費用の削減: 復元力のあるアーキテクチャには初期投資が必要ですが、復元力により、費用のかかるダウンタイムを回避し、事後対応の修正を回避し、リソースをより効率的に使用できるため、長期的には費用を削減できます。
組織の考え方
システムの信頼性を高めるには、計画と確立された戦略が必要です。この戦略には、他のイニシアチブとともに信頼性を優先する教育と権限が含まれている必要があります。
開発、プロダクト管理、運用、プラットフォーム エンジニアリング、サイト信頼性エンジニアリング(SRE)など、組織全体が信頼性に対して責任を負うことを明確に示します。マーケティングやセールスなど、ビジネス重視のグループでも信頼性に影響する可能性があります。
すべてのチームは、アプリケーションの信頼性目標とリスクを理解する必要があります。チームはこれらの要件に責任を負う必要があります。信頼性と通常のプロダクト機能開発との間に生じる競合については、優先度を上げて対応し、適切にエスカレーションする必要があります。
すべての機能とチーム全体で信頼性を包括的に計画、管理します。信頼性に関する柱を含む Cloud Center of Excellence(CCoE)の設定を検討してください。詳細については、Cloud Center of Excellence を使用して組織のクラウド ジャーニーを最適化するをご覧ください。
信頼性の重点分野
信頼性の高いシステムを設計、デプロイ、管理するために行うアクティビティは、次の重点分野に分類できます。このピラーの信頼性に関する原則と推奨事項は、これらの重点分野のいずれかに関連しています。
- スコープ設定: システムを理解するには、アーキテクチャの詳細な分析を行います。コンポーネント、コンポーネントの動作と相互作用、データとアクションがシステムをどのように流れるか、問題が発生する可能性のあることを理解する必要があります。潜在的な障害、ボトルネック、リスクを特定して、それらの問題を軽減するための対策を講じることができます。
- オブザーバビリティ: システム障害を防ぐために、包括的で継続的なオブザーバビリティとモニタリングを実装します。この観察により、傾向を把握し、潜在的な問題を事前に特定できます。
- レスポンス: 障害の影響を軽減するには、適切に対応して効率的に復旧します。自動化されたレスポンスは、障害の影響を軽減することもできます。計画と管理を行っても、障害が発生する可能性があります。
- 学習: 障害の再発を防ぐため、各経験から学び、適切な措置を講じます。
基本原則
アーキテクチャ フレームワークの信頼性の柱の推奨事項は、次のコア原則にマッピングされています。
- ユーザー エクスペリエンスの目標に基づいて信頼性を定義する
- 信頼性の現実的な目標を設定する
- 冗長リソースを使用して高可用性システムを構築する
- 水平方向のスケーラビリティを活用する
- オブザーバビリティを使用して潜在的な障害を検出する
- グレースフル デグラデーションを考慮した設計
- 障害からの復旧のテストを行う
- データ損失からの復元のテストを行う
- 徹底した事後分析を行う
寄稿者
著者:
- Laura Hyatt | エンタープライズ クラウド アーキテクト
- Jose Andrade | エンタープライズ インフラストラクチャ カスタマー エンジニア
- Gino Pelliccia | プリンシパル アーキテクト
その他の寄稿者:
- Andrés-Leonardo Martínez-Ortiz | テクニカル プログラム マネージャー
- Brian Kudzia | エンタープライズ インフラストラクチャ カスタマー エンジニア
- Daniel Lees | クラウド セキュリティ アーキテクト
- Filipe Gracio 博士 | カスタマー エンジニア
- Gary Harmson | カスタマー エンジニア
- Kumar Dhanagopal | クロス プロダクト ソリューション デベロッパー
- Marwan Al Shawi | パートナー カスタマー エンジニア
- Nicolas Pintaux | カスタマー エンジニア、アプリケーション モダナイゼーション スペシャリスト
- Radhika Kanakam | シニア プログラム マネージャー、Cloud GTM
- Ryan Cox | プリンシパル アーキテクト
- Wade Holmes | グローバル ソリューション ディレクター
- Zach Seils | ネットワーキング スペシャリスト