オブザーバビリティを使用して潜在的な障害を検出する

Last reviewed 2024-12-30 UTC

Google Cloud アーキテクチャ フレームワークの信頼性の柱にあるこの原則では、エラーや障害が発生する可能性のある領域を事前に特定するための推奨事項が示されています。

この原則は、信頼性の観察 の焦点領域に関連しています。

原則の概要

Google Cloudでワークロードの信頼性を維持して向上させるには、指標、ログ、トレースを使用して効果的なオブザーバビリティを実装する必要があります。

  • 指標は、特定の時間間隔でアプリのトラッキング対象となるアクティビティの定量的な測定値です。たとえば、サービスレベル指標(SLI)として使用できるリクエスト レートやエラー率などの技術的な指標を追跡できます。注文や受け取った支払いなど、アプリケーション固有のビジネス指標をトラッキングすることも必要になる場合があります。
  • ログは、アプリケーションまたはシステム内で発生する個別のイベントのタイムスタンプ付きレコードです。イベントには、障害、エラー、状態の変化などがあります。ログには指標が含まれる場合があり、SLI にログを使用することもできます。
  • トレースとは、複数の個別のアプリケーションまたはアプリケーションのコンポーネントを通過する単一のユーザーまたはトランザクションのジャーニーを表します。たとえば、これらのコンポーネントはマイクロサービスです。トレースを使用すると、ジャーニーで使用されたコンポーネント、ボトルネックの場所、ジャーニーに要した時間を追跡できます。

指標、ログ、トレースは、システムを継続的にモニタリングするのに役立ちます。包括的なモニタリングにより、エラーが発生した場所と原因を特定できます。エラーが発生する前に潜在的な障害を検出することもできます。

推奨事項

潜在的な障害を効率的に検出するには、次のサブセクションの推奨事項を検討してください。

包括的な分析情報を取得する

レスポンス時間やエラー率などの主要な指標を追跡するには、Cloud MonitoringCloud Logging を使用します。また、これらのツールを使用すると、指標がワークロードのニーズを常に満たしていることを確認できます。

データドリブンの意思決定を行うには、デフォルトのサービス指標を分析して、コンポーネントの依存関係と、それらがワークロードの全体的なパフォーマンスに与える影響を把握します。

モニタリング戦略をカスタマイズするには、Google Cloud SDK を使用して独自の指標を作成して公開します。

事前トラブルシューティングを行う

堅牢なエラー処理を実装し、 Google Cloudでワークロードのすべてのコンポーネントでロギングを有効にします。Cloud Storage アクセス ログVPC フローログなどのログを有効にします。

ロギングを構成する際は、関連する費用を考慮してください。ロギング費用を制御するには、ログシンクに除外フィルタを構成して、特定のログの保存を除外します。

リソース使用率を最適化する

CPU 使用量、ネットワーク I/O 指標、ディスク I/O 指標をモニタリングして、GKE、Compute Engine、Dataproc などのサービスでプロビジョニング不足とプロビジョニング過剰のリソースを検出します。サポートされているサービスの一覧については、Cloud Monitoring の概要をご覧ください。

アラートの優先順位付け

アラートについては、重要な指標に焦点を当て、適切なしきい値を設定してアラート疲労を最小限に抑え、重大な問題にタイムリーに対応できるようにします。このターゲット アプローチにより、ワークロードの信頼性を事前に維持できます。詳細については、アラートの概要をご覧ください。