サービスレベル目標の概要
サービスレベル目標(SLO)は、Google サービスのモニタリング ツールキットのコアツールです。SLO により、サービス全体の健全性に関する簡潔で低ノイズのシグナルを取得できます。Cloud Service Mesh では、サービスの SLO を設定し、それらの SLO の観点からサービスのモニタリングとアラートを行うことができます。
サービスの健全性をモニタリングするには、そのサービスにとって重要な動作と、その動作を測定して評価する方法を理解する必要があります。サービスレベル指標(SLI)は、サービスのある側面を定量的に測定したものです。一般的な SLI は次のとおりです。
- レイテンシ: リクエストへのレスポンスを返すのに要する時間(通常はミリ秒単位)。通常、レイテンシは集計値として表示されます。つまり、元データが一定期間にわたって収集され、パーセンタイルとして計算されます。Cloud Service Mesh では、各サービスの [指標] ページにレイテンシ グラフが表示されます。レイテンシ グラフには時間の経過に伴うレイテンシが表示され、サービスのレイテンシのしきい値や上限を決定する際に有用です。
- 可用性: サービスが正常に応答した時間の割合。これは通常、全レスポンス数に対する正常なレスポンス数の割合として表示されます。[指標] ページの [エラー率] グラフで、各サービスの可用性を確認できます。
SLO は、SLI によって測定されるサービスレベルの目標値です。SLO は、SLI ≤ upper_bound
または SLI ≥ lower_bound
として表すことができます。SLO は、一定期間にわたるパフォーマンスの測定可能な目標です。たとえば、サービスによっては次のような要件があります。
- 30 日間のローリング期間中のリクエストのうち、レイテンシが 300 ミリ秒を超えるリクエストは最大 5% までとする。
- システムを 1 週間(暦週)測定し、その可用性が 99% であること。
[健全性] ページで、テレメトリー データに基づいてサービスの SLO を設定、表示できます。その後、Cloud Monitoring でアラートを作成して、サービスが期待したとおりに機能していない場合は警告されるようにできます。
次のステップ
Google のサイト信頼性エンジニアリングからの SLO の詳細について確認する。