コンテンツに移動
DevOps & SRE

2022 年の State of DevOps Report における信頼性と SRE

2023年1月26日
https://storage.googleapis.com/gweb-cloudblog-publish/images/state_of_devops_2022_NSUlDaJ.max-2500x2500.jpg
Google Cloud Japan Team

※この投稿は米国時間 2023 年 1 月 18 日に、Google Cloud blog に投稿されたものの抄訳です。

設計、コーディング、テスト、パッケージ化、さらなるテストを経てソフトウェアの変更がデプロイされると、一つの旅が終わりを迎えます。同時に、顧客とサービスの関係という新しい旅が始まります。新しく始まる運用の領域では、リリース スケジュールの遅れなどの抽象的なリスクが、収益の減少、信頼の低下、評判の失墜などの具体的なリスクに置き換わります。ソフトウェアは、ユーザーが利用できるようになったときにはじめて組織の成功に貢献する(または脅威になる)ことができます。そのため、過去数年間にわたって、DevOps Research and Assessment(DORA)プロジェクトは、サービスの信頼性に関する調査を、デプロイ段階を通して、継続的な運用面に至るまで、徐々に深めてきました。

信頼性は広い意味を持つ用語であり、ユーザーの期待に応えるチームの能力を指します。ソフトウェア サービスの場合、可用性、レイテンシ、正確性の側面、またはユーザー エクスペリエンスの整合性と品質に影響を与えるその他の特性の側面を指す場合があります。信頼性エンジニアリングの実践者からなるグローバル コミュニティによって受け入れられ、拡張されている Google のサイト信頼性エンジニアリング(SRE)の手法は、ユーザー指向の測定、責任の共有、協調的で過失を責めない学習を優先した運用を目指す一つのアプローチです。2021 年の Accelerate State of DevOps Report を皮切りに、Google は、調査回答者に対し、所属組織における信頼性エンジニアリングについて詳細な質問を開始しました。2022 年も調査を継続および拡大したところ、最新の信頼性エンジニアリングが広く普及しているというさらなる証拠が見つかりました。回答者の過半数が SRE スタイルの手法を採用していると報告しています。この広範なデータを基に、今年は信頼性の影響と、Google の「組織の成功に対するテクノロジーの影響」モデルに内在するその他の力学との間の相互作用の分析をさらに推し進めました。

信頼性は重要である

信頼性が低いと、ソフトウェア デリバリーを改善しても組織の成果には何らの影響もなく、場合によってはマイナスの効果さえ生じます

信頼性は有益であるだけでなく、不可欠なものです。過去の調査では、ソフトウェア デリバリーのパフォーマンス(変更のリードタイム、デプロイの頻度、変更のエラー率、障害復旧時間の「4 つの主要な指標」によって測定)から、組織のパフォーマンスを予測できることがわかりました。しかし、今年の分析では、以前には見られなかったニュアンスが明らかになりました。それは、組織のパフォーマンスに対するソフトウェア デリバリーの影響は信頼性に基づいているということです。信頼性が高い場合、高パフォーマンスのソフトウェア デリバリーから、組織にとってより良い成果が予測できます。一方、信頼性が低いと、ソフトウェア デリバリーを改善しても組織の成果には何らの影響もなく、場合によってはマイナスの効果さえ生じます。これは、信頼性エンジニアの間にあった「信頼性はあらゆるシステムにおける最も重要な特長である」という長年の信念を裏付けるものです。サービスやプロダクトがユーザーの期待する信頼性を満たさない場合、派手な新機能を急いで公開しても、ユーザーはそれを適切に体験できないため、逆効果になります。ソフトウェア デリバリーは、信頼性の基盤に立脚してはじめて価値を生み出すのです。

https://storage.googleapis.com/gweb-cloudblog-publish/images/dora.max-900x900.jpg

信頼性は旅である

経験豊富なリーダーなら誰しも、進歩が直線的であることはめったにないと言うでしょう。SRE のように規範が広く実践され、明白なメリットがある領域でも、成功への道が直線的であることはまずあり得ません。DORA は、組織変革には「J カーブ」があると説明しています。これは、挫折と教訓の後にのみ永続的な成功がもたらされるという現象です。今年は、チームにおける信頼性エンジニアリングの実践の程度と、それがチームにより提供されるサービスに与える影響を比較しました。SRE に対する投資は、より高い信頼性を生み出すでしょうか。答えはイエスですが、注意が必要なのは、初めからそうはならないという点です。SRE の導入のさまざまなレベルで信頼性の結果を比較すると、J カーブがはっきりと見えてきます。SRE を軽く実践するだけのチーム(SRE 導入の初期段階など)にはメリットがないだけでなく、ユーザーが経験する信頼性について後退が見られる場合があります。しかし、こうした実践がより深く浸透してからは、変曲点に達し、信頼性エンジニアリングの能力を継続的に改善することで信頼性によるメリットが大きく向上することがわかります。

SRE を導入するメリットを実現するには時間がかかることを知ると、できるだけ早く広範にプロセスを開始したくなるかもしれません。ただし、ここで注意しておきたいのは、全組織的な文化変革の取り組みは多くの場合、行きすぎで失敗するということです。Google はこの点について調査し、その結果を過去のレポートで報告しています。また、その罠にはまらず、複数のチームで同時に SRE を完全導入できたとしても、その代償を受け入れられない可能性があります。早い段階でおそらく経験する信頼性の低下は、組織全体で一気に膨らみ、壊滅的な結果をもたらす恐れがあります。したがって、段階的な変化という SRE の原則を、SRE 自体の導入にも適用する必要があります。

信頼性とは人につきる

10 年以上にわたる SRE の実践と理論を振り返る Enterprise Roadmap to SRE は、組織文化の重要性を強調しており、サイト信頼性エンジニアリングが実際に文化から生まれることを示唆しています。ツールとフレームワークは重要で、言語は不可欠ですが、今日の複雑で動的なテクノロジー環境の管理を SRE で実現する継続的な学習環境をサポートできるのは、信頼でき、心理的に安心できる組織文化だけです。2022 年の DORA の調査では、組織文化と信頼性の相互作用が明らかになっています。Westrum モデルで定義されている「創造的な」文化があれば、信頼性の向上という結果が予測できることがわかっています。また、信頼性は、システムのユーザーだけでなく、その作り手にもメリットがあります。サービスの信頼性が高いチームは、燃え尽き症候群になる可能性が 1.6 倍低くなります。

DevOps ジャーニーについてご共有いただける事例をお持ちの方は、2023 年 1 月 31 日までに Google Cloud が主催する 2022 年の DevOps Awards にご応募ください。


- デベロッパー リレーションズ エンジニア Dave Stanke
投稿先