コンテンツに移動
DevOps & SRE

1 年で最も忙しいショッピング期間に対する Lowe’s の備え方

2023年4月13日
https://storage.googleapis.com/gweb-cloudblog-publish/images/lowes.max-2500x2500.jpg
Google Cloud Japan Team

※この投稿は米国時間 2023 年 4 月 5 日に、Google Cloud blog に投稿されたものの抄訳です。

家を持つ人の To-Do リストに終わりはないかもしれませんが、Lowe’s にとって最も忙しい時期は間違いなくブラック フライデーとサイバー マンデー(BF / CM)の週です。サイト信頼性エンジニア(SRE)である私たちは、需要が高い時期は特に、最初のクリックからご購入手続きまでお客様にスムーズな体験を提供できるよう努めています。

トータルホーム戦略の一環として、Lowe's は 2019 年に Google Cloud を活用したデジタル トランスフォーメーションを実施した後も、オンライン ビジネスのモダナイゼーションを続けています。2020 年には SRE フレームワークを導入し、その後自動化とマイクロサービスを最大限に活用するため、Lowe's SRE チームが新しい BF / CM 準備戦略を開始しました。そして 2022 年は、数か月前から Google Cloud を利用した計画と戦略を立て、BF / CM の成功をまたしても実現しました。

当社の準備戦略には、5 つの大きな柱があります。

  1. ビジネスチームや部門横断型チームとのコラボレーション

  2. カオス エンジニアリング

  3. パフォーマンス エンジニアリング

  4. キャパシティ プランニング

  5. bot 管理

Lowes.com ウェブサイトの信頼性と可用性を維持するには、この 5 つの柱すべてが重要です。カスタマー エクスペリエンスに影響を与えることなく BF / CM を成功させるには、すべてがスムーズに進む必要があります。

コラボレーションとコミュニケーション

成功するイベントの核となるのは、さまざまなチーム、ステークホルダー、ベンダー間の明確なコミュニケーションです。  


ビジネスチームのパートナーシップ

SRE である私たちは、ビジネス目標とそれを IT によってどう達成できるかについて高い可視性を維持することで、ビジネス上の意思決定がサイトのトラフィックに与える影響を予測します。たとえば、マーケティング部門が金曜日の午後 3 時 30 分にプッシュ通知を送信してお得なホリデー価格を宣伝する計画の場合、私たちのチームはそのスケジュールを把握し、Lowes.com のさまざまなショッピングおよび購入ファネルへのトラフィックの増加を予測します。

SRE チームは、BF / CM に向けたビジネス マーケティング戦略や予測を分析してから、キャパシティ プランニングを開始します。


コミュニケーションを通して変化を管理

ショッピング イベントを成功させるには、明確なコミュニケーション ラインと階層を維持することが不可欠です。Lowe's の文化変革の一環として、意思決定を一元化し、システムエラーを減らすために、チェンジ マネジメント プロセスとガバナンス ボードが導入されています。ほとんどの問題やインシデントは変更から生じるため、サイト全体ですべての変更を把握できるようにすることで、問題が発生した場合にステークホルダーが変更を評価、デプロイ、ロールバックするための手順を確立しています。

ブラック フライデー イベント期間中の効率を最適化するため、11 月 1 日にサイト全体を限定的に凍結します。変更は認められますが、エコシステムにとって不可欠なものに限られます。また、変更に関連する脆弱性を防ぐため、11 月中旬にはサイト全体を完全に凍結します。変更は一切デプロイされません。代わりに、社内のプランニング パートナーが追加のスケーリングやリソースが必要かどうかを判断するハイパーケア モードに入ります。

BF / CM までの数か月間、Lowe's SRE チームと Google Cloud チームはエンジニアリングの机上シミュレーションを実施し、負荷の高かった過去のケースを再現します。このようなシミュレーションを行うことで、個々のチームメンバーがインシデント発生時の自身の役割を把握し、コントロールされた環境で手順をリハーサルをすることができます。さらに、この演習により、負荷の高い状況下での報告とコミュニケーションの階層が強化されます。これはインシデントを認識するまでの平均時間を短縮するうえで重要な要素で、これにより 2019 年の 30 分から 2022 年の 1 分まで、97% の短縮を実現できています。


ダウンストリームとサードパーティ ベンダーのインタラクション

ウェブサイトと一連のサービスを効果的に最適化して BF / CM イベント期間中のお客様の増加に備えたとしても、SRE にはやるべきことが常にあります。当社は 20 以上の企業やサードパーティ ベンダーのチームと連携して、シームレスなブラウジング体験の確保に取り組んでいます。

チームがさまざまなステークホルダーとの連携を確立したら、ストレステストとインフラストラクチャの最適化に取りかかります。

シミュレーションで勢いをつける(カオス エンジニアリング)

BF / CM イベントのプランニングは厳密には 6 月に始まるのですが、当社の SRE チームはそれより早い段階からテクノロジー エコシステムのレジリエンスのテストを行います。2022 年 2 月初旬、SRE チームは Lowes.com の販売チャネルを支えるソフトウェア コンポーネント内の欠陥を特定するため、カオス エンジニアリング シミュレーションを毎週実施することにしました。カオス エンジニアリングとは、ネットワーク環境で意図的に障害、トラフィックの急増、停止を起こして、悪条件に対する挙動を把握することです。2022 年より前は、BF / CM イベントの前に 3、4 回しかカオス シミュレーションを実施していませんでした。カオス シミュレーションでテクノロジー エコシステムやサービスのさまざまな側面を毎週確認することにより、当社のチームは、エンジニアが修正すべき重大な脆弱性を事前に特定すると同時に、リアルタイムでレジリエンスを最適化することができます。

カオス シミュレーションやトラフィックの急増など、定期的に多様な演習を行うことで、システムを最悪の事態に備えさせるとともに、チームのアジリティと応答性を高く維持しています。

パフォーマンスのためのエンジニアリング

Lowe's では、一年を通して継続的なパフォーマンス エンジニアリング手法を活用し、システム アーキテクチャ内のボトルネックを特定しています。BF / CM に特化したパフォーマンス演習は 8 月に始めました。10 月に近付いた頃、Lowe's の SRE チームは、極端なワークロードによるストレステストや長期的なパフォーマンスの問題を特定する耐久テストなど、業界標準に沿ったいくつかのバリエーションを含む 35 以上の個別のパフォーマンス テストを実施していました。

筋肉を鍛えるのと同様に、オンライン販売チャネルを支える大規模なサービス群を管理するには、継続的な努力とメンテナンス、そして注意が必要です。

キャパシティ プランニング

キャパシティ プランニングでは、サーバー容量や帯域幅など、予想されるレベルのトラフィックやユーザー アクションをサポートするのに必要なリソースを判断します。一年を通して、お客様やシステムのニーズの変化に基づき継続的に計画を調整していますが、一年のなかで売上が最大になる週に備えるには、また別途計画が必要です。当社では、すべてのビジネス目標にスコアを付けます。利用可能なリソースに基づいてビジネス目標に優先順位を付け、商品のプロモーションに合わせてサーバー容量や計算量の増加をスケジュールします。

SRE チームがビジネス目標を把握するようになったことで、エンジニアリング リソースを最適化しながら、季節的なトラフィックの増加に向けてより簡単に計画できるようになりました。

即席の bot 管理で不正な行為者をブロック

現在、検索エンジンのクローラー、ソーシャル ネットワーキング bot、情報集約サイトのクローラー、その他のモニタリング bot など、さまざまな bot がインターネット トラフィック全体の 3 分の 2 を構成しています。その一方、ユーザー アカウントへの攻撃、データのスクレイピング、インフラストラクチャへの大量攻撃などを行う不正な bot が、定期スキャン bot やモニタリング bot のなかに潜んでいます。ウェブ アプリケーション ファイアウォール(WAF)などの bot 対策ソフトウェア ツールを実装することで、サイトにアクセスできる bot を細かく制御できるだけでなく、不正なアルゴリズムや検知を回避する bot を自動的に排除することができます。

「コミュニティ」が必要

予期せぬ問題に対処するにはソフトウェア ツールが重要ですが、最近開設した Lowe's のテックハブにテクニカル アカウント マネージャー(TAM)が窓口を構え、オンサイト サポートを提供してくれたことは、非常に効果的でした。TAM が Google Cloud 内の担当者としてリアルタイムで当社を代表してくれているおかげで、1 週間に及ぶイベントの重要な瞬間に最優先でサポートを受けることができます。

2022 年のブラック フライデー / サイバー マンデー イベントが終わった今、当社のチームはすでに 2023 年のホリデーに向けた準備を進めています。Google Cloud とのパートナーシップにより、Lowe's の SRE チームは最高の Lowe's 体験をオンラインでお客様に提供し、Lowe's トータルホーム戦略を実現しています。BF / CM 期間中、Lowe's ウェブサイトが成功を収め、継続的に利用できたことこそ、コラボレーション、コミュニケーション、最適化が楽しいウェブサイト体験の重要な柱であることを証明しています。


このブログ投稿に協力してくれた Prasanna Singaraju、Rajat Khanna、Lowe's e コマースサイト信頼性エンジニアリング チームのすべてのメンバーに感謝します。


- Lowe’s Companies, Inc.、ソフトウェア エンジニアリング担当ディレクター Vivek Balivada 氏
- Lowe’s Companies, Inc.、e コマース SRE 担当シニア マネージャー Shyam Palani 氏
投稿先