事業継続計画と障害復旧

このページの内容は ApigeeApigee ハイブリッドに該当します。

Apigee Edge のドキュメントを表示する。

Apigee は、マルチテナント型でセルフサービスのクラウドベースのプラットフォームで、世界の複数の地域にある複数のデータセンターに及ぶ完全冗長(live / live)構成で動作します。Apigee は、クラウドベースのプラットフォームとして Google Cloud を使用しています。Google Cloud をベースに構築されたサービスの一環として、各地域内の複数のデータセンターを利用し、こうした複数のデータセンターにわたるお客様のライブ トラフィックに対応しています。「ライブ」データセンターと「スタンバイ」(または「セカンダリ」や「フェイルオーバー」)データセンターはありません。Apigee は、お客様のトラフィックに継続的かつ同時に対応するデータセンターを世界中の地域ごとに 2 か所(またはそれ以上)配備しています。

BCP / DR 計画

Apigee Business Continuity Planning and Disaster Recovery(BCP / DR)は、プラットフォーム全体の計画であり、個々のお客様の詳細なタスクは含まれていません。その代わりに、このプラットフォームは、中断や停電に関係なく、お客様のデータ リクエストを処理するように構成されています。あるデータセンター全体がオフラインであっても、データは流れ続けます。地域全体がオフラインになれば、ある 1 つの地域のお客様が API 処理サービスの停止に遭遇する可能性があります。「地域内」の冗長サービス以上のものを求めるお客様用として、Apigee では、冗長なデータセンターを世界中に多数配備し、複数の地域や国でのトラフィックの処理を可能としているため、ある地域全体がオフラインになってもデータは引き続き流れます。

データ処理およびアクセスに関する地理的制限がある可能性があるため、単一地域のお客様サービスは自動的に別の地域に転送されません。Apigee は、お客様が指定した地域の顧客に対するサービスをホストしています。データの地理的な場所によってはユーザーに対する特定の規制やお客様のコミットメントがあるため、地域間のサービス移動を自動で行いません。これは、お客様に対する Google のコミットメントや、顧客に対する Google のお客様のコミットメントが果たせなくなる可能性があるためです。

内部の機密情報やお客様に関するリファレンスを含んでいるため、Apigee は、詳細な BCP / DR 計画を個々のお客様と共有しません。Apigee のプライバシー ポリシーにより、他のお客様の名前が明らかになる可能性があるようなプラットフォームの BCP / DR 計画は個々のお客様に公開されません。Apigee では、それぞれのお客様に対し、同レベルのプライバシーを確保しています。

BCP / DR の管理

Apigee Information Security チームは Business Resiliency プログラムの監視を担当するのに対して、交代制のインシデント コマンダーはすべてのインシデントの管理と解決を担当します。インシデント コマンダーにはいつでも呼び出すことができる運用スタッフと技術スタッフがついており、それらのスタッフ用に実行する可能性のあるすべてのアクションのプレイブックが用意されています。

BCP / DR のテスト

Google では、年 1 回の BCP / DR 机上テストとは別に、プラットフォームの BCP / DR テストをサポートする運用プロセスをより高頻度で実施しています。毎月、サービスを実行しているシステムへの更新を行いながら、live / live 環境から負荷変動を実施しています。このプロセスでは、1 つのデータセンター全体のシステムをダウンさせ、一方で負荷がピア データセンターで処理されます。更新が行われた後で、最初のデータセンターが復旧し、サービスが再び live / live で実行され、問題が発生していないことを確認します。次に、ピア データセンターに同じ更新プログラムが適用され、再びオンラインに戻ります。Google はツールと技術を使用してトラフィックをドレインし、最近更新されたサービスに少量のトラフィックを送信して、問題やエラーの有無をチェックしてから全負荷処理に戻ります。

この一貫した運用プロセスは、頻繁に発生する運用上の作業とされており、業界基準となっている年 2 回の Google のサービスの復元性「テスト」よりも高頻度で実施されています。

上記の運用プロセスに加えて、Google は、エンジニアリング チームとオペレーション チームのメンバーが実際の障害シナリオをテストする BCP / DR 演習も少なくとも年に 1 回実施しています。これにより、スタッフは、サービスそのものに加えて、企業全体を対象とした大規模な BCP / DR 計画の訓練と経験をさらに積むことができます。

Google が行った BCP / DR テストでは、すべてが運用中のシステムに組み込まれているため、「フェイルオーバー エクササイズ」または「セカンダリ ロケーション」は使用しません。

Google では、すべての運用チームと技術チームが使用するプレイブックを維持管理しています。このプレイブックは、少なくとも年に 1 回レビューと更新が行われ、BCP / DR のすべてのテストとトレーニング演習で使用されます。

お客様には年次 BCP / DR テストレポートをご利用いただけます。Google は、運用上の作業と年 1 回の机上演習テストレポートの結果を第三者監査人と共有します。こうしたレポートが PCI、HIPAA、ISO、契約上の要件などの遵守状況を監査人がレビューする際のベースとなります。

お客様用 BCP / DR テスト

お客様には、自社の DR 計画に Apigee サービスを組み込むことをおすすめします。Apigee では必要に応じてトラフィックをリダイレクトできます。お客様のデータセンターの停電など、災害時であってもエンドユーザーのサービスを維持できるように導入を検討してみてください。ただし、このレベルのテストは Apigee DR 計画の対象外です。自社のアプリケーションで BCP / DR テストを実施し、テストに Apigee を含めることをおすすめします。

RTO / RPO

Apigee では、お客様に対する、または BCP / DR 活動に関連する契約においてリカバリ ポイントおよびリカバリタイムの目標(RPO / RTO)は設定しておりません。Apigee の SLA は、RTO / RPO のデータポイントと同等のクラウド版です。Apigee は、管理サービスとランタイム サービスの両方が冗長なライブサービスを使用して設計された冗長なクラウドベースのサービスであるため、RTO と RPO はどちらも「リアルタイム」とみなすことができます。シングル リージョンのお客様は、同じリージョンの複数のデータセンターで最小限の冗長サービスを受けることができます。より高いレベルの冗長性が必要なお客様は、マルチリージョン サービスを選択してください。

パンデミック プラン

Google は、BCP / DR 全体の計画とプロセスの一部として、パンデミック プランを含めています。サポートなどの業務のため、Google では複数のオフィスや遠隔地で 24 時間 365 日対応のグローバル サポートチームを運営しています。世界のある地域で発生したパンデミックがいずれかのサポート対象地域に影響を及ぼす場合は、他のオフィスのスタッフが通知を受け、影響を受けたオフィスで通常は処理されるシフトをカバーします。営業などの他のビジネス サービスについては、スタッフを世界中に配備しています。Google ではすべてのチームが、必要に応じてリモートで作業できます。使用するツールはクラウドベースであり、パンデミック対応計画にも当然役立ちます。

更新

Google は、少なくとも年に 1 回 BCP / DR 計画をレビューし、更新しています。計画の更新には、インシデントや製品変更、業界標準、リスク分析活動、BCP / DB テストから収集された情報が使用されます。

ビジネス インパクト分析とリスク評価

Google では、年 1 回、ビジネス インパクト分析とリスク評価を実施しています。BIA と RA の結果は、問題追跡システムで優先順位付けされ、文書化されます。