Compute Engine ワークロードの高耐久性オプション
Google Cloud Japan Team
※この投稿は米国時間 2021 年 8 月 20 日に、Google Cloud blog に投稿されたものの抄訳です。
データ ストレージ サービスにとって、耐久性、つまりデータの損失や破損からどれだけデータを保護できるかということは、非常に重要な要素です。耐久性を考慮したワークロードの設計方法についてはよく質問をいただきます。また、Google Cloud の Compute Engine 仮想マシン インスタンス用の信頼性に優れた高性能ブロック ストレージである Persistent Disk を使用した場合、具体的にどの程度のワークロードの耐久性を期待できるのかについてもよくお問い合わせがあります。そのため、Google は最近、耐久性に優れた Persistent Disk の設計方法について詳細を公開しました。
ここで「~用に(となるように)設計されています」と述べている場合は、ディスクの耐久性は設計上のデータ損失の確率を示しており、以下に関する一連の仮定を元に、通常の 1 年間の一般的なディスクの使用を想定しています。
ハードウェアの障害
壊滅的なイベントの可能性
Google データセンターにおける隔離方法とエンジニアリング プロセス
各ディスクタイプで使用される内部エンコーディング
具体的には、以下のような Persistent Disk があります。
PD- スタンダード | PD- バランス | PD- SSD | PD- エクストリーム | リージョン スタンダード | リージョン バランス | リージョン SSD |
99.99%を上回る | 99.999% を上回る | 99.999% を上回る | 99.9999% を上回る | 99.999% を上回る | 99.9999% を上回る | 99.9999% を上回る |
この数字を簡単に説明すると、99.999% の耐久性とは、1,000 枚のディスクがあれば、100 年間 1 枚も失わずに済む可能性があるということです。どのようにしてこのような超高耐久性を実現しているのか、その背景をご紹介します。
Google Cloud の耐久性の設計方法
Persistent Disk は、物理的なディスクとデータ配信を管理し、冗長性と最適なパフォーマンスを確保します。Persistent Disk の耐久性は、常に 3 ウェイ レプリケーションと同じかそれ以上です。Persistent Disk の各バイトは、特定の Compute Engine ゾーン内の別々の障害ドメインに分散した 3 つ以上の場所に保存されます。
そのため、データ損失が発生することは極めて稀であり、発生した場合も通常は、ハードウェアの故障、ソフトウェアのバグ、またはその 2 つの組み合わせによるものです。Google の社内目標は、四半期ごとにデータ損失イベントをゼロにすることです。
Persistent Disk には冗長性が組み込まれており、機器の故障からデータを保護し、データセンターのメンテナンス中でもデータの可用性を確保します。Persistent Disk のすべてのオペレーションでチェックサムが計算されるため、読み取ったデータは書き込んだデータと必ず一致します。また、Google は、業界全体のサイレント データ破損のリスクを軽減するために多くの対策を講じています。
Google データセンターに設置されているすべてのストレージ デバイスは、運用中に返されるエラーと内部診断によるエラーの両方について継続的に監視されています。障害が発生したデバイス上のデータは数分以内に再度複製され、故障が予測されるデバイスは安全に排出されて交換されます。
セキュリティ
お客様のデータは永続的に保存されるだけでなく、転送中や保管中も常に暗号化されています。データが暗号化されずに保存されるようなオプションや構成ミスはありません。ディスク暗号鍵の暗号化に CSEK または CMEK を使用するオプションもあります。Persistent Disk のインフラストラクチャは、お客様の暗号鍵にアクセスすることなく、自動メンテナンスと複製を行います。物理的セキュリティ、データアクセス、データ廃棄、アクセス ロギングへの取り組みについては、https://cloud.google.com/security/ で公開されているホワイトペーパーをご覧ください。
リージョン ディスクとスナップショット
さらに高い耐久性を実現するためのオプションとして、リージョン Persistent Disk ではデータが 2 つのゾーンにまたがって同期的に複製されるため、長期間にわたってゾーンが利用できなくなった場合でも保護することができます。この機能により、ワークロードは健全なゾーンにフェイル オーバーし、完全なままのデータで動作するため、データの損失はありません。このゾーン間の耐久性を活かし、セカンダリ レプリカを使用して第 2 ゾーンでの可用性を 1 分未満で復元できます。
定期的にディスクのスナップショットを撮ることで、さらなる保護を追加することができます。スナップショットは、ディスク上のデータのバックアップ コピーをクラウド ストレージに内部保存するもので、ディスクのさらに優れた耐久性と復元能力を実現します。また、スナップショットには、過去にバックアップされた以前のディスク状態に復元できるというメリットもあります。重要なデータが入っているディスクは、スナップショットを定期的にスケジュール設定しておくことをおすすめします。
どの Persistent Disk タイプにも、ご期待に沿う価格と性能に加え、並外れた耐久性が備わっています。まずは、ディスク オプションの詳細をご確認ください。
-プロダクト マネージャー David Seidman