データベース

AlloyDB for PostgreSQL の仕組み: データベース対応のインテリジェントなストレージ

2022年5月16日

https://storage.googleapis.com/gweb-cloudblog-publish/images/alloydb_deep_dive.max-2600x2600.jpg

Google Cloud Japan Team

※この投稿は米国時間 2022 年 5 月 12 日に、Google Cloud blog に投稿されたものの抄訳です。

Google は本日、Google I/O にて AlloyDB for PostgreSQL を発表いたしました。これは、要求が厳しいエンタープライズクラスのトランザクションワークロードと分析ワークロードに使用できる、PostgreSQL 対応のフルマネージドデータベースで、PostgreSQL で弾力性のあるストレージとコンピューティング、インテリジェントなキャッシュ、AI / ML による管理といったクラウドの利点を最大限に活用できるようになります。さらに、AlloyDB は圧倒的なコストパフォーマンスを実現します。パフォーマンステストでは、標準の PostgreSQL と比較してトランザクションワークロードで 4 倍以上、分析クエリで最大 100 倍高速になるという結果が出ています。しかも AlloyDB は、シンプルで予測可能な料金体系となっています。AlloyDB はミッションクリティカルなアプリケーション向けに設計されており、広範なデータ保護と業界をリードする 99.99% の可用性を提供します。

AlloyDB for PostgreSQL のパフォーマンスと可用性の向上は、複数の革新的な技術によって支えられています。ここでは、「AlloyDB for PostgreSQL の仕組み」シリーズの第一弾として、PostgreSQL 用に最適化され、インテリジェント、データベース対応、水平方向にスケーラブルという特徴を持ったストレージレイヤを取り上げます。

コンピューティングとストレージの分離

AlloyDB for PostgreSQL はコンピューティングとストレージの分離という基本原則に基づいて構築され、スタックの各レイヤで分離を活用するように設計されています。

AlloyDB は、まずストレージからデータベースレイヤを分離して、PostgreSQL 用に最適化された新しいインテリジェントストレージサービスを導入します。これにより、I/O ボトルネックが減り、AlloyDB がログ処理システムを使用して多くのデータベースオペレーションをストレージレイヤにオフロードできるようになります。また、ストレージサービス自体もコンピューティングとストレージを分離するので、ログ処理とは別にブロックストレージのスケールが可能になります。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_Evolution_of_disaggregation_of_compute_a.max-1800x1800.jpg

図 1: コンピューティングとストレージの分離の進化

データベース内のコンピューティングとストレージの分離は年々進化しています。初期のアプローチでは、ストレージのサイズ変更をコンピューティングレイヤから独立して行うことができたものの、システム全体はまだかなり固定的で、弾力性に欠けていました。その次の世代のデータベースシステムでは、クラウドスケールのストレージソリューション上に構築することでストレージの弾力性が改善されましたが、ストレージクラスタのサイズ過大や、ワークロードの急増（ホットスポット）に対応する IO 容量の不足に依然として悩まされていました。

AlloyDB のストレージレイヤにまで完全に分離されたアーキテクチャは、変化するワークロードに動的に適応できる弾力性のある分散クラスタとして機能し、耐障害性を強化し、可用性を高め、読み取りスループットを水平スケーリングするコスト効率の高い読み取りプールを実現します。ワークロードのパターンに応じて自動的に階層化される、スタック全体の複数のキャッシュ保存レイヤにより、開発者はクラウドネイティブなストレージの規模、経済性、可用性を維持しながら、パフォーマンスを向上させることができます。AlloyDB アーキテクチャのこれらの側面が加わることで、データベースにおける分離が次のレベルに進化し、AlloyDB の卓越したパフォーマンスと高可用性が実現されます。

モノリシックな設計の問題点

従来の PostgreSQL データベースはモノリシックな設計を採用し、ストレージリソースとコンピューティングリソースを単一のマシンに配置しています。ストレージ容量の増加やコンピューティングパフォーマンスの向上が必要な場合は、より高性能なサーバーに移行したりディスクを追加したりして、システムをスケールアップします。さらなるスケールアップができなくなった場合や費用対効果が下がる場合は（高性能なサーバーにするとかなりコストがかかります）、レプリケーションを使って、データベースの読み取り専用コピーを複数作成することができます。

このアプローチには限界があります。たとえば、これはデータベースの負荷や構成に依存するので、フェイルオーバーに要する時間が長くなり予測しにくくなります。また、リードレプリカ自体が、高価で遅いデータベースのコピーを使用するため、読み取り容量のスケールやレプリカラグの管理がさらに困難になります。結果として、ストレージとコンピューティングが密結合したモノリシックなデータベースの弾力性は制限されることになります。AlloyDB はコンピューティングとストレージを分離することで、これらの制限の多くを解決できます。

AlloyDB では、データベースレイヤのスケーラビリティを単一（仮想）マシンの容量を超えてさらに向上させるために、複数の読み取り専用レプリカインスタンスを追加することで、データベースのコピーを追加することなくプライマリデータベースインスタンスの読み取り専用クエリ処理をサポートできます。ストレージレイヤはゾーン間で分散していてどのサーバーからもアクセスできるので、安価（レプリカごとのインスタンスは独自のストレージを必要としないため）で最新のリードレプリカインスタンスをすばやく構築できます。基本的には、こうした設計原則によって、プライマリデータベースインスタンスのモノリスから機能を移行するプラットフォームを構築し、クラウドネイティブな実装に変換することで、パフォーマンスやスケーラビリティ、可用性、管理機能の向上が見込めます。

AlloyDB 設計の概要

AlloyDB のストレージレイヤは、大きく分けて 3 つの部分で構成される分散システムです。

高速の先行書き込みログ（WAL）の書き込み用の低レイテンシ、リージョン ログストレージ サービス
WAL レコードを処理し「マテリアライズド」データベースブロックを生成するログ処理サービス（LPS）
ゾーンストレージ障害が発生した場合でも耐久性を確保する、フォールトトレラントでシャーディング済みのリージョン ブロックストレージ

下の図 2 は、ログ処理サービスと PostgreSQL データベースレイヤや耐久性の高いストレージとの統合を概要図に示したものです。プライマリデータベースインスタンス（1 つしかありません）は、WAL のログエントリを保持し、データベースの変更オペレーション（INSERT、DELETE、UPDATE など）を低レイテンシのリージョンログストアに反映させます。そこから、ログ処理サービス（LPS）がさらに処理を行うためにこれらの WAL レコードを消費します。ログ処理サービスは、PostgreSQL WAL レコードのセマンティクスと PostgreSQL のストレージ形式を完全に把握しているため、これらの WAL レコードによって記述された変更オペレーションを継続して再生し、最新のデータベースブロックをシャーディング済みの、リージョンストレージシステムに具体化することができます。そこから、これらのブロックは、プライマリデータベースインスタンス（再起動の場合やブロックが単にキャッシュから外れた場合）やストレージサービスを実行しているリージョン内のゾーンにある任意の数のレプリカインスタンスに戻されます。

また、AlloyDB では、レプリカインスタンスのローカルキャッシュを最新の状態に保つため、プライマリからレプリカインスタンスに WAL レコードをストリーミングし、直近の変更を通知します。ブロックの変更に関するこうした情報がないと、レプリカインスタンスのキャッシュされたブロックを最新に保てなくなります。

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_Overview_of_PostgreSQL_as_integrated_wit.max-1000x1000.jpg

図 2: ストレージサービスと統合した PostgreSQL の概要図

このアプローチのメリットは主にどのようなものでしょうか。この設計による影響について、さらに詳しく見ていきましょう。

ストレージレイヤ内でもコンピューティングとストレージを完全に分離: LPS はワークロードのパターンに応じてスケールアウトし、ホットスポットを回避する必要があれば、コンピューティングリソースを透過的に追加してログを処理します。ログのプロセッサのコンピューティングは、共有のリージョンストレージにアタッチされているため、データをコピーすることなく柔軟にスケールアウトまたはスケールインすることができます。
ストレージレイヤのレプリケーション: 複数のゾーン間のすべてのブロックのレプリカを同期的に作成することで、データベースレイヤに影響を与えたり、変更を加えたりすることなく、ストレージレイヤがシステムをゾーン障害から自動的に保護します。
効率的な I/O パスで全ページの書き込み不要: 更新オペレーションでは、コンピューティングレイヤは WAL レコードを送信するだけで、ストレージレイヤはそのレコードを再生し続けます。この設計では、データベースレイヤをチェックポイントにする必要はないうえ、データベースブロック全体をストレージレイヤに送信する理由（欠落したページの問題に対する保護など）もありません。これによって、データベースレイヤはクエリ処理タスクに集中でき、データベースレイヤとストレージレイヤ間のネットワークを効率的に利用できるようになります。
低レイテンシの WAL の書き込み: 低レイテンシのリージョンログストレージを使用することで、トランザクションの commit オペレーション時にWAL ログレコードをすばやくフラッシュできます。その結果、トランザクションの commit オペレーションが非常に高速になり、ピーク時の負荷でも、高いトランザクションスループットを達成できるようになります。
リードレプリカインスタンスの高速作成: ストレージサービスはあらゆるゾーンのあらゆるブロックに対応できるので、データベースレイヤから任意の数のリードレプリカインスタンスをストレージサービスにアタッチし、データベースの「非公開」コピーがなくてもクエリを処理することができます。リードレプリカインスタンスの作成は、データをオンデマンドでストレージレイヤから増分的に読み込むことが可能で、非常にすばやく実行できます。このため、クエリ処理開始前に、データベースの完全なコピーをレプリカインスタンスにストリーミングする必要がありません。
高速再起動による復旧: ログ処理サービスでは、オンラインオペレーション中に WAL ログレコードを連続再生するため、再起動による復旧時に処理する必要のある先行書き込みログの量は最小限に抑えられます。結果として、システムの再起動が大幅に高速化されます（WAL 関連の復旧作業を最小限に抑えられるため）。
ストレージレイヤのバックアップ: バックアップオペレーションは、ストレージサービスですべて対応できるので、データベースレイヤのパフォーマンスやリソースに影響を与えることはありません。

書き込み操作のプロセス

データベースに対する変更操作の流れをたどりながら、システムのデザインをさらに見ていくことにしましょう（図 3）。操作はまず、クライアントが、たとえば SQL INSERT ステートメントを、クライアントの TCP 接続を通じてデータベースレイヤのプライマリインスタンスに向けて発行するところから始まります。プライマリインスタンスはステートメントを処理（データ構造とインデックス構造をインメモリで更新）し、更新操作のセマンティクスを捕捉する WAL ログレコードを作成します。トランザクションが commit されると、このログレコードがまず低レイテンシのリージョンログストレージに同期的に保存されます。続いて次のステップで、ログ処理サービスによって非同期的に取り出されます。

なお、ストレージレイヤは別々のコンポーネントに意図的に分解され、ストレージレイヤで実行される個別のタスク（ログの保存、ログの処理、ブロックストレージ）に対する最適化が行われます。トランザクションの commit で生じるレイテンシを低減するうえで重要なことは、ログレコードを可能な限り早く永続的な形で保存し、トランザクションの永続性を確保することです。WAL ログの書き込みは追記専用操作であるため、AlloyDB はこのユースケースに対して、高性能で低レイテンシのストレージソリューションにより特に最適化されています。第 2 のフェーズでは、WAL ログレコードを、その参照先になっている以前のバージョンのブロックに適用して処理する必要があります。そのために、ストレージレイヤの LPS サブシステムでランダムなブロックルックアップが実行され、PostgreSQL のやり直し処理ロジックが、高い性能と拡張性を確保しながら適用されます。

マテリアライズされたブロックにリージョンで永続性をもたせるために、リージョン内の各ゾーンで複数のログ処理サービス（LPS）が実行されます。各ログレコードがすべて処理され、得られたバッファがシャーディングされたリージョンブロックストレージに永続的な形で保存されて（下図参照）、最終的にログレコードがリージョンログストレージから削除される必要があります。

https://storage.googleapis.com/gweb-cloudblog-publish/images/3_Processing_of_a_write_operation_in_AlloyDB.max-900x900.jpg

図 3: AlloyDB で行われる書き込み操作の処理

読み取り操作のプロセス

同様に、読み取り操作は、SQL クエリがデータベースサーバーに送られるところから始まります。これはプライマリインスタンスの場合もあれば、読み取り専用クエリ処理で使用されるレプリカインスタンスの 1 つ（場合によっては多数）の場合もあります（図 4 にはどちらの場合も示されています）。データベースサーバーでは、クエリに対して従来の PostgreSQL システムと同じ解析、計画、処理が行われます。必要とされるブロックがすべてメモリ常駐バッファキャッシュに存在する場合、データベースがストレージレイヤとやりとりする必要はありません。ワーキングセットがバッファキャッシュに入りきらない場合でも非常に高速なクエリ処理が行えるように、AlloyDB では超高速ブロックキャッシュがデータベースレイヤに直接統合されています。このキャッシュによってバッファキャッシュの容量が大幅に拡大し、そうした場合のシステム実行速度がさらに向上しました。

ただし、ブロックがどちらのキャッシュにもない場合は、対応するブロックフェッチリクエストがストレージレイヤに送られます。取り出すべきブロック番号のほか、このリクエストではデータの読み込みを行うログシーケンス番号（LSN）も指定されます。ここで特定の LSN を使用することにより、クエリ処理の間、データベースサーバーで整合状態を維持できるようになります。これが特に重要になるのは、ブロックを PostgreSQL のバッファキャッシュから排除し、続けて再度読み込む場合や、同時実行で（構造的な）変更が行われることのある B ツリーのような、複雑なマルチブロックのインデックス構造を走査する場合です。

https://storage.googleapis.com/gweb-cloudblog-publish/images/4_Processing_of_a_read_operation_in_AlloyD.max-1000x1000.jpg

図 4: AlloyDB で行われる読み取り操作の処理

ストレージレイヤでは、ログ処理サービスもブロックフェッチリクエストの処理を担っています。LPS にはそれぞれ、PostgreSQL バッファキャッシュのインスタンスがあります。リクエストされたブロックがすでに LPS のバッファキャッシュに存在する場合、何の I/O 操作をすることもなく、ブロックを直ちにデータベースレイヤに戻すことができます。リクエストされたブロックがキャッシュに存在しない場合、LPS はそのブロックをシャーディングされたリージョナルストレージから取り出し、データベースレイヤに送り返します。ログ処理サービスは、ある種の記帳処理を行って、未処理のログレコードが存在するブロックがどれなのかを追跡する必要もあります。そうしたブロックに対するリクエストが届いたら（これはめったに起こらないとされるイベントです。データベースレイヤからはキャッシュから追い出されて参照されることになったブロックのリクエストのみが送られるためです）、読み取りリクエストは、そのログレコードに対するやり直し処理が終了するまで停止する必要があります。したがって、そうした停止状態を避けるために、LPS レイヤの WAL 処理が効率的でスケーラブルに行われ、最も要求の厳しいエンタープライズワークロードにも対処できるようになっていることが非常に重要です。これについては、次のセクションで詳しく説明します。

ストレージレイヤの弾力性

ここまで、ログ処理サービスを（各ゾーンの）単一のプロセスとして説明してきました。しかしながら、LPS プロセスが 1 つしかない場合、要求の厳しいエンタープライズワークロードではスケーラビリティの問題が発生する可能性があります。LPS は WAL レコードを継続的に適用すると同時に、プライマリインスタンスと複数のレプリカインスタンスの両方からの読み取りリクエストに対応する必要があるためです。

この問題に対処するために、データベースはシャードと呼ばれるブロックのグループに水平分割されて、永続性を確保します。シャードと LPS リソースの両方が水平方向に独立してスケールされます。

それぞれのシャードは常に　1 つの LPS に割り当てられますが、各 LPS は複数のシャードを処理できます。シャードから LPS へのマッピングは動的で、LPS リソースの数をスケーリングしてシャードを再割り当てすることで、ストレージレイヤはアクセスパターンの増加に柔軟に対応できます。これにより、ストレージレイヤはスループットをスケールできるだけでなく、ホットスポットを回避できます。

ここで 2 つの例について考えてみましょう。最初の例は、システム全体の負荷が増加して、ほぼすべてのシャードが以前より多くのリクエストを受け取る場合です。この場合、ストレージレイヤは LPS インスタンスの数を増やす（たとえば、2 倍にする）ことができます。その後、新しく作成されたログ処理サーバーインスタンスがシャードの一部を引き継いで、既存のインスタンスの負荷を軽減します。このシャードの再割り当てにはデータのコピーやその他のコストのかかる操作は含まれないため、非常に高速でデータベースレイヤからは見えません。

シャードの再割り当てが非常に有効であるもう 1 つの例は、小さなシャードセットへのアクセスが急激に増加した場合です（たとえば、データベースに保存されている特定の製品ファミリーに関する情報が、スーパーボウルのコマーシャル後に頻繁にリクエストされるようになった場合など）。この場合も、ストレージレイヤは動的に対応できます。極端な例では、ワークロードの急激な増加を監視する各シャードを、シャードの負荷を排他的に処理する専用の LPS インスタンスに割り当てることで対応することが可能です。その結果、適切な再シャーディングと LPS の弾力性により、システムはワークロードが急増した場合でも高いパフォーマンスとスループットを提供でき、ワークロードが再び減少した場合にはリソースのフットプリントを削減することもできます。この動的なサイズ変更とストレージレイヤの弾力性は、データベースレイヤとエンドユーザーのどちら側でも完全に自動化されており、ユーザーが操作する必要はありません。

https://storage.googleapis.com/gweb-cloudblog-publish/images/5_Dynamic_mapping_of_shards_to_LPS_instances.max-800x800.jpg

図 5: LPS インスタンスへのシャードの動的マッピングでロードバランシングと LPS の弾力性を実現

ストレージレイヤのレプリケーションと復元

AlloyDB の目標は、データセンターで停電や火災などのゾーン障害が発生した場合でも、データの耐久性とシステムの高可用性を提供することです。このため、すべての AlloyDB インスタンスのストレージレイヤは 3 つのゾーンに分散されています。各ゾーンにはデータベース状態の完全なコピーがあり、前述した低レイテンシであるリージョンのログストレージシステムから WAL レコードを適用することで継続的に更新されます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/6_The_fully_replicated_fully_sharded_multi.max-1000x1000.jpg

図 6: 完全にレプリケーションされ、完全にシャーディングされた、マルチゾーンのデータベース状態

図 6 は、3 つのゾーンにまたがるシステム全体を示しています。各ゾーンには複数のログ処理サーバー（LPS）と、サーバーごとに 1 つまたは複数のシャードがあります。どのゾーンでも各シャードのコピーが使用可能であることに注目してください。

このアーキテクチャでは、最小限のオーバーヘッドでブロックルックアップ操作を実行できます。各ゾーンには完全なデータベース状態の独自のコピーがあるため、データベースレイヤはゾーンの境界をまたいでブロックルックアップ操作を行う必要はありません。さらに、ストレージレイヤはすべてのゾーンに WAL レコードを継続的に適用し、データベースレイヤはリクエストするブロックごとにターゲットバージョン LSN を提供するため（上記を参照）、ルックアップ操作中に読み取りクォーラムを確立する必要もありません。

ゾーン全体が使用できなくなった場合、ストレージレイヤは、同じリージョンの新しいゾーンを統合し、完全なデータベース状態のコピーをそのゾーンに追加することで、障害が発生したゾーンを置き換えることができます。図 6 に示すように、これを行うには、各シャードのコピーが新しいゾーンで使用可能であることを確認し、ログ処理サービスを実行してシャードを最新の WAL レコードで継続的に更新します。このようにして、ストレージレイヤは、データベースレイヤのオーケストレーションや補助的なアクティビティを行わずに、すべてのゾーンフェイルオーバーを内部的に処理します。

これらの組み込みのストレージレイヤ機能に加えて、AlloyDB は手動と自動の両方のバックアップ操作を統合して、アプリケーションレベルの障害やオペレーターの操作ミス（誤ってテーブルを削除するなど）への対策を講じます。

AlloyDB のインテリジェントストレージでできること

要約すると、AlloyDB for PostgreSQL は、データベースのコンピューティングレイヤとストレージレイヤを分離し、ログ処理システムを使用することで多くのデータベース操作をストレージレイヤにオフロードします。ストレージレイヤまで完全に分離されたアーキテクチャにより、AlloyDB for PostgreSQL は変化するワークロードに動的に適応できる弾力性のある分散クラスタとして機能し、耐障害性を強化し、可用性を高め、読み取りスループットを直線的にスケールするコスト効率の高い読み取りプールを実現します。オフロードすることで、プライマリインスタンスの書き込みスループットも大幅に向上します。これは、プライマリインスタンスがクエリ処理に専念して、メンテナンスタスクはストレージレイヤに任せることができるからです。AlloyDB のインテリジェントなデータベース対応のストレージレイヤとしての側面がこれに加わることで、AlloyDB の卓越したパフォーマンスと高可用性が実現されます。

cloud.google.com/alloydb にアクセスして、ぜひ AlloyDB をお試しください。AlloyDB の Columnar Engine に関する次の投稿もお楽しみに。

この投稿と今後の投稿で紹介する AlloyDB の技術革新は、Google のエンジニアリングチームの多大なる貢献により実現されました。

- AlloyDB for PostgreSQL エンジニアリングディレクター Ravi Murthy
- プロダクトマネジメント担当ディレクター Gurmeet（GG）Goindi

データベース