データベース

Next で Bigtable の 20 周年を記念して重要な機能強化を発表

2024年4月16日

https://storage.googleapis.com/gweb-cloudblog-publish/images/Next24_Blog_blank_2-03.max-2500x2500.jpg

Google Cloud Japan Team

※この投稿は米国時間 2024 年 4 月 11 日に、Google Cloud blog に投稿されたものの抄訳です。

インターネット全体のデータを保存するにはどうすればよいか。Bigtable は Google で最も古くから提供されている、最大級のデータストレージシステムの一つですが、2004 年に Bigtable の開発プロジェクトを立ち上げたときにエンジニアリングチームが解決しようとしていたのはこの問題でした。インターネット、そして Google が規模を拡大するにつれ、1 秒あたり数百万件ものリクエストを信頼性のある形で処理し、変化し続けるインターネットのデータを保存することのできる、これまでにないストレージソリューションが必要とされるようになりました。Bigtable の設計は 2006 年発表の研究論文で世に出されましたが、これによりビッグデータの進化が促され、Apache HBase や Cassandra など、さまざまな NoSQL システムのデータベースアーキテクチャ考案につながりました。

それから 20 年経過した現在、Bigtable は Google 検索だけでなく、Google 広告、ドライブ、アナリティクス、マップ、YouTube など、レイテンシの影響を受けやすい Google のさまざまなワークロードをサポートしています。Google Cloud では、Snap、Spotify、Shopify といった有名企業が Bigtable を利用しており、ピーク時には 1 秒あたり 70 億件ものクエリを処理しています。今では Bigtable データベースとやり取りすることなくインターネットを利用できる日は 1 日としてないほど、あらゆる場所で利用されています。

しかし、Bigtable は大手テクノロジー企業のためだけのものではありません。今年、Google はより多くの開発者の皆様に、より多様なユースケースで Bigtable を活用していただけるようにすることを目標としています。手始めとして、今週 Google Cloud Next で数多くの機能強化を発表しました。

Bigtable の Data Boost と承認済みビューの紹介

その一つとして、Bigtable では、稼働中のワークロードに影響を与えることなくサーバーレスでトランザクションデータに対する分析クエリを実行できる Data Boost がサポートされるようになりました。現在プレビュー版の Data Boost を使用することにより、データの提供や分析のために複数のコピーを管理する必要がなくなります。さらに Data Boost はリクエスト元による支払いモデルをサポートしています。これは、データの利用者に対してその利用料金を直接請求できる、運用データベース向け独自機能となっています。

また、新しい Bigtable の承認済みビューにより、多くのデータ共有およびコラボレーションのシナリオを実現できます。たとえば、小売業者は、サーバーのプロビジョニング能力について心配することなく、各ベンダーとの間で売上データや在庫データを安全に共有することにより、需要を正確に予測し、在庫を補充できます。このようなユースケースは複数のビジネスユニットを抱える組織にとっては非常に一般的ですが、従来はこのように高度なデータ共有のユースケースを実現するには、複数のデータベースにデータのコピーを保持し、カスタムのアプリケーションレイヤや請求コンポーネントを構築する必要がありました。しかし Bigtable の承認済みビューと Data Boost を使用すると、各ベンダーは、小売業者の業務運営に一切悪影響をおよぼすことなく、処理したデータ量に応じてそれぞれ料金を支払うことが可能となります。Bigtable の承認済みビューにより、信頼できる唯一の情報源から簡単にデータを提供できるため、データのガバナンスや品質を向上させることができます。

これらの機能、そして従来から提供されているリクエストの優先度は、Bigtable を汎用データファブリック、つまりデジタル統合ハブへと昇華させる力を持っています。Google Cloud のお客様の多くがすでにデータファブリックとして Bigtable を使用しています。優れた書き込みパフォーマンス、水平方向のスケーラビリティ、柔軟なスキーマを備えた Bigtable は、複数のソースからバッチで大量のデータを取り込んだり、リアルタイムのストリーミングイベントを照合したりするプロジェクトにとって理想的なプラットフォームです。しかし、ビジネスやビジネスが抱えるデータは、時間とともに進化します。企業買収、パートナーシップ締結、新規プロダクトのリリース、追加のビジネス指標や ML 機能により、新たなデータソースが追加されます。データから価値を引き出すためには、あらゆる要素を組み合わせ、全体像を把握する必要があります。それもリアルタイムにです。Bigtable は、従来からレイテンシやデータベースのスケーリングに関する問題を解決できるサービスでしたが、承認済みビューや Data Boost などの機能により、データとリソースのガバナンスに関する問題も解決できます。

プレビュー版の Data Boost は無料で提供されます。

次世代のワークロードに向け Bigtable のパフォーマンスを向上

Next では、Bigtable に関していくつかのコストパフォーマンス向上施策も発表しました。Bigtable ではインクリメント演算に最適化された集約データ型が新たに提供されるようになりました。スループットを大幅に向上させることができるこの集約データ型は、分散カウンタの実装やラムダアーキテクチャのシンプル化に活用できます。また、サーバーの使用率が高い状態でも安定して高いパフォーマンスを実現するラージノードを選択することにより、スパイクが多く発生するワークロードも適切にサポートできます。これは、Bigtable が提供する、ワークロードに最適化された初のノードシェイプです。数か月前にポイント読み取りスループットが 1 秒間でノードあたり 10K から 14K に改善されたばかりですが、それから短期間でこれらさまざまな変更の発表に至りました。Bigtable はすでにコストパフォーマンスの高いデータベースとして知られていますが、これらの機能改善により、全体としてさらに TCO を低減できます。

これらの機能改善は、最新の分析および ML ワークロードの基盤として Bigtable を利用する場合にも役立ちます。ML はリアルタイムで行われるようになり、モデルはますます大きくなっています。それに伴い変数の数が増え、柔軟なスキーマやワイドデータ構造が必要になっています。分析ワークロードも、いわゆる One Big Table（OBT）データモデルを採用した、ワイド形式のテーブル設計に移行しつつあります。非常にワイドで、進化し続けるテーブルのために柔軟なデータモデルが必要な場合や、スケーラブルなカウンタ機能によりリアルタイムの指標を広い範囲で提供する必要がある場合、Data Boost やリクエストの優先度などの機能によりシームレスなバックフィルや頻繁なモデルのトレーニングを行う必要がある場合（したがってリアルタイムでのデータの提供とバッチ処理を単一のデータベースに組み合わせる必要がある場合）など、さまざまなユースケースにおいて、Bigtable により ML スタックをシンプル化し、コンセプトやデータのドリフトを低減して、ML モデルのパフォーマンスを向上させることができます。