コンテンツに移動
データベース

Next で Bigtable の 20 周年を記念して重要な機能強化を発表

2024年4月16日
https://storage.googleapis.com/gweb-cloudblog-publish/images/Next24_Blog_blank_2-03.max-2500x2500.jpg
Google Cloud Japan Team

Try Gemini 1.5 Pro

Google's most advanced multimodal model in Vertex AI

Try it

※この投稿は米国時間 2024 年 4 月 11 日に、Google Cloud blog に投稿されたものの抄訳です。

インターネット全体のデータを保存するにはどうすればよいか。Bigtable Google で最も古くから提供されている、最大級のデータ ストレージ システムの一つですが、2004 年に Bigtable の開発プロジェクトを立ち上げたときにエンジニアリング チームが解決しようとしていたのはこの問題でした。インターネット、そして Google が規模を拡大するにつれ、1 秒あたり数百万件ものリクエストを信頼性のある形で処理し、変化し続けるインターネットのデータを保存することのできる、これまでにないストレージ ソリューションが必要とされるようになりました。Bigtable の設計は 2006 年発表の研究論文で世に出されましたが、これによりビッグデータの進化が促され、Apache HBase Cassandra など、さまざまな NoSQL システムのデータベース アーキテクチャ考案につながりました。

それから 20 年経過した現在、Bigtable Google 検索だけでなく、Google 広告、ドライブ、アナリティクス、マップ、YouTube など、レイテンシの影響を受けやすい Google のさまざまなワークロードをサポートしています。Google Cloud では、SnapSpotifyShopify といった有名企業が Bigtable を利用しており、ピーク時には 1 秒あたり 70 億件ものクエリを処理しています。今では Bigtable データベースとやり取りすることなくインターネットを利用できる日は 1 日としてないほど、あらゆる場所で利用されています。

しかし、Bigtable は大手テクノロジー企業のためだけのものではありません。今年、Google はより多くの開発者の皆様に、より多様なユースケースで Bigtable を活用していただけるようにすることを目標としています。手始めとして、今週 Google Cloud Next で数多くの機能強化を発表しました。

Bigtable Data Boost と承認済みビューの紹介

その一つとして、Bigtable では、稼働中のワークロードに影響を与えることなくサーバーレスでトランザクション データに対する分析クエリを実行できる Data Boost がサポートされるようになりました。現在プレビュー版の Data Boost を使用することにより、データの提供や分析のために複数のコピーを管理する必要がなくなります。さらに Data Boost はリクエスト元による支払いモデルをサポートしています。これは、データの利用者に対してその利用料金を直接請求できる、運用データベース向け独自機能となっています。

また、新しい Bigtable 承認済みビューにより、多くのデータ共有およびコラボレーションのシナリオを実現できます。たとえば、小売業者は、サーバーのプロビジョニング能力について心配することなく、各ベンダーとの間で売上データや在庫データを安全に共有することにより、需要を正確に予測し、在庫を補充できます。このようなユースケースは複数のビジネス ユニットを抱える組織にとっては非常に一般的ですが、従来はこのように高度なデータ共有のユースケースを実現するには、複数のデータベースにデータのコピーを保持し、カスタムのアプリケーション レイヤや請求コンポーネントを構築する必要がありました。しかし Bigtable の承認済みビューと Data Boost を使用すると、各ベンダーは、小売業者の業務運営に一切悪影響をおよぼすことなく、処理したデータ量に応じてそれぞれ料金を支払うことが可能となります。Bigtable の承認済みビューにより、信頼できる唯一の情報源から簡単にデータを提供できるため、データのガバナンスや品質を向上させることができます。

これらの機能、そして従来から提供されているリクエストの優先度は、Bigtable を汎用データ ファブリック、つまりデジタル統合ハブへと昇華させる力を持っています。Google Cloud のお客様の多くがすでにデータ ファブリックとして Bigtable を使用しています。優れた書き込みパフォーマンス、水平方向のスケーラビリティ、柔軟なスキーマを備えた Bigtable は、複数のソースからバッチで大量のデータを取り込んだり、リアルタイムのストリーミング イベントを照合したりするプロジェクトにとって理想的なプラットフォームです。しかし、ビジネスやビジネスが抱えるデータは、時間とともに進化します。企業買収、パートナーシップ締結、新規プロダクトのリリース、追加のビジネス指標や ML 機能により、新たなデータソースが追加されます。データから価値を引き出すためには、あらゆる要素を組み合わせ、全体像を把握する必要があります。それもリアルタイムにです。Bigtable は、従来からレイテンシやデータベースのスケーリングに関する問題を解決できるサービスでしたが、承認済みビューや Data Boost などの機能により、データとリソースのガバナンスに関する問題も解決できます。

プレビュー版の Data Boost は無料で提供されます。

次世代のワークロードに向け Bigtable のパフォーマンスを向上

Next では、Bigtable に関していくつかのコスト パフォーマンス向上施策も発表しました。Bigtable ではインクリメント演算に最適化された集約データ型が新たに提供されるようになりました。スループットを大幅に向上させることができるこの集約データ型は、分散カウンタの実装やラムダ アーキテクチャのシンプル化に活用できます。また、サーバーの使用率が高い状態でも安定して高いパフォーマンスを実現するラージノードを選択することにより、スパイクが多く発生するワークロードも適切にサポートできます。これは、Bigtable が提供する、ワークロードに最適化された初のノードシェイプです。数か月前にポイント読み取りスループットが 1 秒間でノードあたり 10K から 14K に改善されたばかりですが、それから短期間でこれらさまざまな変更の発表に至りました。Bigtable はすでにコスト パフォーマンスの高いデータベースとして知られていますが、これらの機能改善により、全体としてさらに TCO を低減できます。

これらの機能改善は、最新の分析および ML ワークロードの基盤として Bigtable を利用する場合にも役立ちます。ML はリアルタイムで行われるようになり、モデルはますます大きくなっています。それに伴い変数の数が増え、柔軟なスキーマやワイドデータ構造が必要になっています。分析ワークロードも、いわゆる One Big TableOBT)データモデルを採用した、ワイド形式のテーブル設計に移行しつつあります。非常にワイドで、進化し続けるテーブルのために柔軟なデータモデルが必要な場合や、スケーラブルなカウンタ機能によりリアルタイムの指標を広い範囲で提供する必要がある場合、Data Boost やリクエストの優先度などの機能によりシームレスなバックフィルや頻繁なモデルのトレーニングを行う必要がある場合(したがってリアルタイムでのデータの提供とバッチ処理を単一のデータベースに組み合わせる必要がある場合)など、さまざまなユースケースにおいて、Bigtable により ML スタックをシンプル化し、コンセプトやデータのドリフトを低減して、ML モデルのパフォーマンスを向上させることができます。

世界最大規模のクラウド データベース Bigtable には、20 年間にわたり運用してきた実績があります。それにより得た知見により、要件の非常に厳しいワークロードにも対応できます。Google Cloud Next では、車両テレメトリー プラットフォームとして Bigtable を使用する Ford の事例レイテンシの影響を受けやすいワークロードで Bigtable を使用する Snap の事例レコメンデーション システムの基盤として Bigtable を使用する Shopify の事例Apache Cassandra から Bigtable に移行した Palo Alto Networks の取り組みを紹介するセッションを提供していますので是非ご覧ください。

その他のリソース

- Bigtable 担当グループ プロダクト マネージャー Bora Beran

投稿先