データベース

Next ‘23 で発表された Bigtable の新機能

2023年8月31日

https://storage.googleapis.com/gweb-cloudblog-publish/images/Bigtable.max-2500x2500.jpg

Bora Beran

Group Product Manager

※この投稿は米国時間 2023 年 9 月 1 日に、Google Cloud blog に投稿されたものの抄訳です。

この数週間は、Cloud Bigtable チームにとって忙しい日々でした。Cloud Bigtable は、Google Cloud が提供する低レイテンシのフルマネージド NoSQL データベースサービスです。Google Cloud Next ’23 に先立って大きな発表をいくつも行い、さらにイベント期間中にも、トランザクションと分析のハイブリッド処理（HTAP）、マルチクラウド機能、新しい費用削減方法、Google Cloud やオープンソースエコシステムと連携させる方法など、さまざまなことを発表しました。そのハイライトをご紹介します。

変更ストリームでイベントドリブンアプリケーションを構築

このたび一般提供された新しい変更ストリーム機能を使用すると、Bigtable データの変更点を追跡し、他のシステムと簡単に統合できます。たとえば、Bigtable での変更を BigQuery に複製して分析を行ったり、ElasticSearch に複製してオートコンプリートや全文検索に使用したり、他のデータベースに複製してマルチクラウドアーキテクチャやハイブリッドクラウドアーキテクチャをサポートしたりすることができます。また、Pub/Sub と Cloud Functions を使用してダウンストリームアクションをトリガーしたり、Vertex AI と連携させて ML を活用した機能を実現したりすることも可能です。

たとえば小売企業の場合、変更ストリームを活用して商品カタログにおける価格や在庫状況などの変更点をモニタリングし、アプリ内通知、テキスト通知、メール通知をトリガーして顧客に知らせることができます。また、バンキングアプリで、アップロードされたドキュメントを Cloud Vision AI に渡して内容を解析することもできます。

確約利用割引で Bigtable ノードの料金が 20～40% オフに

このたび発表したように、Bigtable のコンピューティング容量（ノードで測定）を 1 年間または 3 年間継続的に利用することを確約していただくと、Bigtable に大幅な割引が適用されるようになりました。1 年間のコミットメントの場合は 20% 割引、3 年間のコミットメントの場合は 40% 割引となります。Bigtable の確約利用割引は費用ベースであり、Google Cloud のすべてのリージョンとプロジェクトで柔軟に利用できます。

Bigtable と HBase の双方向レプリケーションでマルチクラウドを実現

マルチクラウドは組織の IT 戦略において重要な要素になりましたが、クラウドデータベースサービスの中には、独自の API とデータモデルがあるために、マルチクラウドデプロイに対応できないものもあります。幸いなことに、Bigtable はオープンソースの Apache HBase に対応する API を提供しているだけでなく、共通のワイドカラムデータモデルを共有しているため、従来からこの 2 つのシステム間での移行はとても簡単でした。さらに、新しい双方向レプリケーション機能を利用すると、この適合性を活かしてマルチクラウドデプロイやハイブリッドクラウドデプロイを実現できます。

トランザクションと分析のハイブリッド処理でリクエスト優先度を指定可能に

デジタルトランスフォーメーションを進めている組織が直面する大きな障壁の一つは、運用中のライブデータベースに対してバッチ分析ワークロードやアドホック分析ワークロードを実行する際、中断のリスクがつきまとうことです。このようなオペレーションでは大量のリソースを消費する可能性があり、放置していると、レイテンシの影響を受けやすいサービスワークロードが中断されるおそれがあります。そのため、データベースのオーナーはそのようなシナリオに対して厳格な管理や制限を実装しています。一部のチームは、この問題を回避するためにレプリカを追加で作成したり、バッチ書き込みをトラフィックが少ない時間帯に制限したり、データベースをオーバープロビジョニングしたりしていますが、そうすると多大な費用と管理オーバーヘッドが生じます。別のチームは、データを分析システムに配信する複雑なパイプラインを構築しようと試みていますが、これも費用が高額になるだけでなく、ミスが起こりやすく、データの更新速度や正確性の問題が生じます。このような難しさがあるために、多くの組織がデータを効果的に活用できず、データドリブンのイノベーションが妨げられています。

今週の Google Cloud Next で、Google は Bigtable のリクエスト優先度機能を発表しました。今後は、レイテンシの影響を受けやすいクエリを優先度の高いジョブとして処理している Bigtable クラスタで、分析クエリやバッチ書き込みといった時間的制約がない大規模なワークロードも優先度の低いジョブとして実行できるようになるため、バッチ処理によって発生するサービスワークロードへの影響が大幅に軽減されます。リクエスト優先度機能は、分析のための一般的な Bigtable へのアクセス手段、たとえば BigQuery 連携、Dataflow コネクタや Spark コネクタなどでもサポートされています。これによってアナリスト、データエンジニア、データサイエンティストはオペレーションデータを簡単に使用でき、管理者も、データのバッチ読み込みやオンラインモデルのトレーニングといったオペレーションが運用パフォーマンスにほとんど影響を与えないというメリットを得られます。

こちらから登録すると、リクエスト優先度機能をお試しいただけます。

ETL ツール不要で BigQuery から Bigtable にエクスポート

アプリケーションで、エンドユーザーに分析情報を提供する必要があることがよくあります。モバイルアプリでアプリ分析情報を提供する場合や、ML モデルでパーソナライズした広告を秒単位で多数配信する場合など、ケースはさまざまです。このパターンは「リバース ETL」と呼ばれることもありますが、この種のデータをオペレーショナルデータベースに取り込むには ETL パイプラインが必要で、その際にデータエンジニアのサポートを得るためのチケットを登録する必要が生じる場合があります。Google はもっと良い方法があると考えました。開発者やデータサイエンティストがセルフサービス方式でデータウェアハウスのデータをオペレーショナルデータベースに移動できるようにしてはどうでしょうか？

Google Cloud のお客様の多くは、Bigtable を利用したダッシュボードで、自社のソーシャルメディアコンテンツに対するエンゲージメント指標や、IoT の時系列データをパブリッシュしています。また、データサイエンティストは BigQuery で ML 特徴量を作成しており、ML モデルで必要になる低レイテンシで高スループットのオンライン特徴量ストアのアクセスパターンに対応するために、多くの場合はその特徴量を Bigtable にマテリアライズしています。

Bigtable チームは BigQuery チームと緊密に連携して、このようなエクスポート機能を BigQuery に直接組み込み、Google の 2 つの「ビッグ」データベース（BigQuery と Bigtable）のスケーラビリティをフル活用できるようにしました。開発者はアプリケーションに必要な分析情報を簡単にエクスポートでき、データサイエンティストは BigQuery コンソールから直接、特徴量をマテリアライズできます。ETL ツールを触る必要は一切ありません。

この機能は、現在プレビュー版への登録を受付中です。