Next ‘23 で発表された Bigtable の新機能
Bora Beran
Group Product Manager, Bigtable
※この投稿は米国時間 2023 年 9 月 1 日に、Google Cloud blog に投稿されたものの抄訳です。
この数週間は、Cloud Bigtable チームにとって忙しい日々でした。Cloud Bigtable は、Google Cloud が提供する低レイテンシのフルマネージド NoSQL データベース サービスです。Google Cloud Next ’23 に先立って大きな発表をいくつも行い、さらにイベント期間中にも、トランザクションと分析のハイブリッド処理(HTAP)、マルチクラウド機能、新しい費用削減方法、Google Cloud やオープンソース エコシステムと連携させる方法など、さまざまなことを発表しました。そのハイライトをご紹介します。
変更ストリームでイベント ドリブン アプリケーションを構築
このたび一般提供された新しい変更ストリーム機能を使用すると、Bigtable データの変更点を追跡し、他のシステムと簡単に統合できます。たとえば、Bigtable での変更を BigQuery に複製して分析を行ったり、ElasticSearch に複製してオートコンプリートや全文検索に使用したり、他のデータベースに複製してマルチクラウド アーキテクチャやハイブリッドクラウド アーキテクチャをサポートしたりすることができます。また、Pub/Sub と Cloud Functions を使用してダウンストリーム アクションをトリガーしたり、Vertex AI と連携させて ML を活用した機能を実現したりすることも可能です。
たとえば小売企業の場合、変更ストリームを活用して商品カタログにおける価格や在庫状況などの変更点をモニタリングし、アプリ内通知、テキスト通知、メール通知をトリガーして顧客に知らせることができます。また、バンキング アプリで、アップロードされたドキュメントを Cloud Vision AI に渡して内容を解析することもできます。
確約利用割引で Bigtable ノードの料金が 20~40% オフに
このたび発表したように、Bigtable のコンピューティング容量(ノードで測定)を 1 年間または 3 年間継続的に利用することを確約していただくと、Bigtable に大幅な割引が適用されるようになりました。1 年間のコミットメントの場合は 20% 割引、3 年間のコミットメントの場合は 40% 割引となります。Bigtable の確約利用割引は費用ベースであり、Google Cloud のすべてのリージョンとプロジェクトで柔軟に利用できます。
Bigtable と HBase の双方向レプリケーションでマルチクラウドを実現
マルチクラウドは組織の IT 戦略において重要な要素になりましたが、クラウド データベース サービスの中には、独自の API とデータモデルがあるために、マルチクラウド デプロイに対応できないものもあります。幸いなことに、Bigtable はオープンソースの Apache HBase に対応する API を提供しているだけでなく、共通のワイドカラム データモデルを共有しているため、従来からこの 2 つのシステム間での移行はとても簡単でした。さらに、新しい双方向レプリケーション機能を利用すると、この適合性を活かしてマルチクラウド デプロイやハイブリッドクラウド デプロイを実現できます。
トランザクションと分析のハイブリッド処理でリクエスト優先度を指定可能に
デジタル トランスフォーメーションを進めている組織が直面する大きな障壁の一つは、運用中のライブ データベースに対してバッチ分析ワークロードやアドホック分析ワークロードを実行する際、中断のリスクがつきまとうことです。このようなオペレーションでは大量のリソースを消費する可能性があり、放置していると、レイテンシの影響を受けやすいサービス ワークロードが中断されるおそれがあります。そのため、データベースのオーナーはそのようなシナリオに対して厳格な管理や制限を実装しています。一部のチームは、この問題を回避するためにレプリカを追加で作成したり、バッチ書き込みをトラフィックが少ない時間帯に制限したり、データベースをオーバープロビジョニングしたりしていますが、そうすると多大な費用と管理オーバーヘッドが生じます。別のチームは、データを分析システムに配信する複雑なパイプラインを構築しようと試みていますが、これも費用が高額になるだけでなく、ミスが起こりやすく、データの更新速度や正確性の問題が生じます。このような難しさがあるために、多くの組織がデータを効果的に活用できず、データドリブンのイノベーションが妨げられています。
今週の Google Cloud Next で、Google は Bigtable のリクエスト優先度機能を発表しました。今後は、レイテンシの影響を受けやすいクエリを優先度の高いジョブとして処理している Bigtable クラスタで、分析クエリやバッチ書き込みといった時間的制約がない大規模なワークロードも優先度の低いジョブとして実行できるようになるため、バッチ処理によって発生するサービス ワークロードへの影響が大幅に軽減されます。リクエスト優先度機能は、分析のための一般的な Bigtable へのアクセス手段、たとえば BigQuery 連携、Dataflow コネクタや Spark コネクタなどでもサポートされています。これによってアナリスト、データ エンジニア、データ サイエンティストはオペレーション データを簡単に使用でき、管理者も、データのバッチ読み込みやオンライン モデルのトレーニングといったオペレーションが運用パフォーマンスにほとんど影響を与えないというメリットを得られます。
こちらから登録すると、リクエスト優先度機能をお試しいただけます。
ETL ツール不要で BigQuery から Bigtable にエクスポート
アプリケーションで、エンドユーザーに分析情報を提供する必要があることがよくあります。モバイルアプリでアプリ分析情報を提供する場合や、ML モデルでパーソナライズした広告を秒単位で多数配信する場合など、ケースはさまざまです。このパターンは「リバース ETL」と呼ばれることもありますが、この種のデータをオペレーショナル データベースに取り込むには ETL パイプラインが必要で、その際にデータ エンジニアのサポートを得るためのチケットを登録する必要が生じる場合があります。Google はもっと良い方法があると考えました。開発者やデータ サイエンティストがセルフサービス方式でデータ ウェアハウスのデータをオペレーショナル データベースに移動できるようにしてはどうでしょうか?
Google Cloud のお客様の多くは、Bigtable を利用したダッシュボードで、自社のソーシャル メディア コンテンツに対するエンゲージメント指標や、IoT の時系列データをパブリッシュしています。また、データ サイエンティストは BigQuery で ML 特徴量を作成しており、ML モデルで必要になる低レイテンシで高スループットのオンライン特徴量ストアのアクセス パターンに対応するために、多くの場合はその特徴量を Bigtable にマテリアライズしています。
Bigtable チームは BigQuery チームと緊密に連携して、このようなエクスポート機能を BigQuery に直接組み込み、Google の 2 つの「ビッグ」データベース(BigQuery と Bigtable)のスケーラビリティをフル活用できるようにしました。開発者はアプリケーションに必要な分析情報を簡単にエクスポートでき、データ サイエンティストは BigQuery コンソールから直接、特徴量をマテリアライズできます。ETL ツールを触る必要は一切ありません。
この機能は、現在プレビュー版への登録を受付中です。
復元性を強化するために複数リージョンでのバックアップ保持期間を延長
最後になりますが、このたび発表されたように、Cloud Bigtable バックアップのコピーを作成して、Bigtable インスタンスがある任意のプロジェクトやリージョンに保存できるようになりました。バックアップは最大 90 日間保持できます。
ご意見をお聞かせください
今回ご説明した機能にご関心をお持ちの方は、プレビュー版に登録してこれらの新機能をお試しいただき、ご意見をお聞かせください。
- グループ プロダクト マネージャー、Bora Beran