コンテンツに移動
データ分析

一般提供のお知らせ - 非構造化データを AI で変革できる BigQuery オブジェクト テーブル

2023年6月2日
Google Cloud Japan Team

※この投稿は米国時間 2023 年 5 月 26 日に、Google Cloud blog に投稿されたものの抄訳です。

現在、世界で生成されているデータの大部分は非構造化データ(テキスト、音声、画像)ですが、分析の対象とされているのはそのうちのほんの一握りです。こうしたデータの価値を引き出すうえで必要な AI パイプラインは主流の分析システムからサイロ化されており、エンジニアは構造化データと非構造化データの分析情報を統合するカスタムデータ インフラストラクチャを構築する必要があります。

Google の目標は、その種類や形式を問わず、すべてのデータの潜在可能性を実現できるようサポートすることです。その実現可能性を高めるべく、Google は、Google Cloud Next 2022 で BigQuery オブジェクト テーブルのプレビュー版をリリースしました。BigLake を利用したオブジェクト テーブルは、BigQuery ユーザーに Cloud Storage に保存された非構造化データの構造化レコード インターフェースを提供します。これがあれば、既存の BigQuery フレームワークを利用して、安全かつ管理された方法でオブジェクト テーブルを使用し、それに基づいて非構造化データを処理し、管理できます。

プレビュー版をリリースして以来、多くのユースケースでオブジェクト テーブルが使用されているところを目にしてきましたが、このたびオブジェクト テーブルが一般提供される運びとなりましたので、お知らせいたします。

https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault_MJT46Ql.max-1300x1300.jpg

BigQuery オブジェクト テーブルで非構造化データを分析

https://storage.googleapis.com/gweb-cloudblog-publish/images/image2_ESsx5ZK.max-700x700.png

オブジェクト テーブルを使用すれば、SQL のシンプルさを活用して、非構造化データに対し、幅広い AI モデルを実行できます。AI モデルの使用にあたっては 3 つの主要なメカニズムがあります。すべて BigQuery 推論エンジンを通じて有効化できます。

1 つ目は、モデルをインポートし、オブジェクト テーブルに対してクエリを実行し、BigQuery でデータを処理するというものです。このアプローチは、既存の BigQuery リソースを利用できる、統合された BigQuery ソリューションをお探しのお客様に最適です。プレビュー版のリリース以来、TensorFlow モデルだけでなく TF-Lite と ONNX のモデルを使用してサポートを拡張し、画像を前処理するための新しいスカラー関数を導入しました。また、前処理されたテンソルの保存のサポートも追加しました。これにより、テンソルのマルチモデルの効率的な使用が可能になり、スロットの使用量を削減できるようになりました。

2 つ目は、Cloud Vision API、Cloud Natural Language API、Cloud Translation API など、Google が提供するさまざまなトレーニング済みのモデルから選択するというメカニズムです。こうしたモデルには、オブジェクト テーブルのクエリ実行時に呼び出される定義済みの SQL テーブル値関数が追加されています。推論の結果は BigQuery テーブルとして保存されます。

3 つ目は、リモート関数を使用して、セルフホスト型の AI モデルや、Vertex AI を通じて構築されたカスタムモデルを統合できるというものです。こうしたリモート関数を BigQuery SQL から呼び出し、オブジェクトをモデルに提供すると、結果が BigQuery テーブルとして返されます。このオプションは、GPU などのお客様独自のモデル インフラストラクチャを実行する場合、または外部でモデルを保守している場合に適しています。

プレビュー版のリリース中、お客様はこうした統合メカニズムを組み合わせて使用し、BigQuery の既存のデータと AI ワークロードを統合していました。たとえば、アグロテック企業の Semios は、インポートした画像処理モデルとリモート画像処理モデルを使用して、精密農業のユースケースに対応しています。

「オブジェクト テーブルを備えた新しいインポート モデル機能により、最先端の Pytorch ビジョンモデルをインポートして画像データを処理し、BigQuery を使用して果樹園内の温度予測を向上させることができます。さらに、新しいリモートモデル機能により、パイプラインを大幅に簡素化し、保守性を向上させることができます。」 - Semios

https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault-1_fr1xIKu.max-1300x1300.jpg

Storage の分析情報、きめ細かいセキュリティ、共有など

AI モデルによる処理に留まらず、既存のデータ管理フレームワークを非構造化データに拡張することで、次のようないくつかの新しいユースケースが生まれています。

Cloud Storage の分析情報 - オブジェクト テーブルが Cloud Storage メタデータ(ストレージ クラスなど)への SQL インターフェースを提供し、Cloud Storage の使用状況に関する分析の構築、増加の把握、費用の最適化、情報に基づく意思決定によるデータ管理の改善を容易にします。

大規模できめ細かいアクセス制御 - オブジェクト テーブルは BigLake の統合レイクハウス インフラストラクチャ上に構築され、行レベルと列レベルのアクセス制御をサポートします。これを使用すると、管理された署名付き URL で特定のオブジェクトを安全に保つことができます。きめ細かいアクセス制御は、AI モデルから返された PII 推論に基づいて特定のドキュメントや画像を保護するなど、非構造化データのユースケースを強化するために幅広く適用できます。  

Analytics Hub との共有 - BigLake テーブルに類似のオブジェクト テーブルを Analytics Hub 経由で共有できるため、非構造化データの共有ユースケースが拡張されます。バケットを共有する代わりに、パートナー、顧客、またはサプライヤーと共有したいとお客様が考えているオブジェクトをより細かく制御できるようになりました。

オブジェクト テーブルを使用してジェネレーティブ AI ワークロードを実行(プレビュー版)

Google Cloud AI の Trusted Tester プログラムのメンバーは、Model Garden で利用できる幅広いジェネレーティブ AI モデルを使用して、オブジェクト テーブル上で実行できます。Generative AI Studio を使用して、特定の基盤モデルを決定したり、それを微調整してカスタム API エンドポイントをデプロイしたりすることもできます。そこから、BigQuery でリモート関数の統合を使用してこの API を呼び出し、プロンプト / 入力を渡し、言語学習モデル(LLM)からのテキスト結果を BigQuery テーブルで返すことができます。今後数か月以内に、BigQuery 推論エンジンを介して SQL 関数が LLM を直接呼び出せるようになり、このワークロードがさらに簡素化される予定です。

ご利用にあたって

まずは、ガイド付きラボまたはチュートリアルに沿って、最初の非構造化データ分析を BigQuery で実行します。詳細については、ドキュメントをご参照ください。

Abhinav Khushraj、Amir Hormati、Anoop Johnson、Bo Yang、Eric Hao、Gaurangi Saxena、Jeff Nelson、Jian Guo、Jiashang Liu、Justin Levandoski、Mingge Deng、Mujie Zhang、Oliver Zhuang、Yuri Volobuev をはじめ、今回のリリースに協力してくれた BigQuery エンジニアリング チームのメンバーに感謝申し上げます。

- グループ プロダクト マネージャー Gaurav Saxena
- シニア スタッフ ソフトウェア エンジニア Thibaud Hottelier
投稿先