データ分析

BigQuery ML とオブジェクトテーブルを使用して非構造化データの価値を大規模に引き出す

2022年11月1日

Google Cloud Japan Team

※この投稿は米国時間 2022 年 10 月 21 日に、Google Cloud blog に投稿されたものの抄訳です。

これまでは一般的に言って、データチームは構造化データを扱ってきました。2025 年までには、画像、ドキュメント、動画を含む非構造化データは、データの最大 80% を占めるようになるでしょう。ところが現在の組織は、有益な分析情報を抽出するにあたって、非構造化データの数パーセントしか使用していません。

非構造化データから価値を引き出す主な方法の一つは、データに ML を適用することです。これによって、画像からのオブジェクトの抽出、ある言語から別の言語へのテキストの変換、画像からの文字認識、感情分析などが可能になります。現在は、対応する ML モデルをホストするサービスを利用することによってこのようなタスクを実行できます。しかし、さまざまな業界の企業が次の 3 つの主な課題に直面しています。

データ管理: データサイエンティストやアナリストは、ML パイプライン、ノートブック、その他の AI プラットフォームを構築する場所に、保存データを移動する必要がある
インフラストラクチャ管理: 大企業にとって望ましいセキュリティやガバナンスの保証がない
データサイエンスリソースの不足: Python でのカスタムソリューションの開発、そして Spark や Beam / Dataflow などのフレームワークの使用が必要である

BigQuery は、ユーザーが構造化データと半構造化データのすべてを管理および分析するのを支援する、業界をリードするフルマネージドのクラウドデータウェアハウスです。BigQuery はストレージとコンピューティングのスケールメリットを活かし、ユーザーによるデータベース内機械学習の実施も可能にします。現在、BigQuery は、基礎となるデータウェアハウスから提供されるエンタープライズグレードのセキュリティやガバナンスの保証を犠牲にすることなくデータサイロの排除やコンピューティングの民主化を実現する、統合ソリューションを提供することによって、これらの機能を非構造化データにまで広げようとしています。データ実務者は、使い慣れた SQL コンストラクトを使用して、1 つのシステム内で構造化データと非構造化データを組み合わせることによって、画像やテキストなどを大規模に分析し、分析情報を拡充することができるようになりました。この記事では、以下について学びます。

非構造化データへのアクセスを可能にするオブジェクトテーブルについて
SQL を実行して画像から分析情報を得る方法
Cloud AI サービスを利用しながら非構造化データ分析を拡張する方法

オブジェクトテーブルを導入して非構造化データへのアクセスを可能にする

Next ‘22 において、Google は BigQuery の新しいテーブルタイプであるオブジェクトテーブルのプレビューを発表しました。オブジェクトテーブルは、Google Cloud Storage に保存されたオブジェクトのメタデータを提供します。BigLake が活用されているオブジェクトテーブルは、単一の管理フレームワークの下に構造化データと非構造化データを集約する、基本的なインフラストラクチャとして機能します。これにより、データを移動することなく、あらゆる形状や形式のデータからビジネス分析情報を引き出すための機械学習モデルを構築できます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_BigQuery_ML.max-700x700.jpg

SQL を実行して画像から分析情報を獲得する

非構造化データに簡単にアクセスできることによって、画像に対する SQL を作成したり、BigQuery ML を使用して機械学習モデルから結果を予測したりできるようになります。最新の TensorFlow Vision モデル（ImageNet や ResNet 50 など）または独自のモデルのどちらかをインポートし、オブジェクトの検出、写真のアノテーション付け、画像からのテキストの抽出などを行うことができます。画像分析の結果と構造化データ（ウェブサイトトラフィックや販売注文など）を統合し、ビジネス成果を上げるための分析情報を生成するように機械学習モデルをトレーニングできます。Adswerve と Twiddy がどのようにして賃貸物件の画像を分析に組み込み、最もユーザーの心に響く検索結果を生成することができたかを見てみましょう。

Adswerve と Twiddy の事例

Adswerve は、データを身近なものにすることをミッションとする、Google マーケティング、Google アナリティクス、および Google Cloud の主要パートナーです。Twiddy & Co. は Adswerve のクライアントで、ノースカロライナ州の貸別荘会社です。顧客が夢の別荘を見つけるのをお手伝いすることにより、格別の顧客体験を創出しています。

「弊社は 45 年の長きにわたって、地元の家族経営の貸別荘会社として米国南部の温かいおもてなしを提供することに注力してきました。これまでずっと、この地ならではの体験を魅力的に表現する別荘の画像を探し求めてきました。今では、BigQuery ML によって、何千もの可能性のある選択肢を分析し、それらを既存のクリックスルーデータと組み合わせることによって、適切な画像をクリエイティブに導き出すことができています。これにより、弊社のビジネス分析担当者の業務の手間が大幅に削減されました。他の方法では、もっと多くの時間がかかるか、何もできないかのどちらかでしょう。」— Twiddy & Company マーケティングディレクター Shelley Tolbert 氏

ウェブサイト上での顧客の検索体験をさらに向上させるために、この会社は次の 3 つの課題に直面していました。

顧客の好みを予測する際、構造化データ（場所や規模など）のみに依存している
編集チームが写真選択プロセスを手作業で行っている
機械学習パイプラインを構築するためのデータサイエンスリソースが必要であり、画像サイズを変更するためのデータの処理に手間がかかっている

この会社は、ウェブサイト検索データと賃貸物件画像の両方を使用して機械学習モデルを構築し、賃貸不動産のクリック率を予測できるようにしたいと考えていました。この会社がオブジェクトテーブルという新しい機能を備えた BigQuery ML を使用して、この目標を実現した方法を紹介します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_BigQuery_ML.max-800x800.jpg

ステップ 1: オブジェクトテーブルを作成することによって画像データにアクセスする

https://storage.googleapis.com/gweb-cloudblog-publish/images/3_BigQuery_ML.max-2000x2000.jpg

ステップ 2: TensorFlow の画像モデルをインポートすることによって画像エンベディングを作成する

https://storage.googleapis.com/gweb-cloudblog-publish/images/4_BigQuery_ML.max-2000x2000.jpg

ステップ 3: 画像データとウェブサイトデータの両方を使用して、ワイド＆ディープ BigQuery ML 対応モデルをトレーニングし、賃貸不動産のクリック率を予測する

結果は、ユーザーが水辺やその他の良い景色が写った画像をクリックする傾向が強いことを示唆していました。Twiddy の編集チームはこれらの分析情報を使用して、画像の選択や編集の際に、よりデータドリブンなアプローチを取るようになりました。より専門的なデータサイエンティストを雇用しなくても、既存のアナリストのスキルで扱える SQL を使用することによって、これらすべてを行うことができます。詳細については、Adswerve が制作した次のデモをご覧ください。

https://storage.googleapis.com/gweb-cloudblog-publish/images/5_BigQuery_ML.max-1200x1200.jpg

Cloud AI サービスを利用した非構造化データ分析の拡張

ユーザー独自のまたは一般に使用される機械学習モデルを使用した非構造化データの分析に加えて、Google は Cloud AI サービスを提供しており、Translation AI、Vision AI、Natural Language AI、および BigQuery に内蔵されたその他の多くの機能をご利用いただけます。テキストの翻訳、写真からのオブジェクトの検出、ユーザーフィードバックに対する感情分析の実行などのすべてを SQL で行うことができます。また、この結果を機械学習モデルに組み込んでさらに分析を進めることができます。

YouVersion 聖書アプリは 5 億台以上の一意のデバイスにインストールされています。このアプリは、聖書の本文を 1,800 を超える言語で提供し、検索は 103 の言語でサポートされています。ウクライナにおける地政学的問題の発生時に、ウクライナ語での検索件数が約 2 倍になりました。チームは、人々が何を検索しているかを理解し、検索結果が人々に希望と平和をもたらすコンテンツを提供できているかどうかを確認したいと考えました。しかし、自動翻訳機能がなかったために、チームは 1 日に何回も、検索された語をすべて手作業でコピーして Google 翻訳に貼り付けるということを何週にもわたって続けなければならず、多くの時間を費やしていました。

YouVersion は BigQuery ML を使用した翻訳機能によって、今後はアプリ内でユーザーが何を探しているかを簡単に学習できるようになるでしょう。チームは、検索結果をすばやく微調整して、ユーザーにとって適切なコンテンツを提供できるようになります。これにより、チームとサービスを受ける人々との間の言語の壁を取り払うことができます。これは世界的なコミュニティに十分に奉仕するという YouVersion の方向性と一致するものです。詳細については、YouVersion が制作した次のデモをご覧ください。

次のステップ

Google は今後も、ドキュメント、音声、動画などのさまざまな非構造化データタイプのために、これらの機能を拡張し続けます。BigQuery ML を使用して BigQuery 内の非構造化データの力を引き出す、これらの新しい機能を試すには、こちらのフォームを送信してください。Google Cloud Next で発表されたその他の BigQuery ML 機能を見つけることができます。

- BigQuery ML プロダクトマネージャー Candice Chen

- BigQuery シニアソフトウェアエンジニアリングマネージャー Amir Hormati

投稿先