コンテンツに移動
データ分析

BigQuery と Google AI で構築: Glean によってエンタープライズ サーチの品質と用語の関連性を向上

2023年3月29日
Google Cloud Japan Team

※この投稿は米国時間 2023 年 3 月 2 日に、Google Cloud blog に投稿されたものの抄訳です。

背景情報

Glean について

Glean は、お客様の企業でご利用のすべてのアプリを検索し、必要なものを的確に見つけたり、最良の仕事をするために必要な情報を探し出したりすることができます。企業内で使用されているすべての職場向けアプリケーション、ウェブサイト、データソースを対象にした優れた統合エンタープライズ サーチを提供します。検索結果には企業のシステムに既存の権限が適用されるため、ユーザーは表示権限を保有している情報のみを表示できます。Glean のエンタープライズ サーチでは、ユーザーの役職、プロジェクト、共同編集者、会社固有の言語や頭字語も考慮されます。高度にパーソナライズされた結果によって、ユーザーとその業務に最も適切な情報を提供します。これにより、検索に要する時間が大幅に短縮され、生産性が増すとともに、作業を進めるために必要な情報を探す際の煩わしさが軽減されます。

Google Cloud が Glean の基盤である理由

Glean のパーソナライズされた高度なエンタープライズ サーチに不可欠なのが、その背景にあるテクノロジーです。Glean は Google Cloud 上に構築され(図 1 参照)、Google のデータクラウドを活用しています。これは、BigQuery、Dataflow、Vertex AI などのコンポーネントを持つ現代的なデータスタックです。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_Glean.max-2000x2000.jpg

ユースケース 1: Dataflow によるデータ パイプラインの処理と拡充

Glean は Google Cloud Dataflow を使用して、職場の知識が存在するさまざまな情報元からインデックスに登録されたコンテンツのなかから関連する情報を抽出します。その後、各関連シグナルでデータを拡張してからプロジェクトの Google Kubernetes Engine でホストされる検索インデックスに保存します。さらに、Glean は Dataflow を使用して、Google のモデル用の大規模なトレーニング データを生成します(Google Cloud 上でトレーニングされます)。全体として、Google Cloud Dataflow により Glean は複雑かつ柔軟なデータ処理パイプラインを構築し、大量のデータを処理する際、効率的に自動スケールできます。

ユースケース 2: BigQuery と Looker Studio による分析ワークロードの実行

Glean は、このプロダクトを使用して情報を探すユーザーの満足度を緊密に測定し、最適化します。このために、Glean ユーザーがセッションで行った操作を把握し、検索結果がユーザーの役に立たなかったケースではなく、検索結果が有用であったケースを特定します。この指標を計算するために、Glean で実行された操作を匿名化して BigQuery に保存し、BigQuery のクエリを使用してユーザー満足度の指標を計算します。その後で、これらの指標は Looker Studio の BigQuery データをもとに構築されたプロダクト ダッシュボードで可視化されます。

ユースケース 3: VertexAI による ML モデルの実行

Glean は、Vertex AI を介し TPU を使用することで、企業やドメイン固有の言語に適応された最先端の言語モデルを大規模にトレーニングできます。

TPU は Tensor Processing Units とも呼ばれ、ML ワークロード専用に Google が開発したカスタム設計のハードウェア アクセラレータです。TPU は、ディープ ニューラル ネットワークのトレーニングと推論を高速化および最適化するよう設計されています。

Google は TPU をクラウドベースのサービスとして提供しており、Google ユーザーはこれによって従来の CPU や GPU よりもはるかに高速に ML モデルをトレーニングおよび実行できます。従来型のハードウェアと比較して、TPU には高い性能、低い消費電力、高い費用効率など、いくつかの利点があります。また、TPU は、広く使われているオープンソースの ML フレームワークである TensorFlow などの他の Google Cloud サービスともシームレスに動作するよう設計されています。このため、開発者やデータ サイエンティストは Google Cloud 上で TPU を使用して、ML モデルの構築、トレーニング、デプロイを簡単に行えます。

企業のコーパスから抽出されたトレーニング データは、Vertex AI の柔軟性を活かして大規模モデルにドメイン適応型の事前トレーニングや、タスク固有の微調整を行うために使用されます。検索はさらに、Vertex AI によりトレーニングおよび構築されるエンコーダーと ANN(人工ニューラル ネットワーク)インデックスを使用したベクトル検索も活用しています。

共同作業によるソリューション

共同ソリューションの概要と仕組みを示すアーキテクチャ図

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_Glean.max-1800x1800.jpg

Glean は、ユーザーに以下のようなさまざまな特長とサービスを提供します。

特長 1: 企業が利用するすべてのアプリを検索

Glean はコンテキスト、言語、行動、関係性を理解し、ユーザーが何を必要としているのかを常に学習して、質問に対してパーソナライズされた回答を即座に見つけます。たとえば、Glean はユーザーと共有されているドキュメント、所属するチームがよく利用しているドキュメント、ユーザーが拠点とするオフィス、最も多く使用しているアプリケーション、各コミュニケーション アプリで頻出している質問と回答などを考慮して、検索クエリに関連するドキュメントや回答を導き出します。このようなパーソナライズされたエクスペリエンスを実現するため、Glean は情報発掘に役立つ企業ユーザー間の交流や、行われた操作を把握しています。Cloud Dataflow を使用して、これらのシグナルを各種のアプリケーションからの解析された情報と結合し、Vertex AI でそれらの情報を使い、セマンティックなエンベディングをトレーニングします。

特長 2: 知るべき情報を見つけだす

Glean を使用することで知るべき情報や会うべき人がわかるため、仕事がはかどります。これは実質的に、コンテキストに応じてユーザーに関連のあるデータや知識を提示するエンドユーザー向けのレコメンデーション エンジンです。Glean は、Vertex AI を使用してトレーニングされたベクトル エンベディングを活用し、時宜およびコンテキストに応じて関連のある企業の情報を従業員に推奨します。

特長 3: 操作が簡単ですぐに利用開始可能

すでに使用しているあらゆるアプリと接続できるため、従業員はすでに使い慣れているツールでの作業を続けられます。Glean は、App Engine、Kubernetes、Cloud Tasks などのフルマネージドで自動スケール可能な Google Cloud コンポーネントを使用し、検索スタックのインフラストラクチャ コンポーネントにおいて、高い信頼性と低い運用オーバーヘッドを確保します。

Glean は、次のような各 Google Cloud コンポーネントを使用してプロダクトを構築しています。

  • Cloud GKE

  • Cloud Dataflow

  • Cloud SQL

  • Cloud Storage

  • Cloud Pub/Sub

  • Cloud KMS

  • Cloud Tasks

  • Cloud DNS

  • Cloud IAM

  • Compute Engine

  • Vertex AI

  • BigQuery

  • Stackdriver Logging / Monitoring / Trace

これらのコンポーネントからプロダクトを構築しているため、Glean には信頼性が高く安全でスケーラブルな費用対効果の大きいプラットフォームが提供されます。これにより、Glean は中核のアプリケーションや関連性の機能に集中でき、他社との差別化を図れます。

Google Cloud でより優れたデータ プロダクトを構築

Glean は、主要な独自のクラウド プロバイダとして Google Cloud を信頼しています。その理由は主に 4 つあります。

要因 1: セキュリティ

Google Cloud には細かく分けられた IAM ロールと、Cloud Armor、IAP ベースの認証、デフォルトでの暗号化、鍵管理サービス、Shielded VM、限定公開の Google アクセスなど各種のセキュリティ機能があり、顧客がデータを完全に管理し、システムへのアクセスを完全に見とおせる強化された最小権限の構成が実現されます。

要因 2: 信頼性が高くスケーラブルなインフラストラクチャ サービス

GKE、Cloud SQL、Cloud Storage、Cloud Dataflow など、自動スケール可能なフルマネージド サービスにより、Glean は中核のアプリケーション ロジックに集中でき、システムの稼働時間やシステムがピーク負荷に対応できるかを心配をする必要がなくなり、システムの利用率が低い時間帯に費用対効果を上げるためにシステムを手作業でダウンスケールするなどの作業に煩わされることはなくなります。

要因 3: 高度なデータ処理、分析、AI / ML 能力

Glean のような検索と検出のプロダクトの場合、柔軟なデータ処理と分析の機能を高い費用対効果で利用できることは非常に重要です。Glean は Google Cloud の Cloud Dataflow、Vertex AI、BigQuery などの機能を基礎として構築されており、高い関連性を持つパーソナライズされたプロダクト エクスペリエンスをユーザーに提供します。

要因 4: サポート

Google Cloud チームは Glean の真のパートナーであり、あらゆる本番環境の問題や、Google Cloud の機能セットに関する Glean の質問に対して迅速にサポートを行ってきました。また、Google Cloud チームはフィードバックやプロダクト グループとの直接対話を積極的に受け付け、新しい機能を通じてプロダクトのロードマップに影響を与えています。

まとめ

この記事の執筆時点で、Google の BigQuery、Dataflow、Vertex AI などのデータクラウド プロダクトを使用して自社のプロダクトと事業を動かしているテック企業は 800 以上を数え、Glean もその一つです。Google の Built with BigQuery イニシアチブは、Glean のような ISV がデータと ML プロダクトを使用してアプリケーションの構築を開始し、プロダクトに機能を追加して継続的に機能レベルを向上できるようサポートします。Google の Built-with イニシアチブ(BigQuery、Google AI など)は、テクノロジー、専門知識、市場開拓プログラムへの専用アクセスを提供することにより、テクノロジー企業が自社の成功を加速、最適化、増大するのを支援します。

Glean のエンタープライズ サーチおよびナレッジ管理ソリューションは、Google Cloud 上に構築されています。Google Cloud との提携により、Glean はオールインワンのクラウド プラットフォームをデータ収集、データ変換、ストレージ、分析、ML に活用できます。

Google は Built with BigQuery によって Glean のようなテクノロジー企業を支援し、共同で革新を推進しています。これにより、基礎となるテクノロジーへのアクセスを簡素化する Google のデータクラウドと AI プロダクトを活用してプロダクトの能力を引き出し、革新的なアプリケーションを構築すると同時に、有用な専任のエンジニアリング サポートを受け、共同の市場開拓プログラムに取り組んでいます。参加企業には以下のメリットがあります。

  • Google が資金提供した事前構成済みのサンドボックスを使って、すぐに構築に着手できます。

  • ISV センター オブ エクセレンスのデータ分析と AI の専任エキスパートから、重要なユースケース、アーキテクチャ パターン、ベスト プラクティスについてのインサイトを得て、プロダクトの設計とアーキテクチャを高めることができます。

  • 共同マーケティング プログラムを利用して、認知度の向上、需要の創出、導入の拡大を図り、より大きな成功を実現できます。


このブログ投稿に協力してくれた Google チームの Smitha Venkat と Eugenio Scafati に感謝します。


- Google、クラウド パートナー エンジニアリング担当ディレクター Ali Arsanjani 博士
- Glean、共同創設者 T R Vishwanath 氏
投稿先