アプリとデータストアについて

このページでは、Gemini Enterprise アプリとデータストアについて説明します。

Gemini Enterprise では、アプリを作成してデータストアに接続します。1 つの Google Cloud プロジェクトに複数のアプリを含めることができます。

主な用語

  • アプリ: Gemini Enterprise アプリは、検索結果、アクション、エージェントをエンドユーザーに提供します。API のコンテキストでは、アプリという用語とエンジンという用語を同じ意味で使用できます。

  • データストア: データストアは、Cloud Storage などのファーストパーティ データソースや、Jira や Salesforce などのサードパーティ アプリケーションから取り込まれたデータを含むエンティティです。サードパーティ アプリケーションのデータを含むデータストアは、データ コネクタとも呼ばれます。

アプリとデータストアの関係

アプリは、データストアのデータを使用して検索結果、回答、アクションを提供するために、データストアに接続されている必要があります。

アプリは、データストアと多対多の関係にあります。複数のデータストアが 1 つのアプリに接続されている場合、これを統合検索と呼びます。検索アプリを複数のデータストアに接続する際の制限事項については、統合検索についてをご覧ください。

アプリの作成とデータ取り込みの方法

アプリを作成してデータを取り込む方法は、データの種類によって異なります。

  • サードパーティ データの場合、API ではなく Google Cloud コンソールを使用してアプリを作成し、データを取り込みます。

  • 他のデータについては、 Google Cloud コンソールまたは API を使用できます。

ドキュメント

各データストアには、ドキュメントと呼ばれる 1 つ以上のデータレコードがあります。ドキュメントが表す内容は、データストア内のデータの種類によって次のように異なります。

  • サードパーティのデータソースのデータ。ドキュメントは、Jira の課題や Confluence のスペースなど、サードパーティ データソースに固有のエンティティです。

  • 構造化データドキュメントは、特定のスキーマに従うテーブルの行または JSON レコードです。このスキーマは、独自に指定するか、または、取り込んだデータから Gemini Enterprise が取得できます。

  • 非構造化データドキュメントは、HTML 形式、TXT 形式、またはテキストが埋め込まれた PDF 形式のファイルです。プレビューでは、PPTX および DOCX 形式を使用できます。

データストアとアプリ

Gemini Enterprise には、さまざまな種類のデータストアがあります。データストアには 1 種類のデータのみを含めることができます。

サードパーティ データストアの構造化データ

次のサードパーティ データソース コネクタは、許可リスト付きのプレビュー版で利用できます。

  • Confluence
  • Jira
  • Salesforce
  • SharePoint Online
  • Slack

これらのサードパーティからのデータは構造化データと見なされます。

新しいコネクタを設定するときに、同期の頻度を選択します。同期するエンティティも選択します。エンティティは、ソース(Jira の課題、Confluence のコンテンツとスペースなど)によって異なります。エンティティごとに一意のデータストアが作成されます。エンティティ データストアはコネクタ インスタンスごとにグループ化されます。

次のステップ

構造化データ

構造化データを含むデータストアでは、構造化データに対するセマンティック検索やレコメンデーションを利用できます。BigQuery または Cloud Storage からデータをインポートできます。API を使用して構造化 JSON データを手動でアップロードすることもできます。

たとえば、e コマース エクスペリエンスの場合の商品カタログ、プロバイダの検索やレコメンデーションの場合の医師のディレクトリに対して、検索やレコメンデーションを実行できます。

Gemini Enterprise は、インポートしたデータからスキーマを自動的に検出します。必要に応じて、データのスキーマを指定できます。通常、データのスキーマを指定すると、結果の品質が向上します。

次のステップ

非構造化データ

非構造化データストアを使用すると、ドキュメントや画像などのデータに対してセマンティック検索やレコメンデーションを実行できます。

非構造化データストアは、HTML、テキストが埋め込まれた PDF、TXT 形式のドキュメントをサポートしています。プレビューでは、PPTX および DOCX 形式を使用できます。

検索では、10 個の URL と自然言語クエリの要約された回答が結果として返されます。ドキュメントは、適切なアクセス権限を持つ Cloud Storage バケットにアップロードする必要があります。たとえば、金融機関は、金融調査の出版物の非公開コーパスに対する検索やレコメンデーションを有効にできます。また、バイオテクノロジー企業は、医療研究の非公開リポジトリに対する検索やレコメンデーションを実行できます。

次のステップ

統合検索について

統合検索では、複数のデータストアを 1 つのアプリに接続できます。これにより、アプリは複数のソースと種類のデータを検索できます。

ブレンド検索アプリを作成するには、新しいアプリを作成するときに複数のデータストアを選択します。作成時に複数のデータストアを選択しなかった場合、後でデータストアを追加することはできません。

検索結果を取得する際に、すべてのデータストアを検索するか、単一のデータストアの結果をフィルタできます。

ブレンド検索には次の制限があります。

  • データストアの追加と削除:
    • アプリのブレンド検索を有効にするには、アプリの作成時に少なくとも 2 つのデータストアをアプリに接続する必要があります。
    • ブレンド検索アプリにデータストアを追加したり、データストアを削除したりできますが、アプリに接続されているデータストアの数が 2 つ未満になることはありません。
    • アプリの作成時に 1 つのデータストアを検索アプリに接続した場合、そのデータストアを追加または削除することはできません。
  • BigQuery を使用してインポートされた非構造化データを含むデータストアはサポートされていません。
  • 統合検索では、検索リクエストで次のフィールドを使用できます。
    • boostSpec
    • contentSearchSpec
    • dataStoreSpecs
    • facetSpecs
    • filter
    • languageCode
    • offset
    • oneBoxPageSize
    • orderBy
    • query
    • pageSize
    • pageToken
    • relevanceScoreSpec
    • relevanceThreshold
    • session
    • sessionSpec
    • spellCorrectionSpec
    • userInfo
    • userPseudoId
  • ブレンド検索では、dataStoreSpecs で次のフィールドを使用できます。
    • dataStore
    • boostSpec: SearchRequestdataStoreSpecs の両方にブースト仕様が指定されている場合、両方のブースト仕様が検索結果に適用されます。
    • filter: SearchRequestdataStoreSpecs の両方にフィルタが指定されている場合、両方のフィルタが検索結果に適用されます。
  • ブレンド アプリでは、サービス構成に対する作成、読み取り、更新、削除(CRUD)オペレーションがサポートされています。サービング構成で追加または更新できるのは、次のフィールドのみです。
    • boostControlIds
    • displayName
    • filterControlIds
    • genericConfig:
      • contentSearchSpec
    • name
    • solutionType
    • synonymsControlIds
  • ブレンド検索アプリでは、次のコントロールに対する CRUD オペレーションがサポートされています。
    • boostAction
    • synonymAction
    • filterAction
  • 検索アプリあたりのデータストア数の上限は 50 個です。
  • 1 つのデータストアで CMEK 構成を使用している場合、他のすべてのデータストアでも同じ CMEK 構成を使用する必要があります。