コネクタとデータストアの概要

コネクタは、Google とサードパーティのデータソースから Gemini Enterprise にデータを取得し、専用のデータストアに保存します。このドキュメントでは、これらのコネクタの概要について説明します。Gemini Enterprise でデータを一元化すると、データのアクセシビリティ、検索機能、分析機能が強化されます。

コネクタが Gemini Enterprise にデータを取得する方法を示す概要図。
コネクタの概要

コネクタとデータストアのコンセプト

データストア
各データソースは、一連のエンティティ タイプをサポートしています。たとえば、Jira Cloud には、課題、添付ファイル、コメント、作業ログなどのエンティティがあり、これらはデータソースに固有のものです。Gemini Enterprise は、エンティティごとに個別のデータストアを作成します。そのため、 Google Cloud コンソールを使用してデータストアを作成すると、取り込まれたデータ エンティティを表すデータストアのコレクションが作成されます。
データフェデレーションと取り込み(インデックス登録)
データ フェデレーションでは、指定したデータソースから直接情報を取得します。データは Vertex AI Search インデックスにコピーされないため、データ ストレージのことを考慮する必要はありません。ただし、データはインデックスに登録されないため、検索の品質が低下する可能性があります。

データ取り込み(インデックス登録)では、データが Vertex AI Search インデックスにコピーされます。これにより、検索品質が向上します。ただし、このプロセスではストレージと時間がより多く消費されます。
非構造化データ
サポートされているデータ形式は、データソースとエンティティ タイプに固有です。エンティティのコンテンツが HTML、PDF、TXT、PPTX、DOCX などの非構造化形式で保存されている場合、Vertex AI Search によって非構造化データストアが作成されます。詳細とサポートされているファイル形式については、非構造化検索をご覧ください。
構造化データ
サポートされているデータ形式は、データソースとエンティティ タイプに固有です。エンティティのコンテンツが構造化形式で保存されている場合、Vertex AI Search によって構造化データストアが作成されます。詳しくは、構造化検索をご覧ください。
データスキーマ
データ スキーマはデータ構造を定義します。Gemini Enterprise を使用して構造化データをインポートすると、システムがスキーマを自動的に検出します。自動検出されたスキーマを使用するか、API を使用してスキーマを定義できます。詳細については、スキーマを指定または自動検出するをご覧ください。
データストア リージョン
データを取り込むときは、データを保存するリージョン(グローバル、米国、EU など)を選択する必要があります。詳細については、 Gemini Enterprise のロケーションをご覧ください。米国または EU リージョンに保存されているデータには、データ暗号化が必要です。デフォルトの暗号化は Google-owned and Google-managed encryption keyですが、代わりに顧客管理の暗号鍵を使用することもできます。
データの同期

データ同期では、元のデータソースから ID データ(ロール、権限、ユーザーなど)とエンティティ データ(特定のデータソースに関連するデータなど)が取得され、更新されます。詳細については、データ同期の種類とスケジュールをご覧ください。

データ同期のタイプとスケジュール

データ同期では、エンティティ データ、ID データ、またはその両方がキャプチャされ、Gemini Enterprise のデータストアの内容が更新されます。

同期の種類

Gemini Enterprise のデータストアでは、次の 2 種類のデータ同期が使用されます。

  • 完全同期では、サードパーティ製アプリやサービスの状態全体がキャプチャされます。これには、追加、更新、削除が含まれます。完全同期では、データストアの既存のコンテンツが置き換えられます。

  • 増分同期では、前回の同期以降に追加または更新されたエンティティ データが定期的にキャプチャされます。ID データやエンティティ データの削除は同期されません。

次のデータタイプについては、完全同期を個別にスケジュールできます。

  • エンティティ同期は、サードパーティのデータソースに固有のデータをキャプチャします。たとえば、Jira などのシステムのデータストアは、問題、作業ログ、コメント、添付ファイルを同期できます。エンティティの同期には ID 情報は含まれません。

  • ID 同期では、ACL グループに関連付けられたユーザー アカウントに関するデータがキャプチャされます。

ID 同期と完全同期の相互作用

個々の ID 同期実行が完全同期実行とどのように連携するかを理解するために、2 つのページ(page_1(ACL グループ group_1 にリンクされている)と page_2(ACL グループ group_2 にリンクされている))を含むシナリオの例を考えてみましょう。

  1. 最初の ID 同期が実行され、グループ group_1group_2 に関する情報が取得されます。

    • group_1 にユーザー user_1 が含まれているとします。

    • group_2 にユーザー user_2 が含まれているとします。

    この ID 同期により、次のマッピングが確立されます。

    • user_1group_1 にマッピングされます。

    • user_2group_2 にマッピングされます。

  2. ID の同期と並行して完全同期が実行され、page_1page_2 の両方が取得されます。

    この完全同期により、次のマッピングが確立されます。

    • user_1page_1 にアクセスできます(group_1 経由)。

    • user_2page_2 にアクセスできます(group_2 経由)。

同期スケジュール

データストアごとに、同期の種類ごとに頻度を選択できます。

  • すべての ID データとエンティティ データの完全同期は、3 時間、6 時間、12 時間、1 日、3 日ごとに同時にスケジュールできます。

  • すべての ID データの独立した完全同期と、すべてのエンティティ データの独立した完全同期は、次のカスタム同期頻度を使用して個別にスケジュール設定できます。

    • エンティティ データ: 3 時間ごと、6 時間ごと、12 時間ごと、1 日ごと、3 日ごと、5 日ごと、7 日ごと。

    • ID データ: 30 分ごと、1 時間ごと、3 時間ごと、6 時間ごと、12 時間ごと、1 日ごと、3 日ごと、5 日ごと、7 日ごと。

  • 更新または追加されたエンティティ データの増分同期は、3 時間ごと、6 時間ごと、12 時間ごと、1 日ごと、3 日ごと、5 日ごと、7 日ごとにスケジュールできます。デフォルトでは、増分同期は 3 時間ごとに実行されます。

頻度に関する推奨事項

取得するレコード数と推奨される秒間クエリ数(QPS)に沿ったデータ同期の頻度を選択します。

次の表に、1 日、3 日、5 日、7 日間の同期で取得される一般的なレコード数を示します。実際のレコード数は、データソースとその構成によって異なる場合があります。

QPS 1 日の同期の音量を記録します 3 日間の同期の音量を記録 5 日間の同期の録音量 7 日間の同期の音量を記録します。
5 432k 1.296M 216 万 3M
10 864k 259 万 2,000 432 万 6M
20 170 万 510 万 850 万 1,190 万
50 430 万 1,290 万 2,150 万 3,010 万
100 860 万 2,580 万 4,300 万 6,020 万

同期の一時停止と再開

完全同期と増分同期の両方を一時停止して再開できます。

  • 同期タイプを一時停止すると、データストアはそのタイプの進行中の同期をキャンセルし、そのタイプの新しい同期のスケジュール設定を停止します。

  • 同期タイプを再開すると、データストアは最後にスケジュールされた同期時刻に基づいて新しい同期をスケジュールしますが、以前に中断された同期は続行しません。

たとえば、完全同期中に完全同期を一時停止すると、データストアはその同期をキャンセルします。後で完全同期を再開すると、データストアは完全同期スケジュールに従って新しい完全同期を自動的にスケジュールします。

Google のデータソース

BigQuery、Spanner、Google ドライブなどの Google データソースに接続できます。

Google データソースのチェックリスト

Gemini Enterprise にデータを送信する前に、次のチェックリストを確認してください。

サポートされている Google データソース

Google ドライブ Gmail Google カレンダー ユーザー検索
Google ドライブのアイコン。 Gmail のアイコン。 Google カレンダーのアイコン。 ユーザー検索のアイコン。

サードパーティのデータソース

サードパーティ データストアは、サードパーティ アプリケーション データを Gemini Enterprise に取り込みます。

サードパーティのデータソースのチェックリスト

サードパーティのデータソースを Gemini Enterprise に接続する前に、次のチェックリストを確認してください。

  • 特定のデータソースには、特定のスコープと権限を構成する必要があります。サードパーティ アプリケーションの管理者は、データソースを接続して認証と権限を設定するために必要な認証情報を確認する必要があります。特定のスコープと権限については、それぞれのサードパーティ データソースのドキュメントをご覧ください。

  • データストアのアクセス制御を設定します。詳細については、ID と権限をご覧ください。

  • データをフェデレーションするか取り込む(インデックス登録する)かを決定します。

  • データが取り込まれる場合は、データソースにデータを取り込むために使用するユーザー認証情報に対してリソースが制限されていないことを確認します。

  • データの同期頻度を決定します。

  • 顧客管理の暗号鍵(CMEK)を使用している場合は、マルチリージョン鍵と単一リージョン鍵を作成します。詳細については、サードパーティ データストアの単一リージョン鍵を登録するをご覧ください。

  • 個人情報(PII)があり、クエリ候補にオートコンプリートを使用する場合は、PII の漏洩を防ぐをご覧ください。

サポートされているサードパーティのデータソース

Microsoft Entra ID Microsoft OneDrive Microsoft Outlook Microsoft SharePoint
Microsoft Entra ID のアイコン。 OneDrive のアイコン。 Microsoft Outlook のアイコン。 SharePoint のアイコン。
Jira Cloud Confluence Cloud ServiceNow
Jira Cloud のアイコン。 Confluence Cloud のアイコン。 ServiceNow のアイコン。