コネクタとデータストアの概要

コネクタは、Google とサードパーティのデータソースから Gemini Enterprise にデータを取得し、専用のデータストアに保存します。このドキュメントでは、これらのコネクタの概要について説明します。Gemini Enterprise でデータを一元化すると、データアクセシビリティ、検索機能、分析機能が強化されます。

コネクタが Gemini Enterprise にデータを取得する方法を示す概要図。 — コネクタの概要

コネクタとデータストアのコンセプト

データストア

各データソースは、一連のエンティティタイプをサポートしています。たとえば、Jira Cloud には、課題、添付ファイル、コメント、作業ログなどのエンティティがあり、これらはデータソースに固有のものです。Gemini Enterprise は、エンティティごとに個別のデータストアを作成します。そのため、 Google Cloud コンソールを使用してデータストアを作成すると、取り込まれたデータエンティティを表すデータストアのコレクションが作成されます。

データ連携と取り込み（インデックス登録）

データ連携では、指定したデータソースから直接情報を取得します。データは Vertex AI Search インデックスにコピーされないため、データストレージのことを考慮する必要はありません。ただし、データはインデックス登録されないため、検索の品質が低下する可能性があります。

データの取り込み（インデックス登録）では、データが Vertex AI Search インデックスにコピーされます。これにより、検索品質が向上します。ただし、このプロセスではより多くのストレージと時間が消費されます。

コネクタがデータ連携とデータの取り込みの両方をサポートしている場合は、優先したいデータ接続方法を選択します。

非構造化データ

サポートされているデータ形式は、データソースとエンティティタイプに固有です。エンティティのコンテンツが PDF、HTML、DOCX、PPTX、XLSX、XLSM などの非構造化形式で保存されている場合、Vertex AI Search によって非構造化データストアが作成されます。詳細とサポートされているファイル形式については、非構造化検索をご覧ください。

構造化データ

サポートされているデータ形式は、データソースとエンティティタイプに固有です。エンティティのコンテンツが構造化形式で保存されている場合、Vertex AI Search によって構造化データストアが作成されます。詳しくは、構造化検索をご覧ください。

データスキーマ

データスキーマにより、データ構造が定義されます。Gemini Enterprise を使用して構造化データをインポートすると、システムがスキーマを自動的に検出します。自動検出されたスキーマを使用したり、API を使用してスキーマを定義したりできます。詳細については、スキーマを指定または自動検出するをご覧ください。

データストアのリージョン

データを取り込むときは、データを保存するリージョン（グローバル、米国、EU など）を選択する必要があります。詳細については、Gemini Enterprise のロケーションをご覧ください。米国リージョンまたは EU リージョンに保存されているデータには、データの暗号化が必要です。デフォルトの暗号化は Google-owned and Google-managed encryption keyで行われますが、顧客管理の暗号鍵を使用することもできます。

データ同期

データ同期では、元のデータソースから ID データ（ロール、権限、ユーザーなど）とエンティティデータ（特定のデータソースに関連するデータなど）が取得され、更新されます。詳細については、データ同期の種類とスケジュールをご覧ください。

データ同期の種類とスケジュール

データ同期では、エンティティデータ、ID データ、またはその両方がキャプチャされ、Gemini Enterprise のデータストアの内容が更新されます。

同期の種類

Gemini Enterprise のデータストアでは、次の基本的な 2 種類のデータ同期が使用されます。

完全同期では、サードパーティ製のアプリやサービスの状態全体がキャプチャされます。これには、追加、更新、削除が含まれます。完全同期では、データストアの既存のコンテンツが置き換えられます。
増分同期では、前回の同期以降に追加または更新されたエンティティデータが定期的にキャプチャされます。ID データやエンティティデータの削除は同期されません。

次のデータタイプについては、完全同期のスケジュールを個別に設定できます。

エンティティ同期は、サードパーティのデータソース固有のデータをキャプチャします。たとえば、Jira などのシステムのデータストアでは、課題、作業ログ、コメント、添付ファイルを同期できます。エンティティ同期には、ID 情報は含まれません。
ID 同期では、ACL グループに関連付けられたユーザーアカウントに関するデータがキャプチャされます。

ID 同期と完全同期のインタラクション

個々の ID 同期実行が完全同期実行とどのように連携するかを理解するために、2 つのページ（ACL グループ group_1 に関連付けられる page_1 と、ACL グループ group_2 に関連付けられる page_2）を含むシナリオの例を考えてみましょう。

初期 ID 同期が実行され、グループ group_1 と group_2 に関する情報が取得されます。
- group_1 にユーザー user_1 が含まれているとします。
- group_2 にユーザー user_2 が含まれているとします。
この ID 同期により、次のマッピングが確立されます。
- user_1 は group_1 にマッピングされます。
- user_2 は group_2 にマッピングされます。
ID の同期と並行して完全同期が実行され、page_1 と page_2 の両方が取得されます。

この完全同期により、次のマッピングが確立されます。
- user_1 は page_1 にアクセスできます（group_1 経由）。
- user_2 は page_2 にアクセスできます（group_2 経由）。

同期スケジュール

各データストアについて、同期の種類ごとに頻度を選択できます。

すべての ID データとエンティティデータの完全同期は、3 時間ごと、6 時間ごと、12 時間ごと、1 日ごと、3 日ごとに同時にスケジュール設定できます。
すべての ID データの独立した完全同期と、すべてのエンティティデータの独立した完全同期は、次のカスタム同期頻度を使用して個別にスケジュール設定できます。
- エンティティデータ: 3 時間ごと、6 時間ごと、12 時間ごと、1 日ごと、3 日ごと、5 日ごと、7 日ごと。
- ID データ: 30 分ごと、1 時間ごと、3 時間ごと、6 時間ごと、12 時間ごと、1 日ごと、3 日ごと、5 日ごと、7 日ごと。
更新または追加されたエンティティデータの増分同期は、3 時間ごと、6 時間ごと、12 時間ごと、1 日ごと、3 日ごと、5 日ごと、7 日ごとにスケジュール設定できます。デフォルトでは、増分同期は 3 時間ごとに実行されます。

注: 増分同期は、完全同期よりも頻繁に行われるようにスケジュール設定する必要があります。たとえば、完全同期を 12 時間ごとにスケジュール設定している場合、増分同期は 3 時間ごとまたは 6 時間ごとにのみスケジュール設定できます。

増分同期と完全同期のスケジュールを同じ頻度に設定すると、増分同期は自動的に一時停止され、再開するには手動での操作が必要になります。

頻度に関する推奨事項

取得されるレコード数と推奨される秒間クエリ数（QPS）に沿ったデータ同期の頻度を選択します。

次の表に、1 日ごと、3 日ごと、5 日ごと、7 日ごとの同期で取得される一般的なレコード数を示します。実際のレコード数は、データソースとその構成によって異なる場合があります。

QPS	1 日ごとの同期のレコード数	3 日ごとの同期のレコード数	5 日ごとの同期のレコード数	7 日ごとの同期のレコード数
5	432,000	1,296,000	2,160,000	3,000,000
10	864,000	2,592,000	4,320,000	6,000,000
20	1,700,000	5,100,000	8,500,000	11,900,000
50	4,300,000	12,900,000	21,500,000	30,100,100
100	8,600,000	25,800,000	43,000,000	60,200,000

同期の一時停止と再開

完全同期と増分同期の両方を一時停止して再開できます。

ある同期タイプを一時停止すると、データストアはそのタイプの進行中の同期をキャンセルし、そのタイプの新しい同期のスケジュール設定を停止します。
ある同期タイプを再開すると、データストアは最後にスケジュールされた同期時刻に基づいて新しい同期のスケジュールを設定しますが、先に中断された同期は続行しません。

たとえば、完全同期の実施中に完全同期を一時停止すると、データストアはその同期をキャンセルします。後で完全同期を再開すると、データストアは完全同期のスケジュールに従って新しい完全同期のスケジュールを自動的に設定します。

Google のデータソース

BigQuery、Spanner、Google ドライブなどの Google データソースに接続できます。

Google のデータソースのチェックリスト

Gemini Enterprise にデータを送信する前に、次のチェックリストを確認してください。

データソースのアクセス制御を設定します。詳細については、ID と権限をご覧ください。
データを連携するか取り込む（インデックス登録する）かを決定します。
データの同期頻度を決定します。
顧客管理の暗号鍵（CMEK）を使用している場合は、マルチリージョン鍵を作成します。詳細については、サードパーティのデータソースの単一リージョン鍵を登録するをご覧ください。
個人情報（PII）があり、クエリ候補の予測入力を使用する場合は、PII の漏洩を防ぐをご覧ください。

サポートされている Google のデータソース

Google ドライブ	Gmail	Google カレンダー	ユーザー検索

サードパーティのデータソース

サードパーティのデータストアでは、サードパーティのアプリケーションデータを Gemini Enterprise に取り込みます。

サードパーティのデータソースのチェックリスト

サードパーティのデータソースを Gemini Enterprise に接続する前に、次のチェックリストを確認してください。

特定のデータソースについては、特定のスコープと権限を構成する必要があります。サードパーティアプリケーションの管理者は、データソースを接続して認証と権限を設定するために必要な認証情報を確認する必要があります。特定のスコープと権限については、それぞれのサードパーティのデータソースのドキュメントをご覧ください。
データストアのアクセス制御を設定します。詳細については、ID と権限をご覧ください。
データを連携するか取り込む（インデックス登録する）かを決定します。
データが取り込まれる場合は、データソースにデータを取り込むために使用するユーザー認証情報についてリソースが制限されていないことを確認します。
データの同期頻度を決定します。
顧客管理の暗号鍵（CMEK）を使用している場合は、マルチリージョン鍵と単一リージョン鍵を作成します。詳細については、サードパーティのデータストアの単一リージョン鍵を登録するをご覧ください。
個人情報（PII）があり、クエリ候補の予測入力を使用する場合は、PII の漏洩を防ぐをご覧ください。

サポートされているサードパーティのデータソース

Microsoft Entra ID	Microsoft OneDrive	Microsoft Outlook	Microsoft SharePoint

Jira Cloud	Confluence Cloud	ServiceNow