このページは Cloud Translation API によって翻訳されました。

コネクタとデータストアの概要

コネクタは、Google とサードパーティのデータソースから Gemini Enterprise にデータを取得し、専用のデータストアに保存します。このドキュメントでは、これらのコネクタの概要について説明します。Gemini Enterprise でデータを一元化すると、データのアクセシビリティ、検索機能、分析機能が強化されます。

コネクタが Gemini Enterprise にデータを取得する方法を示す概要図。 — コネクタの概要

コネクタとデータストアのコンセプト

データストア

各データソースは、一連のエンティティタイプをサポートしています。たとえば、Jira Cloud には、課題、添付ファイル、コメント、作業ログなどのエンティティがあり、これらはデータソースに固有のものです。Gemini Enterprise は、エンティティごとに個別のデータストアを作成します。そのため、 Google Cloud コンソールを使用してデータストアを作成すると、取り込まれたデータエンティティを表すデータストアのコレクションが作成されます。

データフェデレーションと取り込み（インデックス登録）

データフェデレーションでは、指定したデータソースから直接情報を取得します。データは Vertex AI Search インデックスにコピーされないため、データストレージのことを考慮する必要はありません。ただし、データはインデックスに登録されないため、検索の品質が低下する可能性があります。

データ取り込み（インデックス登録）では、データが Vertex AI Search インデックスにコピーされます。これにより、検索品質が向上します。ただし、このプロセスではストレージと時間がより多く消費されます。

非構造化データ

サポートされているデータ形式は、データソースとエンティティタイプに固有です。エンティティのコンテンツが HTML、PDF、TXT、PPTX、DOCX などの非構造化形式で保存されている場合、Vertex AI Search によって非構造化データストアが作成されます。詳細とサポートされているファイル形式については、非構造化検索をご覧ください。

構造化データ

サポートされているデータ形式は、データソースとエンティティタイプに固有です。エンティティのコンテンツが構造化形式で保存されている場合、Vertex AI Search によって構造化データストアが作成されます。詳しくは、構造化検索をご覧ください。

データスキーマ

データスキーマはデータ構造を定義します。Gemini Enterprise を使用して構造化データをインポートすると、システムがスキーマを自動的に検出します。自動検出されたスキーマを使用するか、API を使用してスキーマを定義できます。詳細については、スキーマを指定または自動検出するをご覧ください。

データストアリージョン

データを取り込むときは、データを保存するリージョン（グローバル、米国、EU など）を選択する必要があります。詳細については、 Gemini Enterprise のロケーションをご覧ください。米国または EU リージョンに保存されているデータには、データ暗号化が必要です。デフォルトの暗号化は Google-owned and Google-managed encryption keyですが、代わりに顧客管理の暗号鍵を使用することもできます。

データの同期

データ同期では、元のデータソースから ID データ（ロール、権限、ユーザーなど）とエンティティデータ（特定のデータソースに関連するデータなど）が取得され、更新されます。詳細については、データ同期の種類とスケジュールをご覧ください。

データ同期のタイプとスケジュール

データ同期では、エンティティデータ、ID データ、またはその両方がキャプチャされ、Gemini Enterprise のデータストアの内容が更新されます。

同期の種類

Gemini Enterprise のデータストアでは、次の 2 種類のデータ同期が使用されます。

完全同期では、サードパーティ製アプリやサービスの状態全体がキャプチャされます。これには、追加、更新、削除が含まれます。完全同期では、データストアの既存のコンテンツが置き換えられます。
増分同期では、前回の同期以降に追加または更新されたエンティティデータが定期的にキャプチャされます。ID データやエンティティデータの削除は同期されません。

次のデータタイプについては、完全同期を個別にスケジュールできます。

エンティティ同期は、サードパーティのデータソースに固有のデータをキャプチャします。たとえば、Jira などのシステムのデータストアは、問題、作業ログ、コメント、添付ファイルを同期できます。エンティティの同期には ID 情報は含まれません。
ID 同期では、ACL グループに関連付けられたユーザーアカウントに関するデータがキャプチャされます。

ID 同期と完全同期の相互作用

個々の ID 同期実行が完全同期実行とどのように連携するかを理解するために、2 つのページ（page_1（ACL グループ group_1 にリンクされている）と page_2（ACL グループ group_2 にリンクされている））を含むシナリオの例を考えてみましょう。

最初の ID 同期が実行され、グループ group_1 と group_2 に関する情報が取得されます。
- group_1 にユーザー user_1 が含まれているとします。
- group_2 にユーザー user_2 が含まれているとします。
この ID 同期により、次のマッピングが確立されます。
- user_1 は group_1 にマッピングされます。
- user_2 は group_2 にマッピングされます。
ID の同期と並行して完全同期が実行され、page_1 と page_2 の両方が取得されます。

この完全同期により、次のマッピングが確立されます。
- user_1 は page_1 にアクセスできます（group_1 経由）。
- user_2 は page_2 にアクセスできます（group_2 経由）。

同期スケジュール

データストアごとに、同期の種類ごとに頻度を選択できます。

すべての ID データとエンティティデータの完全同期は、3 時間、6 時間、12 時間、1 日、3 日ごとに同時にスケジュールできます。
すべての ID データの独立した完全同期と、すべてのエンティティデータの独立した完全同期は、次のカスタム同期頻度を使用して個別にスケジュール設定できます。
- エンティティデータ: 3 時間ごと、6 時間ごと、12 時間ごと、1 日ごと、3 日ごと、5 日ごと、7 日ごと。
- ID データ: 30 分ごと、1 時間ごと、3 時間ごと、6 時間ごと、12 時間ごと、1 日ごと、3 日ごと、5 日ごと、7 日ごと。
更新または追加されたエンティティデータの増分同期は、3 時間ごと、6 時間ごと、12 時間ごと、1 日ごと、3 日ごと、5 日ごと、7 日ごとにスケジュールできます。デフォルトでは、増分同期は 3 時間ごとに実行されます。

注: 増分同期は、完全同期よりも頻繁に行われるようにスケジュールする必要があります。たとえば、完全同期を 12 時間ごとにスケジュールしている場合、増分同期は 3 時間ごとまたは 6 時間ごとにのみスケジュールできます。

増分同期と完全同期のスケジュールを同じ頻度で設定すると、増分同期は自動的に一時停止され、再開するには手動での操作が必要になります。

頻度に関する推奨事項

取得するレコード数と推奨される秒間クエリ数（QPS）に沿ったデータ同期の頻度を選択します。

次の表に、1 日、3 日、5 日、7 日間の同期で取得される一般的なレコード数を示します。実際のレコード数は、データソースとその構成によって異なる場合があります。

QPS	1 日の同期の音量を記録します	3 日間の同期の音量を記録	5 日間の同期の録音量	7 日間の同期の音量を記録します。
5	432k	1.296M	216 万	3M
10	864k	259 万 2,000	432 万	6M
20	170 万	510 万	850 万	1,190 万
50	430 万	1,290 万	2,150 万	3,010 万
100	860 万	2,580 万	4,300 万	6,020 万

同期の一時停止と再開

完全同期と増分同期の両方を一時停止して再開できます。

同期タイプを一時停止すると、データストアはそのタイプの進行中の同期をキャンセルし、そのタイプの新しい同期のスケジュール設定を停止します。
同期タイプを再開すると、データストアは最後にスケジュールされた同期時刻に基づいて新しい同期をスケジュールしますが、以前に中断された同期は続行しません。

たとえば、完全同期中に完全同期を一時停止すると、データストアはその同期をキャンセルします。後で完全同期を再開すると、データストアは完全同期スケジュールに従って新しい完全同期を自動的にスケジュールします。

Google のデータソース

BigQuery、Spanner、Google ドライブなどの Google データソースに接続できます。

Google データソースのチェックリスト

Gemini Enterprise にデータを送信する前に、次のチェックリストを確認してください。

データソースのアクセス制御を設定します。詳細については、ID と権限をご覧ください。
データをフェデレーションするか取り込む（インデックス登録する）かを決定します。
データの同期頻度を決定します。
顧客管理の暗号鍵（CMEK）を使用している場合は、マルチリージョン鍵を作成します。詳細については、サードパーティデータソースの単一リージョンキーを登録するをご覧ください。
個人情報（PII）があり、クエリ候補にオートコンプリートを使用する場合は、PII の漏洩を防ぐをご覧ください。

サポートされている Google データソース

Google ドライブ	Gmail	Google カレンダー	ユーザー検索

サードパーティのデータソース

サードパーティデータストアは、サードパーティアプリケーションデータを Gemini Enterprise に取り込みます。

サードパーティのデータソースのチェックリスト

サードパーティのデータソースを Gemini Enterprise に接続する前に、次のチェックリストを確認してください。

特定のデータソースには、特定のスコープと権限を構成する必要があります。サードパーティアプリケーションの管理者は、データソースを接続して認証と権限を設定するために必要な認証情報を確認する必要があります。特定のスコープと権限については、それぞれのサードパーティデータソースのドキュメントをご覧ください。
データストアのアクセス制御を設定します。詳細については、ID と権限をご覧ください。
データをフェデレーションするか取り込む（インデックス登録する）かを決定します。
データが取り込まれる場合は、データソースにデータを取り込むために使用するユーザー認証情報に対してリソースが制限されていないことを確認します。
データの同期頻度を決定します。
顧客管理の暗号鍵（CMEK）を使用している場合は、マルチリージョン鍵と単一リージョン鍵を作成します。詳細については、サードパーティデータストアの単一リージョン鍵を登録するをご覧ください。
個人情報（PII）があり、クエリ候補にオートコンプリートを使用する場合は、PII の漏洩を防ぐをご覧ください。