コネクタとデータストアの概要

コネクタは、Google とサードパーティのデータソースから Gemini Enterprise にデータを取得し、専用のデータストアに保存します。このドキュメントでは、これらのコネクタの概要について説明します。Gemini Enterprise でデータを一元化すると、データ アクセシビリティ、検索機能、分析機能が強化されます。

コネクタが Gemini Enterprise にデータを取得する方法を示す概要図。
コネクタの概要

コネクタとデータストアのコンセプト

データストア
各データソースは、一連のエンティティ タイプをサポートしています。たとえば、Jira Cloud には、課題、添付ファイル、コメント、作業ログなどのエンティティがあり、これらはデータソースに固有のものです。Gemini Enterprise は、エンティティごとに個別のデータストアを作成します。そのため、 Google Cloud コンソールを使用してデータストアを作成すると、取り込まれたデータ エンティティを表すデータストアのコレクションが作成されます。
データ連携と取り込み(インデックス登録)
データ連携では、指定したデータソースから直接情報を取得します。データは Vertex AI Search インデックスにコピーされないため、データ ストレージのことを考慮する必要はありません。ただし、データはインデックス登録されないため、検索の品質が低下する可能性があります。

データの取り込み(インデックス登録)では、データが Vertex AI Search インデックスにコピーされます。これにより、検索品質が向上します。ただし、このプロセスではより多くのストレージと時間が消費されます。

コネクタがデータ連携とデータの取り込みの両方をサポートしている場合は、優先したいデータ接続方法を選択します。
非構造化データ
サポートされているデータ形式は、データソースとエンティティ タイプに固有です。エンティティのコンテンツが PDF、HTML、DOCX、PPTX、XLSX、XLSM などの非構造化形式で保存されている場合、Vertex AI Search によって非構造化データストアが作成されます。詳細とサポートされているファイル形式については、非構造化検索をご覧ください。
構造化データ
サポートされているデータ形式は、データソースとエンティティ タイプに固有です。エンティティのコンテンツが構造化形式で保存されている場合、Vertex AI Search によって構造化データストアが作成されます。詳しくは、構造化検索をご覧ください。
データスキーマ
データスキーマにより、データ構造が定義されます。Gemini Enterprise を使用して構造化データをインポートすると、システムがスキーマを自動的に検出します。自動検出されたスキーマを使用したり、API を使用してスキーマを定義したりできます。詳細については、スキーマを指定または自動検出するをご覧ください。
データストアのリージョン
データを取り込むときは、データを保存するリージョン(グローバル、米国、EU など)を選択する必要があります。詳細については、Gemini Enterprise のロケーションをご覧ください。米国リージョンまたは EU リージョンに保存されているデータには、データの暗号化が必要です。デフォルトの暗号化は Google-owned and Google-managed encryption keyで行われますが、顧客管理の暗号鍵を使用することもできます。
データ同期

データ同期では、元のデータソースから ID データ(ロール、権限、ユーザーなど)とエンティティ データ(特定のデータソースに関連するデータなど)が取得され、更新されます。詳細については、データ同期の種類とスケジュールをご覧ください。

データ同期の種類とスケジュール

データ同期では、エンティティ データ、ID データ、またはその両方がキャプチャされ、Gemini Enterprise のデータストアの内容が更新されます。

同期の種類

Gemini Enterprise のデータストアでは、次の基本的な 2 種類のデータ同期が使用されます。

  • 完全同期では、サードパーティ製のアプリやサービスの状態全体がキャプチャされます。これには、追加、更新、削除が含まれます。完全同期では、データストアの既存のコンテンツが置き換えられます。

  • 増分同期では、前回の同期以降に追加または更新されたエンティティ データが定期的にキャプチャされます。ID データやエンティティ データの削除は同期されません。

次のデータタイプについては、完全同期のスケジュールを個別に設定できます。

  • エンティティ同期は、サードパーティのデータソース固有のデータをキャプチャします。たとえば、Jira などのシステムのデータストアでは、課題、作業ログ、コメント、添付ファイルを同期できます。エンティティ同期には、ID 情報は含まれません。

  • ID 同期では、ACL グループに関連付けられたユーザー アカウントに関するデータがキャプチャされます。

ID 同期と完全同期のインタラクション

個々の ID 同期実行が完全同期実行とどのように連携するかを理解するために、2 つのページ(ACL グループ group_1 に関連付けられる page_1 と、ACL グループ group_2 に関連付けられる page_2)を含むシナリオの例を考えてみましょう。

  1. 初期 ID 同期が実行され、グループ group_1group_2 に関する情報が取得されます。

    • group_1 にユーザー user_1 が含まれているとします。

    • group_2 にユーザー user_2 が含まれているとします。

    この ID 同期により、次のマッピングが確立されます。

    • user_1group_1 にマッピングされます。

    • user_2group_2 にマッピングされます。

  2. ID の同期と並行して完全同期が実行され、page_1page_2 の両方が取得されます。

    この完全同期により、次のマッピングが確立されます。

    • user_1page_1 にアクセスできます(group_1 経由)。

    • user_2page_2 にアクセスできます(group_2 経由)。

同期スケジュール

各データストアについて、同期の種類ごとに頻度を選択できます。

  • すべての ID データとエンティティ データの完全同期は、3 時間ごと、6 時間ごと、12 時間ごと、1 日ごと、3 日ごとに同時にスケジュール設定できます。

  • すべての ID データの独立した完全同期と、すべてのエンティティ データの独立した完全同期は、次のカスタム同期頻度を使用して個別にスケジュール設定できます。

    • エンティティ データ: 3 時間ごと、6 時間ごと、12 時間ごと、1 日ごと、3 日ごと、5 日ごと、7 日ごと。

    • ID データ: 30 分ごと、1 時間ごと、3 時間ごと、6 時間ごと、12 時間ごと、1 日ごと、3 日ごと、5 日ごと、7 日ごと。

  • 更新または追加されたエンティティ データの増分同期は、3 時間ごと、6 時間ごと、12 時間ごと、1 日ごと、3 日ごと、5 日ごと、7 日ごとにスケジュール設定できます。デフォルトでは、増分同期は 3 時間ごとに実行されます。

頻度に関する推奨事項

取得されるレコード数と推奨される秒間クエリ数(QPS)に沿ったデータ同期の頻度を選択します。

次の表に、1 日ごと、3 日ごと、5 日ごと、7 日ごとの同期で取得される一般的なレコード数を示します。実際のレコード数は、データソースとその構成によって異なる場合があります。

QPS 1 日ごとの同期のレコード数 3 日ごとの同期のレコード数 5 日ごとの同期のレコード数 7 日ごとの同期のレコード数
5 432,000 1,296,000 2,160,000 3,000,000
10 864,000 2,592,000 4,320,000 6,000,000
20 1,700,000 5,100,000 8,500,000 11,900,000
50 4,300,000 12,900,000 21,500,000 30,100,100
100 8,600,000 25,800,000 43,000,000 60,200,000

同期の一時停止と再開

完全同期と増分同期の両方を一時停止して再開できます。

  • ある同期タイプを一時停止すると、データストアはそのタイプの進行中の同期をキャンセルし、そのタイプの新しい同期のスケジュール設定を停止します。

  • ある同期タイプを再開すると、データストアは最後にスケジュールされた同期時刻に基づいて新しい同期のスケジュールを設定しますが、先に中断された同期は続行しません。

たとえば、完全同期の実施中に完全同期を一時停止すると、データストアはその同期をキャンセルします。後で完全同期を再開すると、データストアは完全同期のスケジュールに従って新しい完全同期のスケジュールを自動的に設定します。

Google のデータソース

BigQuery、Spanner、Google ドライブなどの Google データソースに接続できます。

Google のデータソースのチェックリスト

Gemini Enterprise にデータを送信する前に、次のチェックリストを確認してください。

サポートされている Google のデータソース

Google ドライブ Gmail Google カレンダー ユーザー検索
Google ドライブのアイコン。 Gmail のアイコン。 Google カレンダーのアイコン。 ユーザー検索のアイコン。

サードパーティのデータソース

サードパーティのデータストアでは、サードパーティのアプリケーション データを Gemini Enterprise に取り込みます。

サードパーティのデータソースのチェックリスト

サードパーティのデータソースを Gemini Enterprise に接続する前に、次のチェックリストを確認してください。

  • 特定のデータソースについては、特定のスコープと権限を構成する必要があります。サードパーティ アプリケーションの管理者は、データソースを接続して認証と権限を設定するために必要な認証情報を確認する必要があります。特定のスコープと権限については、それぞれのサードパーティのデータソースのドキュメントをご覧ください。

  • データストアのアクセス制御を設定します。詳細については、ID と権限をご覧ください。

  • データを連携するか取り込む(インデックス登録する)かを決定します。

  • データが取り込まれる場合は、データソースにデータを取り込むために使用するユーザー認証情報についてリソースが制限されていないことを確認します。

  • データの同期頻度を決定します。

  • 顧客管理の暗号鍵(CMEK)を使用している場合は、マルチリージョン鍵と単一リージョン鍵を作成します。詳細については、サードパーティのデータストアの単一リージョン鍵を登録するをご覧ください。

  • 個人情報(PII)があり、クエリ候補の予測入力を使用する場合は、PII の漏洩を防ぐをご覧ください。

サポートされているサードパーティのデータソース

Microsoft Entra ID Microsoft OneDrive Microsoft Outlook Microsoft SharePoint
Microsoft Entra ID のアイコン。 OneDrive のアイコン。 Microsoft Outlook のアイコン。 SharePoint のアイコン。
Jira Cloud Confluence Cloud ServiceNow
Jira Cloud のアイコン。 Confluence Cloud のアイコン。 ServiceNow のアイコン。