連接器和資料儲存庫簡介

連接器會將 Google 和第三方資料來源的資料匯入 Gemini Enterprise,並儲存在專屬資料儲存庫中。本文將概略介紹這些連結器。在 Gemini Enterprise 中集中管理資料,可提升資料存取權、搜尋功能和分析功能。

總覽圖片:顯示連接器如何將資料匯入 Gemini Enterprise。
連線器總覽

連接器和資料儲存庫概念

資料儲存庫
每個資料來源都支援一組實體類型。舉例來說,Jira Cloud 具有問題、附件、留言和工作記錄等實體,這些實體是資料來源專屬的。Gemini Enterprise 會為每個實體建立個別的資料儲存庫。因此,使用 Google Cloud 控制台建立資料儲存庫時,您會取得代表這些擷取資料實體的資料儲存庫集合。
資料聯盟與擷取 (建立索引) 的比較
資料聯合功能會直接從指定資料來源擷取資訊。由於資料不會複製到 Vertex AI Search 索引,因此不必擔心資料儲存問題。不過,由於資料未建立索引,搜尋品質可能會較低。

資料擷取 (建立索引) 會將資料複製到 Vertex AI Search 索引。這有助於提升搜尋品質。不過,這項程序會占用較多儲存空間和時間。
非結構化資料
支援的資料格式取決於資料來源和實體類型。如果實體中的內容是以非結構化格式儲存 (例如 HTML、PDF、TXT、PPTX 或 DOCX),Vertex AI Search 會建立非結構化資料儲存庫。如要瞭解詳情和支援的檔案類型,請參閱非結構化搜尋
結構化資料
支援的資料格式取決於資料來源和實體類型。如果實體中的內容是以結構化格式儲存,Vertex AI Search 會建立結構化資料儲存庫。詳情請參閱結構化搜尋
資料結構定義
資料結構定義資料結構。使用 Gemini Enterprise 匯入結構化資料時,系統會自動偵測結構定義。您可以使用自動偵測的結構定義,也可以透過 API 定義結構定義。 詳情請參閱「提供或自動偵測結構定義」。
資料儲存庫區域
擷取資料時,您需要選取要儲存資料的地區,例如全球、美國或歐盟。詳情請參閱「 Gemini Enterprise 位置」。儲存在美國或歐盟區域的資料必須加密。預設加密方式為使用 Google-owned and Google-managed encryption key,但您也可以改用客戶自行管理的加密金鑰
資料同步

資料同步會從原始資料來源提取並更新身分資料 (例如角色、權限和使用者) 和實體資料 (例如與特定資料來源相關的資料)。詳情請參閱「資料同步類型和時間表」。

資料同步類型和時間表

資料同步會擷取實體資料、身分資料或兩者,並更新 Gemini Enterprise 中資料儲存庫的內容。

同步類型

Gemini Enterprise 中的資料儲存庫會使用兩種基本資料同步類型:

  • 完整同步會擷取第三方應用程式或服務的完整狀態。 包括新增、更新和刪除的項目。完整同步會取代資料儲存庫的現有內容。

  • 增量同步功能會定期擷取自上次同步後新增或更新的實體資料。不會同步處理身分識別資料或實體資料的刪除作業。

您可以分別為下列資料類型安排完整同步:

  • 實體同步會擷取第三方資料來源的專屬資料,舉例來說,Jira 等系統的資料存放區可以同步處理問題、工作記錄、註解和附件。實體同步作業不會包含身分識別資訊。

  • 身分同步會擷取與 ACL 群組相關聯的使用者帳戶資料。

身分同步與完整同步的互動

如要瞭解個別身分同步執行作業如何搭配完整同步執行作業運作,請參考以下範例情境,其中包含兩個網頁:page_1 (連結至 ACL 群組 group_1) 和 page_2 (連結至 ACL 群組 group_2)。

  1. 系統會執行初始身分同步作業,並擷取群組 group_1group_2 的相關資訊。

    • 假設 group_1 包含使用者 user_1

    • 假設 group_2 包含使用者 user_2

    這項身分同步作業會建立下列對應關係:

    • user_1 對應至 group_1

    • user_2 對應至 group_2

  2. 除了身分同步之外,系統也會執行完整同步,同時擷取 page_1page_2

    這項完整同步作業會建立下列對應:

    • user_1」可以存取page_1 (透過「group_1」)。

    • user_2」可以存取page_2 (透過「group_2」)。

同步時間表

您可以為每個資料儲存庫選取不同同步類型的頻率:

  • 您可以排定每 3 小時、6 小時、12 小時、1 天或 3 天,完整同步所有身分資料和實體資料。

  • 您可以分別排定所有身分資料的完整同步作業,以及所有實體資料的完整同步作業,並使用下列任一自訂同步頻率:

    • 實體資料:每 3 小時、6 小時、12 小時、1 天、3 天、5 天和 7 天。

    • 身分識別資料:每 30 分鐘、1 小時、3 小時、6 小時、12 小時、1 天、3 天、5 天和每 7 天。

  • 您可以排定每 3 小時、6 小時、12 小時、1 天、3 天、5 天或 7 天,遞增同步更新或新增的實體資料。根據預設,系統每 3 小時會執行一次增量同步作業。

頻率建議

選擇與擷取的記錄數量和建議每秒查詢次數 (QPS) 相符的資料同步頻率。

下表顯示同步處理 1 天、3 天、5 天和 7 天時,通常會擷取的記錄數。實際記錄數量可能會因資料來源及其設定而異。

QPS 1 天同步處理的記錄量 3 天同步處理的記錄量 5 天同步處理的記錄量 7 天同步記錄量
5 432k 129.6 萬 216 萬 3M
10 864k 259.2 萬 432 萬 6M
20 170 萬 510 萬 850 萬 1190 萬
50 430 萬 1290 萬 2,150 萬 3,010 萬
100 860 萬 2,580 萬 43M 6,020 萬

暫停及繼續同步處理

您可以暫停和繼續執行完整和遞增同步作業:

  • 暫停特定類型的同步處理作業後,資料儲存庫會取消該類型正在進行的同步處理作業,並停止排定該類型的新同步處理作業。

  • 如選擇繼續執行特定類型的同步處理作業,資料儲存庫會根據上次排定的同步時間,排定新的同步處理作業,但不會繼續執行先前中斷的同步作業。

舉例來說,如果您在完整同步作業進行期間暫停,資料儲存庫就會取消該作業。如果之後恢復完整同步,資料儲存庫會根據完整同步時間表,自動排定新的完整同步作業。

Google 資料來源

您可以連結至 Google 資料來源,例如 BigQuery、Spanner 和 Google 雲端硬碟。

Google 資料來源檢查清單

將資料傳送至 Gemini Enterprise 前,請先完成下列檢查清單:

支援的 Google 資料來源

Google 雲端硬碟 Gmail Google 日曆 搜尋使用者
Google 雲端硬碟圖示。 Gmail 圖示。 Google 日曆的圖示。 使用者搜尋的圖示。

第三方資料來源

第三方資料儲存庫會將第三方應用程式資料擷取至 Gemini Enterprise。

第三方資料來源檢查清單

將第三方資料來源連結至 Gemini Enterprise 前,請先完成下列檢查清單:

  • 您必須為特定資料來源設定特定範圍和權限。第三方應用程式管理員必須檢查連結資料來源所需的憑證,並設定驗證和權限。如要瞭解特定範圍和權限,請參閱對應的第三方資料來源說明文件。

  • 設定資料儲存庫的存取控管機制。詳情請參閱「身分和權限」。

  • 決定資料是否應聯合或擷取 (建立索引)

  • 如果資料已擷取,請確認您用來將資料擷取至資料來源的使用者憑證,並未受到資源限制。

  • 決定資料的同步頻率。

  • 如果您使用客戶自行管理的加密金鑰 (CMEK),請建立多區域和單一區域金鑰。詳情請參閱「為第三方資料儲存庫註冊單一區域金鑰」。

  • 如果您有個人識別資訊 (PII),並打算使用自動完成功能提供查詢建議,請參閱防範 PII 外洩

支援的第三方資料來源

Microsoft Entra ID Microsoft OneDrive Microsoft Outlook Microsoft SharePoint
Microsoft Entra ID 的圖示。 OneDrive 圖示。 Microsoft Outlook 的圖示。 SharePoint 的圖示。
Jira Cloud Confluence Cloud ServiceNow
Jira Cloud 的圖示。 Confluence Cloud 的圖示。 ServiceNow 的圖示。