連接器會將 Google 和第三方資料來源的資料匯入 Gemini Enterprise,並儲存在專屬資料儲存庫中。本文將概略介紹這些連結器。在 Gemini Enterprise 中集中管理資料,可提升資料存取權、搜尋功能和分析功能。

連接器和資料儲存庫概念
資料儲存庫 |
每個資料來源都支援一組實體類型。舉例來說,Jira Cloud 具有問題、附件、留言和工作記錄等實體,這些實體是資料來源專屬的。Gemini Enterprise 會為每個實體建立個別的資料儲存庫。因此,使用 Google Cloud 控制台建立資料儲存庫時,您會取得代表這些擷取資料實體的資料儲存庫集合。 |
資料聯盟與擷取 (建立索引) 的比較 |
資料聯合功能會直接從指定資料來源擷取資訊。由於資料不會複製到 Vertex AI Search 索引,因此不必擔心資料儲存問題。不過,由於資料未建立索引,搜尋品質可能會較低。 資料擷取 (建立索引) 會將資料複製到 Vertex AI Search 索引。這有助於提升搜尋品質。不過,這項程序會占用較多儲存空間和時間。 |
非結構化資料 |
支援的資料格式取決於資料來源和實體類型。如果實體中的內容是以非結構化格式儲存 (例如 HTML、PDF、TXT、PPTX 或 DOCX),Vertex AI Search 會建立非結構化資料儲存庫。如要瞭解詳情和支援的檔案類型,請參閱非結構化搜尋。 |
結構化資料 |
支援的資料格式取決於資料來源和實體類型。如果實體中的內容是以結構化格式儲存,Vertex AI Search 會建立結構化資料儲存庫。詳情請參閱結構化搜尋。 |
資料結構定義 |
資料結構定義資料結構。使用 Gemini Enterprise 匯入結構化資料時,系統會自動偵測結構定義。您可以使用自動偵測的結構定義,也可以透過 API 定義結構定義。 詳情請參閱「提供或自動偵測結構定義」。 |
資料儲存庫區域 |
擷取資料時,您需要選取要儲存資料的地區,例如全球、美國或歐盟。詳情請參閱「 Gemini Enterprise 位置」。儲存在美國或歐盟區域的資料必須加密。預設加密方式為使用 Google-owned and Google-managed encryption key,但您也可以改用客戶自行管理的加密金鑰。 |
資料同步 |
資料同步會從原始資料來源提取並更新身分資料 (例如角色、權限和使用者) 和實體資料 (例如與特定資料來源相關的資料)。詳情請參閱「資料同步類型和時間表」。 |
資料同步類型和時間表
資料同步會擷取實體資料、身分資料或兩者,並更新 Gemini Enterprise 中資料儲存庫的內容。
同步類型
Gemini Enterprise 中的資料儲存庫會使用兩種基本資料同步類型:
完整同步會擷取第三方應用程式或服務的完整狀態。 包括新增、更新和刪除的項目。完整同步會取代資料儲存庫的現有內容。
增量同步功能會定期擷取自上次同步後新增或更新的實體資料。不會同步處理身分識別資料或實體資料的刪除作業。
您可以分別為下列資料類型安排完整同步:
實體同步會擷取第三方資料來源的專屬資料,舉例來說,Jira 等系統的資料存放區可以同步處理問題、工作記錄、註解和附件。實體同步作業不會包含身分識別資訊。
身分同步會擷取與 ACL 群組相關聯的使用者帳戶資料。
身分同步與完整同步的互動
如要瞭解個別身分同步執行作業如何搭配完整同步執行作業運作,請參考以下範例情境,其中包含兩個網頁:page_1
(連結至 ACL 群組 group_1
) 和 page_2
(連結至 ACL 群組 group_2
)。
系統會執行初始身分同步作業,並擷取群組
group_1
和group_2
的相關資訊。假設
group_1
包含使用者user_1
。假設
group_2
包含使用者user_2
。
這項身分同步作業會建立下列對應關係:
user_1
對應至group_1
。user_2
對應至group_2
。
除了身分同步之外,系統也會執行完整同步,同時擷取
page_1
和page_2
。這項完整同步作業會建立下列對應:
「
user_1
」可以存取page_1
(透過「group_1
」)。「
user_2
」可以存取page_2
(透過「group_2
」)。
同步時間表
您可以為每個資料儲存庫選取不同同步類型的頻率:
您可以排定每 3 小時、6 小時、12 小時、1 天或 3 天,完整同步所有身分資料和實體資料。
您可以分別排定所有身分資料的完整同步作業,以及所有實體資料的完整同步作業,並使用下列任一自訂同步頻率:
實體資料:每 3 小時、6 小時、12 小時、1 天、3 天、5 天和 7 天。
身分識別資料:每 30 分鐘、1 小時、3 小時、6 小時、12 小時、1 天、3 天、5 天和每 7 天。
您可以排定每 3 小時、6 小時、12 小時、1 天、3 天、5 天或 7 天,遞增同步更新或新增的實體資料。根據預設,系統每 3 小時會執行一次增量同步作業。
頻率建議
選擇與擷取的記錄數量和建議每秒查詢次數 (QPS) 相符的資料同步頻率。
下表顯示同步處理 1 天、3 天、5 天和 7 天時,通常會擷取的記錄數。實際記錄數量可能會因資料來源及其設定而異。
QPS | 1 天同步處理的記錄量 | 3 天同步處理的記錄量 | 5 天同步處理的記錄量 | 7 天同步記錄量 |
---|---|---|---|---|
5 | 432k | 129.6 萬 | 216 萬 | 3M |
10 | 864k | 259.2 萬 | 432 萬 | 6M |
20 | 170 萬 | 510 萬 | 850 萬 | 1190 萬 |
50 | 430 萬 | 1290 萬 | 2,150 萬 | 3,010 萬 |
100 | 860 萬 | 2,580 萬 | 43M | 6,020 萬 |
暫停及繼續同步處理
您可以暫停和繼續執行完整和遞增同步作業:
暫停特定類型的同步處理作業後,資料儲存庫會取消該類型正在進行的同步處理作業,並停止排定該類型的新同步處理作業。
如選擇繼續執行特定類型的同步處理作業,資料儲存庫會根據上次排定的同步時間,排定新的同步處理作業,但不會繼續執行先前中斷的同步作業。
舉例來說,如果您在完整同步作業進行期間暫停,資料儲存庫就會取消該作業。如果之後恢復完整同步,資料儲存庫會根據完整同步時間表,自動排定新的完整同步作業。
Google 資料來源
您可以連結至 Google 資料來源,例如 BigQuery、Spanner 和 Google 雲端硬碟。
Google 資料來源檢查清單
將資料傳送至 Gemini Enterprise 前,請先完成下列檢查清單:
設定資料來源的存取控管機制。詳情請參閱「身分和權限」。
決定資料是否應聯合或擷取 (建立索引)。
決定資料的同步頻率。
如果您使用客戶自行管理的加密金鑰 (CMEK),請建立多區域金鑰。詳情請參閱為第三方資料來源註冊單一區域金鑰。
如果您有個人識別資訊 (PII),並打算使用自動完成功能提供查詢建議,請參閱防範 PII 外洩。
支援的 Google 資料來源
Google 雲端硬碟 | Gmail | Google 日曆 | 搜尋使用者 |
|
|
|
|
第三方資料來源
第三方資料儲存庫會將第三方應用程式資料擷取至 Gemini Enterprise。
第三方資料來源檢查清單
將第三方資料來源連結至 Gemini Enterprise 前,請先完成下列檢查清單:
您必須為特定資料來源設定特定範圍和權限。第三方應用程式管理員必須檢查連結資料來源所需的憑證,並設定驗證和權限。如要瞭解特定範圍和權限,請參閱對應的第三方資料來源說明文件。
設定資料儲存庫的存取控管機制。詳情請參閱「身分和權限」。
決定資料是否應聯合或擷取 (建立索引)。
如果資料已擷取,請確認您用來將資料擷取至資料來源的使用者憑證,並未受到資源限制。
決定資料的同步頻率。
如果您使用客戶自行管理的加密金鑰 (CMEK),請建立多區域和單一區域金鑰。詳情請參閱「為第三方資料儲存庫註冊單一區域金鑰」。
如果您有個人識別資訊 (PII),並打算使用自動完成功能提供查詢建議,請參閱防範 PII 外洩。
支援的第三方資料來源
Microsoft Entra ID | Microsoft OneDrive | Microsoft Outlook | Microsoft SharePoint |
![]() |
![]() |
![]() |
![]() |
Jira Cloud | Confluence Cloud | ServiceNow | |
![]() |
![]() |
![]() |