關於應用程式和資料儲存庫

本頁面說明 Gemini Enterprise 應用程式和資料儲存庫。

使用 Gemini Enterprise 時,可以建立應用程式並連結到資料儲存庫。一個專案可以包含多個應用程式。 Google Cloud

重要詞彙:

  • 應用程式:Gemini Enterprise 應用程式會為使用者提供搜尋結果、動作和代理程式。在 API 的情境中,應用程式一詞可與引擎一詞互換使用。

  • 資料儲存庫:資料儲存庫是實體,內含從第一方資料來源 (例如 Cloud Storage) 或第三方應用程式 (例如 Jira 或 Salesforce) 擷取的資料。含有第三方應用程式資料的資料儲存庫也稱為「資料連接器」

應用程式和資料儲存庫之間的關係

應用程式必須連結至資料儲存庫,才能使用其中的資料提供搜尋結果、答案或動作。

應用程式和資料儲存庫為多對多關係。如果單一應用程式連結多個資料儲存庫,則稱為混合搜尋。如要瞭解將搜尋應用程式連結至多個資料儲存庫的限制,請參閱「關於混合搜尋」一文。

應用程式建立和資料擷取方法

建立應用程式和擷取資料的方式取決於資料類型:

  • 如果是第三方資料,您需要使用 Google Cloud 控制台 (而非 API) 建立應用程式並擷取資料。

  • 如要匯出其他資料,可以使用 Google Cloud 控制台或 API。

文件

每個資料儲存庫都有一或多個資料記錄,稱為「文件」。文件內容取決於資料儲存庫中的資料類型:

  • 第三方資料來源的資料。就這類型的資料而言,文件是第三方資料來源的專屬實體,像是 Jira 問題或 Confluence 空間。

  • 結構化資料。文件是指資料表中的資料列,或採用特定結構定義的 JSON 記錄。您可以自行提供結構定義,或由 Gemini Enterprise 從擷取資料中取得。

  • 非結構化資料。文件是指 HTML、TXT 或含嵌入文字的 PDF 檔案。預先發布版功能支援 PPTX 和 DOCX 格式。

資料儲存庫和應用程式

Gemini Enterprise 提供各種資料儲存庫。資料儲存庫只能包含一種資料。

第三方資料儲存庫的結構化資料

下列第三方資料來源連接器已推出預先發布版,並開放加入允許清單:

  • Confluence
  • Jira
  • Salesforce
  • SharePoint Online
  • Slack

這些第三方提供的資料視為結構化資料。

設定新連接器時,請選取同步頻率。您也可以選取要同步處理的實體。實體會因來源而異,例如 Jira 的問題,以及 Confluence 的內容和空間。系統會為每個實體建立專屬的資料儲存區。實體資料儲存庫會依連接器例項分組。

後續步驟

結構化資料

有了存放結構化資料的資料儲存庫,您就能對結構化資料啟用語意搜尋或推薦功能。您可以從 BigQuery 或 Cloud Storage 匯入資料。您也可以透過 API 手動上傳結構化 JSON 資料。

舉例來說,您可以對電子商務體驗的產品目錄啟用搜尋或推薦功能,或對醫生目錄啟用提供者搜尋或建議功能。

Gemini Enterprise 會自動偵測您匯入資料的結構定義。您可以選擇是否提供資料架構。為資料提供結構定義通常可提升結果品質。

後續步驟

非結構化資料

非結構化資料儲存庫可對文件和圖片等資料啟用語意搜尋或推薦功能。

非結構化資料儲存空間支援 HTML、含嵌入文字的 PDF 和 TXT 格式的文件。預先發布版功能支援 PPTX 和 DOCX 格式。

搜尋功能會提供 10 個網址,以及自然語言查詢的摘要答案。文件必須上傳至 Cloud Storage bucket,並具備適當的存取權限。舉例來說,金融機構可以針對私有金融研究出版品語料庫啟用搜尋或建議功能,生物科技公司則可以針對私有醫療研究存放區啟用搜尋或建議功能。

後續步驟

關於混合搜尋

透過混合搜尋,單一應用程式可以連結多個資料儲存庫,讓應用程式搜尋多個來源和類型的資料。

如要建立混合搜尋應用程式,請在建立新應用程式時選取多個資料儲存庫。如果建立時未選取多個資料儲存庫,之後就無法新增其他資料儲存庫。

取得搜尋結果時,您可以搜尋所有資料儲存庫,或篩選單一資料儲存庫的結果。

混合搜尋有下列限制:

  • 新增及移除資料儲存區:
    • 如要為應用程式啟用混合搜尋功能,您必須在建立應用程式時,連結至少兩個資料儲存庫。
    • 您可以從混合搜尋應用程式新增或移除資料儲存庫,但應用程式隨時都必須連結至少兩個資料儲存庫。
    • 如果在建立應用程式時,將單一資料儲存庫連結至搜尋應用程式,就無法新增或移除該資料儲存庫。
  • 系統不支援使用 BigQuery 匯入非結構化資料的資料儲存庫。
  • 混合搜尋允許在搜尋要求中使用下列欄位:
    • boostSpec
    • contentSearchSpec
    • dataStoreSpecs
    • facetSpecs
    • filter
    • languageCode
    • offset
    • oneBoxPageSize
    • orderBy
    • query
    • pageSize
    • pageToken
    • relevanceScoreSpec
    • relevanceThreshold
    • session
    • sessionSpec
    • spellCorrectionSpec
    • userInfo
    • userPseudoId
  • 混合搜尋允許 dataStoreSpecs 中的下列欄位:
    • dataStore
    • boostSpec:如果 SearchRequestdataStoreSpecs 都指定了加成規格,則搜尋結果會套用這兩項規格
    • filter:如果同時為 SearchRequestdataStoreSpecs 指定篩選條件,搜尋結果會套用這兩項篩選條件
  • 混合式應用程式支援對放送設定執行建立、讀取、更新和刪除 (CRUD) 作業。只有下列欄位可以在放送設定中新增或更新:
    • boostControlIds
    • displayName
    • filterControlIds
    • genericConfig
      • contentSearchSpec
    • name
    • solutionType
    • synonymsControlIds
  • 混合搜尋應用程式支援對下列控制項執行 CRUD 作業:
    • boostAction
    • synonymAction
    • filterAction
  • 每個搜尋應用程式最多只能有 50 個資料儲存庫。
  • 如果某個資料儲存庫使用 CMEK 設定,所有其他資料儲存庫也必須使用相同的 CMEK 設定。