關於應用程式和資料儲存庫

本頁面說明 Vertex AI Search 應用程式和資料儲存庫。

使用 Vertex AI Search 時,可以建立搜尋或推薦應用程式並連結到資料儲存庫。一個 Google Cloud 專案可以包含多個應用程式。

應用程式和資料儲存庫之間的關係

應用程式和資料儲存庫的關係會因應用程式類型而異:

  • 自訂搜尋應用程式和資料儲存庫之間為多對多關係。如果多個資料儲存庫連結至單一自訂搜尋應用程式,這就稱為混合搜尋。如要瞭解將搜尋應用程式連結至多個資料儲存庫的限制,請參閱「關於混合搜尋」。

  • 自訂建議應用程式和資料儲存庫為一對一關係。

  • 媒體應用程式和資料儲存庫為多對一關係。應用程式只能連結至一個資料儲存庫,但一個資料儲存庫可以連結至多個應用程式。舉例來說,媒體搜尋應用程式和媒體推薦應用程式可以共用資料儲存庫。

  • 醫療照護搜尋應用程式和資料儲存庫為多對一關係。應用程式只能連結至一個資料儲存庫,但一個資料儲存庫可以連結至多個應用程式。舉例來說,面向患者的應用程式和面向醫療服務提供者的應用程式,可以連結至相同的資料儲存庫。

    如要批次匯入健康照護資料,資料會匯入應用程式內的資料儲存庫。如要串流匯入健康照護資料 (搶先版),資料會匯入實體,這是資料連接器內的資料儲存庫類型。資料連接器也是應用程式中的一種資料儲存庫。

資料儲存庫連到應用程式後,就無法中斷連結。

應用程式建立和資料擷取方法

建立應用程式和擷取資料的方式取決於資料類型:

  • 如要取得網站資料,可以使用 Google Cloud 控制台或 API。 如要使用透過 API 建立的網站資料,必須在 Google Cloud 控制台中,將該資料附加至已啟用 Enterprise 功能的應用程式。

  • 如要使用結構化或非結構化資料,可以透過Google Cloud 控制台或 API 進行。

  • 如要處理醫療保健資料,可以使用 Google Cloud 控制台或 API。

文件

每個資料儲存庫都有一或多個資料記錄,稱為「文件」。文件內容取決於資料儲存庫中的資料類型:

  • 網站。文件就是網頁。

  • 結構化資料。文件是指資料表中的資料列,或採用特定結構定義的 JSON 記錄。您可以自行提供結構定義,或由 AI 應用程式從擷取資料中取得。

  • 媒體的結構化資料。文件是指資料表中的資料列,或採用媒體專屬結構定義的 JSON 記錄。文件是與媒體內容相關的記錄,例如影片、新聞報導、音樂檔案和 Podcast。文件含有媒體項目的描述性資訊,至少包括:標題、內容位置的 URI、類別、長度和可觀看日期。

  • 非結構化資料。文件是指 HTML、TXT 或含嵌入文字的 PDF 檔案。預先發布版功能支援 PPTX 和 DOCX 格式。

  • 醫療照護 FHIR 資料。文件是指支援的 FHIR R4 資源。如需 Vertex AI Search 支援的 FHIR R4 資源清單,請參閱「Healthcare FHIR R4 資料結構定義參考資料」。

資料儲存庫和應用程式

在 AI 應用程式中,有各種資料儲存庫。 資料儲存庫只能包含一種資料。

網站資料

含有網站資料的資料儲存庫會使用從公開網站建立索引的資料。您可以提供一組要納入資料儲存庫的網址模式。符合網址模式的網頁稱為「已納入」網頁。接著,您就可以設定搜尋功能,搜尋從所含網頁檢索到的資料。

舉例來說,您可以提供 example.com/faq/*example.com/events/* 等網址模式,並針對符合模式的網頁檢索資料啟用搜尋功能。這類資料包括文字、標記中繼資料的圖片,以及其他結構化資料,例如 meta 標記、PageMap 屬性和 schema.org 資料。

您也可以提供要排除的網站部分網址模式,例如 example.com/events/members-only/*example.com/events/past-*。排除的網址優先於納入的網址。

網站資料儲存庫分為兩種:

  • 基本網站搜尋

    • 針對納入的網站,提供現有 Google 搜尋索引的搜尋功能。
    • 不需驗證網域。
  • 進階網站索引建立功能

    • 根據下列任一來源生成的索引提供進階搜尋功能:
      • Vertex AI Search 應用程式擁有者可以提交及維護網站地圖,控管建立索引的網頁。詳情請參閱「使用 Sitemap 建立網頁索引及重新整理網頁」。這個程序可讓索引保持最新狀態,不需手動介入。
      • Vertex AI Search 應用程式擁有者可以執行初始索引作業,鏡像 Google 搜尋索引,然後在必要時重新檢索網站,擴大索引涵蓋範圍,確保索引內容保持最新狀態。詳情請參閱「重新整理網頁」。如要瞭解進階網站索引的進階功能,請參閱「進階網站索引」。
    • Vertex AI Search 資料儲存庫擁有者必須驗證所含網站所屬的網域。詳情請參閱「驗證網站網域」。
    • 可將結構化資料新增至資料儲存庫結構定義。網站含有非結構化資料,但您可以在網頁中新增 meta 標記、PageMap 屬性和 schema.org 資料等形式的結構化資料。然後,您可以使用這項結構化資料編輯資料儲存庫結構定義,詳情請參閱「使用結構化資料進行進階網站索引」。

後續步驟

網站搜尋:

結構化資料

有了存放結構化資料的資料儲存庫,您就能對結構化資料啟用語意搜尋或推薦功能。您可以從 BigQuery 或 Cloud Storage 匯入資料。您也可以透過 API 手動上傳結構化 JSON 資料。

舉例來說,您可以對電子商務體驗的產品目錄啟用搜尋或推薦功能,或對醫生目錄啟用提供者搜尋或建議功能。

AI 應用程式會自動偵測您匯入資料的結構定義。您可以選擇是否提供資料架構。為資料提供結構定義通常可提升結果品質。

後續步驟

自訂搜尋:

如要取得自訂建議:

媒體的結構化資料

媒體應用程式只能連結至媒體資料儲存庫。媒體資料儲存庫是結構化資料儲存庫,包含 Google 定義的結構定義,或您自訂的結構定義,其中包含一組特定的五個媒體相關欄位。如要進一步瞭解架構,請參閱「關於媒體文件和資料存放區」。

舉例來說,您可以為電影目錄或新聞網站建立媒體建議應用程式,啟用建議功能,讓使用者獲得合適的個人化建議。

除了媒體文件,媒體資料儲存庫也包含使用者事件資訊,可供 Vertex AI Search 為使用者自訂推薦內容和搜尋結果。媒體應用程式必須提供使用者事件。如要瞭解使用者事件,請參閱「記錄即時使用者事件」。

後續步驟

非結構化資料

非結構化資料儲存庫可對文件和圖片等資料執行語意搜尋。

非結構化資料儲存庫支援 HTML、含嵌入文字的 PDF 和 TXT 格式文件。預先發布版功能支援 PPTX 和 DOCX 格式。

搜尋功能會提供 10 個網址,以及自然語言查詢的摘要答案。文件必須上傳至 Cloud Storage bucket,並具備適當的存取權限。舉例來說,金融機構可以針對私人金融研究出版品語料庫啟用搜尋功能,生物科技公司則可以針對私人醫療研究存放區啟用搜尋或推薦功能。

後續步驟

搜尋:

醫療照護 FHIR 資料

醫療照護搜尋應用程式會使用從 Cloud Healthcare API FHIR 儲存庫匯入的 FHIR R4 資料。如需 Vertex AI Search 支援的 FHIR R4 資源清單,請參閱醫療照護 FHIR R4 資料結構定義參考資料。 FHIR R4 資料儲存庫必須符合特定規定,才能當做 Vertex AI Search 資料儲存庫的資料來源。詳情請參閱如何準備醫療保健 FHIR 資料以供擷取。

後續步驟

關於混合搜尋

您可以建立混合搜尋應用程式,將多個資料儲存庫連結至單一自訂搜尋應用程式。這項功能可讓您使用一個應用程式,搜尋多個來源和類型的資料。

如要建立混合搜尋應用程式,請在建立新的自訂搜尋應用程式時選取多個資料儲存庫。如果建立時未選取多個資料儲存庫,之後就無法新增其他資料儲存庫。

取得搜尋結果時,您可以搜尋所有資料儲存庫,也可以篩選單一資料儲存庫的結果。

限制如下:

  • 新增及移除資料儲存庫:
    • 如要為應用程式啟用混合搜尋,您必須在建立應用程式時,將至少兩個資料商店連結至應用程式。
    • 您可以從混合搜尋應用程式新增或移除資料儲存庫,但應用程式隨時都必須連結至少兩個資料儲存庫。
    • 如果在建立應用程式時,將單一資料儲存庫連結至搜尋應用程式,就無法新增或移除該資料儲存庫。
  • 如要將網站資料儲存庫用於混合搜尋,必須啟用進階網站索引建立功能。詳情請參閱「進階網站索引」。
  • 系統不支援使用 BigQuery 匯入非結構化資料的資料儲存庫。
  • 混合搜尋允許在搜尋要求中使用下列欄位:
    • boostSpec
    • contentSearchSpec
    • dataStoreSpecs
    • facetSpecs
    • filter
    • languageCode
    • offset
    • oneBoxPageSize
    • orderBy
    • query
    • pageSize
    • pageToken
    • relevanceScoreSpec
    • relevanceThreshold
    • session
    • sessionSpec
    • spellCorrectionSpec
    • userInfo
    • userPseudoId
  • 混合搜尋允許 dataStoreSpecs 中的下列欄位:
    • dataStore
    • boostSpec:如果 SearchRequestdataStoreSpecs 都指定了提升規格,則這兩項規格都會套用至搜尋結果
    • filter:如果同時為 SearchRequestdataStoreSpecs 指定篩選條件,搜尋結果會套用這兩種篩選條件
  • 混合式應用程式支援對服務設定執行建立、讀取、更新和刪除 (CRUD) 作業。只有下列欄位可以在放送設定中新增或更新:
    • boostControlIds
    • displayName
    • filterControlIds
    • genericConfig
      • contentSearchSpec
    • name
    • solutionType
    • synonymsControlIds
  • 混合搜尋應用程式支援對下列控制項執行 CRUD 作業:
    • boostAction
    • synonymAction
    • filterAction
  • 每個搜尋應用程式最多只能有 50 個資料儲存庫。
  • 如果某個資料儲存庫使用 CMEK 設定,所有其他資料儲存庫也必須使用相同的 CMEK 設定。