如要建立資料儲存庫並擷取自訂建議的資料,請前往您打算使用的來源部分:
BigQuery
您可以透過兩種方式,從 BigQuery 資料表建立資料儲存庫:
一次性擷取:將資料從 BigQuery 資料表匯入資料儲存庫。除非手動重新整理資料,否則資料存放區中的資料不會變更。
定期擷取:從一或多個 BigQuery 資料表匯入資料,並設定同步頻率,決定資料存放區更新 BigQuery 資料集最新資料的頻率。
下表比較將 BigQuery 資料匯入 Vertex AI Search 資料儲存庫的兩種方式。
單次擷取 | 定期擷取 |
---|---|
正式發布 (GA)。 | 公開預先發布版。 |
資料必須手動重新整理。 | 資料會每 1、3 或 5 天自動更新一次。資料無法手動重新整理。 |
Vertex AI Search 會從 BigQuery 的一個資料表建立單一資料儲存庫。 | Vertex AI Search 會為每個指定的資料表,建立 BigQuery「資料集」的「資料連接器」,以及資料儲存庫 (稱為「實體」資料儲存庫)。每個資料連結器的資料表必須具有相同的資料類型 (例如結構化),且位於相同的 BigQuery 資料集中。 |
如要將多個資料表的資料合併到一個資料儲存庫,請先從一個資料表擷取資料,然後從另一個來源或 BigQuery 資料表擷取更多資料。 | 由於系統不支援手動匯入資料,實體資料儲存庫中的資料只能來自一個 BigQuery 資料表。 |
支援資料來源存取權控管。 | 系統不支援資料來源存取權控管。匯入的資料可能包含存取控制項,但系統不會採用這些控制項。 |
您可以使用Google Cloud 控制台或 API 建立資料儲存庫。 | 您必須使用控制台建立資料連接器及其實體資料存放區。 |
符合 CMEK 規定。 | 符合 CMEK 規定。 |
從 BigQuery 匯入一次
如要從 BigQuery 資料表擷取資料,請按照下列步驟建立資料存放區,並使用 Google Cloud 控制台或 API 擷取資料。
匯入資料前,請先參閱「為資料擷取作業做準備」。
控制台
如要使用 Google Cloud 控制台從 BigQuery 擷取資料,請按照下列步驟操作:
前往 Google Cloud 控制台的「AI Applications」頁面。
前往「資料儲存庫」頁面。
按一下「建立資料儲存庫」
。在「來源」頁面中,選取「BigQuery」。
在「你要匯入哪種資料?」部分,選取要匯入的資料類型。
在「Synchronization frequency」(同步處理頻率) 部分選取「One time」(一次性)。
在「BigQuery 路徑」欄位中,按一下「瀏覽」,選取您準備用於擷取的資料表,然後按一下「選取」。 或者,直接在「BigQuery 路徑」欄位中輸入資料表位置。
按一下「繼續」。
如果只匯入一次結構化資料:
將欄位對應至主要屬性。
如果結構定義缺少重要欄位,請使用「新增欄位」新增。
詳情請參閱「關於自動偵測和編輯」。
按一下「繼續」。
選擇資料儲存庫的區域。
輸入資料儲存庫的名稱。
點選「建立」。
如要檢查擷取狀態,請前往「資料儲存庫」頁面,點選資料儲存庫名稱,即可在相應的「資料」頁面查看詳細資料。「活動」分頁的狀態欄從「處理中」變更為「匯入完成」時,表示資料已完成擷取。
視資料大小而定,擷取作業可能需要數分鐘至數小時才能完成。
REST
如要使用指令列建立資料存放區,並從 BigQuery 匯入資料,請按照下列步驟操作。
建立資料儲存庫。
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_RECOMMENDATION"] }'
更改下列內容:
PROJECT_ID
:您的 Google Cloud 專案 ID。DATA_STORE_ID
:您要建立的 Vertex AI Search 資料儲存庫 ID。這個 ID 只能包含小寫字母、數字、底線和連字號。DATA_STORE_DISPLAY_NAME
:要建立的 Vertex AI Search 資料儲存庫顯示名稱。
從 BigQuery 匯入資料。
如果您已定義架構,請確認資料符合該架構。
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "bigquerySource": { "projectId": "PROJECT_ID", "datasetId":"DATASET_ID", "tableId": "TABLE_ID", "dataSchema": "DATA_SCHEMA", "aclEnabled": "BOOLEAN" }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
更改下列內容:
PROJECT_ID
:您的 Google Cloud 專案 ID。DATA_STORE_ID
:Vertex AI Search 資料儲存庫的 ID。DATASET_ID
:BigQuery 資料集的 ID。TABLE_ID
:BigQuery 資料表的 ID。- 如果 BigQuery 資料表不在 PROJECT_ID 下方,您需要為服務帳戶
service-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com
授予 BigQuery 資料表的「BigQuery 資料檢視者」權限。舉例來說,如果您要將來源專案「123」的 BigQuery 資料表匯入目的地專案「456」,請授予專案「123」中 BigQuery 資料表的service-456@gcp-sa-discoveryengine.iam.gserviceaccount.com
權限。
- 如果 BigQuery 資料表不在 PROJECT_ID 下方,您需要為服務帳戶
DATA_SCHEMA
:選用。值為document
和custom
。預設值為document
。document
:您使用的 BigQuery 資料表必須符合「準備要擷取的資料」一文提供的預設 BigQuery 結構定義。您可以自行定義每份文件的 ID,同時將所有資料包裝在 jsonData 字串中。custom
:系統接受任何 BigQuery 資料表結構定義,且 Vertex AI Search 會自動為匯入的每份文件產生 ID。
ERROR_DIRECTORY
:選用。Cloud Storage 目錄,用於存放匯入作業的錯誤資訊,例如gs://<your-gcs-bucket>/directory/import_errors
。Google 建議將這個欄位留空,讓 Vertex AI Search 自動建立暫時目錄。RECONCILIATION_MODE
:選用。值為FULL
和INCREMENTAL
。預設為INCREMENTAL
步。指定INCREMENTAL
會導致資料從 BigQuery 遞增重新整理至資料存放區。這會執行 upsert 作業,新增文件並以 ID 相同的更新文件取代現有文件。指定FULL
會導致資料儲存庫中的文件完全重新設定基準。換句話說,系統會將新文件和更新的文件新增至資料存放區,並從資料存放區中移除不在 BigQuery 中的文件。如果您想自動刪除不再需要的檔案,FULL
模式會很有幫助。AUTO_GENERATE_IDS
:選用。指定是否要自動產生文件 ID。如果設為true
,系統會根據酬載的雜湊值產生文件 ID。請注意,多次匯入時,產生的文件 ID 可能不一致。如果您在多次匯入時自動產生 ID,Google 強烈建議將reconciliationMode
設為FULL
,確保文件 ID 一致。只有在
bigquerySource.dataSchema
設為custom
時,才指定autoGenerateIds
。否則,系統會傳回INVALID_ARGUMENT
錯誤。如未指定autoGenerateIds
或將其設為false
,則必須指定idField
。否則文件無法匯入。ID_FIELD
:選用。指定哪些欄位是文件 ID。如果是 BigQuery 來源檔案,idField
表示 BigQuery 資料表中包含文件 ID 的資料欄名稱。只有在 (1)
bigquerySource.dataSchema
設為custom
,且 (2)auto_generate_ids
設為false
或未指定時,才需要指定idField
。否則會傳回INVALID_ARGUMENT
錯誤。BigQuery 資料欄名稱的值必須為字串類型,長度必須介於 1 至 63 個字元之間,且必須符合 RFC-1034。否則文件無法匯入。
C#
詳情請參閱 AI Applications C# API 參考說明文件。
如要向 AI Applications 進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
建立資料儲存庫
匯入文件
Go
詳情請參閱 AI Applications Go API 參考說明文件。
如要向 AI Applications 進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
建立資料儲存庫
匯入文件
Java
詳情請參閱 AI Applications Java API 參考說明文件。
如要向 AI Applications 進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
建立資料儲存庫
匯入文件
Node.js
詳情請參閱 AI Applications Node.js API 參考說明文件。
如要向 AI Applications 進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
建立資料儲存庫
匯入文件
Python
詳情請參閱 AI Applications Python API 參考說明文件。
如要向 AI Applications 進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
建立資料儲存庫
匯入文件
Ruby
詳情請參閱 AI Applications Ruby API 參考說明文件。
如要向 AI Applications 進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
建立資料儲存庫
匯入文件
連結至 BigQuery 並定期同步
匯入資料前,請先參閱「為資料擷取作業做準備」。
以下程序說明如何建立資料連接器,將 BigQuery 資料集與 Vertex AI Search 資料連接器建立關聯,以及如何為要建立的每個資料儲存庫指定資料集中的資料表。資料連接器子項的資料儲存庫稱為「實體」資料儲存庫。
資料集中的資料會定期同步至實體資料儲存庫。您可以指定每日、每三天或每五天同步一次。
控制台
如要使用 Google Cloud 控制台建立連接器,定期將資料從 BigQuery 資料集同步至 Vertex AI Search,請按照下列步驟操作:
前往 Google Cloud 控制台的「AI Applications」頁面。
在導覽選單中,按一下「資料儲存庫」。
按一下「Create data store」(建立資料儲存庫)。
在「來源」頁面中,選取「BigQuery」。
選取要匯入的資料類型。
按一下「週期性」。
選取「同步頻率」,也就是 Vertex AI Search 連接器與 BigQuery 資料集同步的頻率。你日後仍可變更頻率。
在「BigQuery 資料集路徑」欄位中,按一下「瀏覽」,選取包含您準備要擷取的資料表的資料集。或者,您也可以直接在「BigQuery 路徑」欄位中輸入資料表位置。路徑格式為
projectname.datasetname
。在「Tables to sync」(要同步處理的資料表) 欄位中,按一下「Browse」(瀏覽),然後選取包含資料儲存庫所需資料的資料表。
如果資料集中還有其他要用於資料儲存區的資料表,請按一下「新增資料表」並指定這些資料表。
按一下「繼續」。
選擇資料儲存庫的區域,輸入資料連接器的名稱,然後按一下「Create」(建立)。
您已建立資料連接器,這個連接器會定期與 BigQuery 資料集同步處理資料。您已建立一或多個實體資料儲存庫。資料儲存庫的名稱與 BigQuery 資料表相同。
如要檢查擷取狀態,請前往「資料儲存庫」頁面,點選資料連接器名稱,即可在相應的「資料」頁面中,查看「資料擷取活動」分頁標籤的詳細資料。「活動」分頁的狀態欄從「進行中」變更為「成功」時,表示首次擷取作業已完成。
視資料大小而定,擷取作業可能需要數分鐘至數小時才能完成。
設定資料來源並首次匯入資料後,資料儲存庫會按照您在設定期間選取的頻率,從該來源同步資料。建立資料連接器後約一小時,系統就會進行首次同步。下一次同步處理會在 24 小時、72 小時或 120 小時後進行。
後續步驟
如要將資料儲存庫附加至應用程式,請建立應用程式,然後按照「建立自訂建議應用程式」一文中的步驟選取資料儲存庫。
設定應用程式和資料儲存庫後,如要預覽或取得建議,請參閱「取得建議」。
Cloud Storage
您可以透過兩種方式,從 Cloud Storage 資料表建立資料存放區:
一次性擷取:將 Cloud Storage 資料夾或檔案中的資料匯入資料儲存庫。除非手動重新整理資料,否則資料存放區中的資料不會變更。
週期性擷取:從 Cloud Storage 資料夾或檔案匯入資料,並設定同步頻率,決定資料存放區更新該 Cloud Storage 位置最新資料的頻率。
下表比較了將 Cloud Storage 資料匯入 Vertex AI Search 資料儲存庫的兩種方式。
單次擷取 | 定期擷取 |
---|---|
正式發布 (GA)。 | 公開預先發布版。 |
資料必須手動重新整理。 | 資料會每 1、3 或 5 天自動更新一次。資料無法手動重新整理。 |
Vertex AI Search 會從 Cloud Storage 中的單一資料夾或檔案建立資料儲存庫。 | Vertex AI Search 會建立資料連接器,並將資料儲存庫 (稱為實體資料儲存庫) 與指定的檔案或資料夾建立關聯。每個 Cloud Storage 資料連接器只能有一個實體資料存放區。 |
您可以先從一個 Cloud Storage 位置擷取資料,然後從另一個位置擷取更多資料,將多個檔案、資料夾和 bucket 的資料合併到一個資料存放區。 | 由於系統不支援手動匯入資料,實體資料儲存庫中的資料只能來自一個 Cloud Storage 檔案或資料夾。 |
支援資料來源存取權控管。詳情請參閱「資料來源存取權控管」。 | 系統不支援資料來源存取權控管。匯入的資料可能包含存取控制項,但系統不會採用這些控制項。 |
您可以使用Google Cloud 控制台或 API 建立資料儲存庫。 | 您必須使用控制台建立資料連接器及其實體資料存放區。 |
符合 CMEK 規定。 | 符合 CMEK 規定。 |
從 Cloud Storage 匯入一次
如要從 Cloud Storage 擷取資料,請按照下列步驟建立資料儲存庫,並使用 Google Cloud 控制台或 API 擷取資料。
匯入資料前,請先參閱「為資料擷取作業做準備」。
控制台
如要使用控制台從 Cloud Storage 值區擷取資料,請按照下列步驟操作:
前往 Google Cloud 控制台的「AI Applications」頁面。
前往「資料儲存庫」頁面。
按一下「建立資料儲存庫」
。在「來源」頁面中,選取「Cloud Storage」。
在「選取要匯入的資料夾或檔案」部分,選取「資料夾」或「檔案」。
按一下「瀏覽」,然後選擇已準備好要擷取的資料,再按一下「選取」。 你也可以直接在「
gs://
」欄位中輸入位置。選取要匯入的資料類型。
按一下「繼續」。
如果只匯入一次結構化資料:
將欄位對應至主要屬性。
如果結構定義缺少重要欄位,請使用「新增欄位」新增。
詳情請參閱「關於自動偵測和編輯」。
按一下「繼續」。
選擇資料儲存庫的區域。
輸入資料儲存庫的名稱。
選用:如果選取非結構化文件,可以為文件選取剖析和分塊選項。如要比較剖析器,請參閱「剖析文件」。如要瞭解如何將文件分塊,請參閱「將文件分塊以供 RAG 使用」。
OCR 剖析器和版面配置剖析器可能會產生額外費用。請參閱「Document AI 功能定價」。
如要選取剖析器,請展開「文件處理選項」,然後指定要使用的剖析器選項。
點選「建立」。
如要檢查擷取狀態,請前往「資料儲存庫」頁面,點選資料儲存庫名稱,即可在相應的「資料」頁面查看詳細資料。「活動」分頁的狀態欄從「處理中」變更為「匯入完成」時,表示資料已完成擷取。
視資料大小而定,擷取作業可能需要數分鐘至數小時才能完成。
REST
如要使用指令列建立資料存放區,並從 Cloud Storage 擷取資料,請按照下列步驟操作。
建立資料儲存庫。
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_RECOMMENDATION"] }'
更改下列內容:
PROJECT_ID
:您的 Google Cloud 專案 ID。DATA_STORE_ID
:您要建立的 Vertex AI Search 資料儲存庫 ID。這個 ID 只能包含小寫字母、數字、底線和連字號。DATA_STORE_DISPLAY_NAME
:要建立的 Vertex AI Search 資料儲存庫顯示名稱。
從 Cloud Storage 匯入資料。
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "gcsSource": { "inputUris": ["INPUT_FILE_PATTERN_1", "INPUT_FILE_PATTERN_2"], "dataSchema": "DATA_SCHEMA", }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
更改下列內容:
PROJECT_ID
:您的 Google Cloud 專案 ID。DATA_STORE_ID
:Vertex AI Search 資料儲存庫的 ID。INPUT_FILE_PATTERN
:Cloud Storage 中的檔案模式,內含您的文件。如果是結構化資料或含有中繼資料的非結構化資料,輸入檔案模式的範例為
gs://<your-gcs-bucket>/directory/object.json
,模式比對一或多個檔案的範例為gs://<your-gcs-bucket>/directory/*.json
。如果是非結構化文件,範例為
gs://<your-gcs-bucket>/directory/*.pdf
。符合模式的每個檔案都會成為文件。如果
<your-gcs-bucket>
不在 PROJECT_ID 下方,您需要為 Cloud Storage 值區授予服務帳戶service-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com
「Storage 物件檢視者」權限。舉例來說,如果您要將來源專案「123」的 Cloud Storage 值區匯入目的地專案「456」,請在專案「123」的 Cloud Storage 值區下授予service-456@gcp-sa-discoveryengine.iam.gserviceaccount.com
權限。DATA_SCHEMA
:選用。值為document
、custom
、csv
和content
。預設值為document
。document
:上傳含有中繼資料的非結構化資料,適用於非結構化文件。檔案中的每一行都必須採用下列其中一種格式。您可以定義每份文件的 ID:{ "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
{ "id": "<your-id>", "structData": <JSON object>, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
custom
:上傳結構化文件的 JSON 檔案。資料會根據結構定義整理。您可以指定結構定義,否則系統會自動偵測。您可以將文件 JSON 字串直接放在每一行,格式必須一致,Vertex AI Search 會自動為匯入的每份文件產生 ID。content
:上傳非結構化文件 (PDF、HTML、DOC、TXT、PPTX)。系統會自動產生每個文件的 ID,也就是以十六進位字串編碼的 SHA256(GCS_URI) 前 128 位元。只要相符的檔案不超過 10 萬個,您就可以指定多個輸入檔案模式。csv
:在 CSV 檔案中加入標題列,並將每個標題對應至文件欄位。使用inputUris
欄位指定 CSV 檔案的路徑。
ERROR_DIRECTORY
:選用。Cloud Storage 目錄,用於存放匯入作業的錯誤資訊,例如gs://<your-gcs-bucket>/directory/import_errors
。Google 建議將這個欄位留空,讓 Vertex AI Search 自動建立暫時目錄。RECONCILIATION_MODE
:選用。值為FULL
和INCREMENTAL
。預設為INCREMENTAL
步。指定INCREMENTAL
會導致資料從 Cloud Storage 遞增重新整理至資料存放區。這會執行 upsert 作業,新增文件並以 ID 相同的更新文件取代現有文件。指定FULL
會導致資料儲存庫中的文件完全重新設定基準。換句話說,系統會將新的和更新的文件新增至資料存放區,並從資料存放區中移除不在 Cloud Storage 中的文件。如果您想自動刪除不再需要的文件,FULL
模式會很有幫助。AUTO_GENERATE_IDS
:選用。指定是否要自動產生文件 ID。如果設為true
,系統會根據酬載的雜湊值產生文件 ID。請注意,多次匯入時,產生的文件 ID 可能不一致。如果您在多次匯入時自動產生 ID,Google 強烈建議將reconciliationMode
設為FULL
,以維持文件 ID 的一致性。只有在
gcsSource.dataSchema
設為custom
或csv
時,才指定autoGenerateIds
。否則,系統會傳回INVALID_ARGUMENT
錯誤。如未指定autoGenerateIds
或將其設為false
,則必須指定idField
。否則文件無法匯入。ID_FIELD
:選用。指定哪些欄位是文件 ID。如果是 Cloud Storage 來源文件,idField
會指定 JSON 欄位中的名稱,這些欄位是文件 ID。舉例來說,如果{"my_id":"some_uuid"}
是其中一個文件的文件 ID 欄位,請指定"idField":"my_id"
。這會將所有名稱為"my_id"
的 JSON 欄位識別為文件 ID。只有在下列情況下才指定這個欄位:(1)
gcsSource.dataSchema
設為custom
或csv
,且 (2)auto_generate_ids
設為false
或未指定。否則會傳回INVALID_ARGUMENT
錯誤。請注意,Cloud Storage JSON 欄位的值必須為字串類型,長度介於 1 到 63 個字元之間,且必須符合 RFC-1034。否則文件無法匯入。
請注意,
id_field
指定的 JSON 欄位名稱必須為字串類型,長度介於 1 至 63 個字元之間,且必須符合 RFC-1034。否則文件無法匯入。
C#
詳情請參閱 AI Applications C# API 參考說明文件。
如要向 AI Applications 進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
建立資料儲存庫
匯入文件
Go
詳情請參閱 AI Applications Go API 參考說明文件。
如要向 AI Applications 進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
建立資料儲存庫
匯入文件
Java
詳情請參閱 AI Applications Java API 參考說明文件。
如要向 AI Applications 進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
建立資料儲存庫
匯入文件
Node.js
詳情請參閱 AI Applications Node.js API 參考說明文件。
如要向 AI Applications 進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
建立資料儲存庫
匯入文件
Python
詳情請參閱 AI Applications Python API 參考說明文件。
如要向 AI Applications 進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
建立資料儲存庫
匯入文件
Ruby
詳情請參閱 AI Applications Ruby API 參考說明文件。
如要向 AI Applications 進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
建立資料儲存庫
匯入文件
透過定期同步功能連線至 Cloud Storage
匯入資料前,請先參閱「為資料擷取作業做準備」。
以下程序說明如何建立資料連接器,將 Cloud Storage 位置與 Vertex AI Search 資料連接器建立關聯,以及如何指定該位置中的資料夾或檔案,做為要建立的資料儲存庫。資料連接器子項的資料儲存庫稱為「實體」資料儲存庫。
資料會定期同步至實體資料儲存庫。您可以指定每天、每三天或每五天同步一次。
控制台
前往 Google Cloud 控制台的「AI Applications」頁面。
前往「資料儲存庫」頁面。
按一下「Create data store」(建立資料儲存庫)。
在「來源」頁面中,選取「Cloud Storage」。
選取要匯入的資料類型。
按一下「週期性」。
選取「Synchronization frequency」(同步處理頻率),設定 Vertex AI Search 連接器與 Cloud Storage 位置同步的頻率。你日後仍可變更頻率。
在「選取要匯入的資料夾或檔案」部分,選取「資料夾」或「檔案」。
按一下「瀏覽」,然後選擇已準備好要擷取的資料,再按一下「選取」。 你也可以直接在「
gs://
」欄位中輸入位置。按一下「繼續」。
選擇資料連接器的區域。
輸入資料連接器的名稱。
選用:如果選取非結構化文件,可以為文件選取剖析和分塊選項。如要比較剖析器,請參閱「剖析文件」。如要瞭解如何將文件分塊,請參閱「將文件分塊以供 RAG 使用」。
OCR 剖析器和版面配置剖析器可能會產生額外費用。請參閱「Document AI 功能定價」。
如要選取剖析器,請展開「文件處理選項」,然後指定要使用的剖析器選項。
點選「建立」。
您已建立資料連接器,該連接器會定期與 Cloud Storage 位置同步處理資料。您也建立了名為
gcs_store
的實體資料儲存庫。如要檢查擷取狀態,請前往「資料儲存庫」頁面,然後點選資料連接器名稱,即可在相應的「資料」頁面查看詳細資料。
「資料擷取活動」分頁。「資料擷取活動」分頁的狀態欄從「進行中」變更為「成功」時,表示首次擷取作業已完成。
視資料大小而定,擷取作業可能需要數分鐘至數小時才能完成。
首次設定資料來源並匯入資料後,系統會按照您在設定期間選取的頻率,從該來源同步處理資料。建立資料連接器後約一小時,系統就會進行首次同步。下一次同步處理會在 24 小時、72 小時或 120 小時後進行。
後續步驟
如要將資料儲存庫附加至應用程式,請建立應用程式,然後按照「建立自訂建議應用程式」一文中的步驟選取資料儲存庫。
設定應用程式和資料儲存庫後,如要預覽或取得建議,請參閱「取得建議」。
使用 API 上傳 JSON 結構化資料
如要使用 API 直接上傳 JSON 文件或物件,請按照下列步驟操作。
匯入資料前,請先準備要擷取的資料。
REST
如要使用指令列建立資料存放區並匯入結構化 JSON 資料,請按照下列步驟操作:
建立資料儲存庫。
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_RECOMMENDATION"] }'
更改下列內容:
PROJECT_ID
:您的 Google Cloud 專案 ID。DATA_STORE_ID
:要建立的建議資料儲存庫 ID。這個 ID 只能包含小寫字母、數字、底線和連字號。DATA_STORE_DISPLAY_NAME
:要建立的建議資料存放區顯示名稱。
選用:提供您自己的結構定義。提供結構定義通常可獲得更出色的結果。詳情請參閱「提供或自動偵測結構定義」。
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/schemas/default_schema" \ -d '{ "structSchema": JSON_SCHEMA_OBJECT }'
更改下列內容:
PROJECT_ID
:您的 Google Cloud 專案 ID。DATA_STORE_ID
:建議資料儲存庫的 ID。JSON_SCHEMA_OBJECT
:JSON 物件形式的 JSON 結構定義,例如:{ "$schema": "https://json-schema.org/draft/2020-12/schema", "type": "object", "properties": { "title": { "type": "string", "keyPropertyMapping": "title" }, "categories": { "type": "array", "items": { "type": "string", "keyPropertyMapping": "category" } }, "uri": { "type": "string", "keyPropertyMapping": "uri" } } }
匯入符合定義結構定義的結構化資料。
上傳資料的方法有幾種,包括:
上傳 JSON 文件。
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents?documentId=DOCUMENT_ID" \ -d '{ "jsonData": "JSON_DOCUMENT_STRING" }'
將
JSON_DOCUMENT_STRING
替換為 JSON 文件 (單一字串)。這項資料必須符合您在上一個步驟中提供的 JSON 結構定義,例如:```none { \"title\": \"test title\", \"categories\": [\"cat_1\", \"cat_2\"], \"uri\": \"test uri\"} ```
上傳 JSON 物件。
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents?documentId=DOCUMENT_ID" \ -d '{ "structData": JSON_DOCUMENT_OBJECT }'
將
JSON_DOCUMENT_OBJECT
替換為 JSON 文件 (JSON 物件)。這必須符合您在上一個步驟中提供的 JSON 結構定義,例如:```json { "title": "test title", "categories": [ "cat_1", "cat_2" ], "uri": "test uri" } ```
使用 JSON 文件更新。
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID" \ -d '{ "jsonData": "JSON_DOCUMENT_STRING" }'
使用 JSON 物件更新。
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID" \ -d '{ "structData": JSON_DOCUMENT_OBJECT }'
後續步驟
如要將資料儲存庫附加至應用程式,請建立應用程式,然後按照「建立自訂建議應用程式」一文中的步驟選取資料儲存庫。
如要預覽應用程式和資料存放區設定完成後的建議顯示方式,請參閱「取得建議」。
使用 Terraform 建立資料儲存庫
您可以使用 Terraform 建立空白資料儲存庫。建立空白資料存放區後,您可以使用 Google Cloud 控制台 或 API 指令,將資料擷取至資料存放區。
如要瞭解如何套用或移除 Terraform 設定,請參閱「基本 Terraform 指令」。
如要使用 Terraform 建立空白資料儲存區,請參閱
google_discovery_engine_data_store
。