如果是批次匯入,Vertex AI 特徵儲存庫 (舊版) 可以從 BigQuery 的資料表或 Cloud Storage 的檔案匯入資料。
如要匯入整個資料集,且不需要分區篩選器,請使用 BigQuery 資料表。
如要匯入資料集的特定子集,請使用 BigQuery 檢視區塊。這個選項更省時,可讓您從整個資料集匯入特定選取項目,包括從資料產生的多個資料表。
從 Cloud Storage 匯入的檔案所含資料必須為 AVRO 或 CSV 格式。
如要串流匯入,請在 API 要求中提供要匯入的特徵值。這些來源資料規定不適用。詳情請參閱 writeFeatureValues API 參考資料。
每個項目 (或資料列) 都必須符合下列規定:
你必須有實體 ID 的資料欄,且值必須為類型
STRING
。這個資料欄包含特徵值所屬的實體 ID。來源資料值類型必須與特徵商店中目的地特徵的值類型相符。舉例來說,布林值必須匯入
BOOL
類型的特徵。所有資料欄都必須有
STRING
類型的標題。標頭名稱沒有任何限制。- 如果是 BigQuery 資料表和 BigQuery 檢視區塊,資料欄標題就是資料欄名稱。
- 如果是 AVRO,欄標題是由與二進位資料相關聯的 AVRO 結構定義。
- 如果是 CSV 檔案,第一列就是資料欄標題。
如果提供特徵產生時間戳記的資料欄,請使用下列其中一種時間戳記格式:
- 如果是 BigQuery 資料表和 BigQuery 檢視區塊,時間戳記必須位於 TIMESTAMP 欄中。
- 如果是 Avro,時間戳記必須是 long 類型,且邏輯類型為 timestamp-micros。
- 如果是 CSV 檔案,時間戳記必須採用 RFC 3339 格式。
CSV 檔案無法包含陣列資料型別。請改用 Avro 或 BigQuery。
如果是陣列類型,陣列中不得包含空值。不過,您可以加入空陣列。
特徵值時間戳記
如要批次匯入,Vertex AI 特徵儲存庫 (舊版) 需要使用者提供匯入特徵值的時間戳記。您可以為每個值指定特定時間戳記,也可以為所有值指定相同時間戳記:
- 如果特徵值的時間戳記不同,請在來源資料的資料欄中指定時間戳記。每列都必須有自己的時間戳記,指出特徵值產生時間。在匯入要求中,您會指定資料欄名稱,以識別時間戳記資料欄。
- 如果所有特徵值的時間戳記都相同,您可以在匯入要求中將其指定為參數。您也可以在來源資料的資料欄中指定時間戳記,其中每個資料列都有相同時間戳記。
資料來源區域
如果來源資料位於 BigQuery 或 Cloud Storage,來源資料集或值區必須與特徵商店位於相同地區或多地區位置。舉例來說,us-central1
中的特徵儲存庫只能從 us-central1
或美國多地區位置的 Cloud Storage 值區或 BigQuery 資料集匯入資料。您無法匯入 us-east1
等來源的資料。此外,系統不支援雙區域 bucket 中的來源資料。