來源資料條件

如果是批次匯入,Vertex AI 特徵儲存庫 (舊版) 可以從 BigQuery 的資料表或 Cloud Storage 的檔案匯入資料。

  • 如要匯入整個資料集,且不需要分區篩選器,請使用 BigQuery 資料表。

  • 如要匯入資料集的特定子集,請使用 BigQuery 檢視區塊。這個選項更省時,可讓您從整個資料集匯入特定選取項目,包括從資料產生的多個資料表。

  • 從 Cloud Storage 匯入的檔案所含資料必須為 AVRO 或 CSV 格式。

如要串流匯入,請在 API 要求中提供要匯入的特徵值。這些來源資料規定不適用。詳情請參閱 writeFeatureValues API 參考資料

每個項目 (或資料列) 都必須符合下列規定:

  • 你必須有實體 ID 的資料欄,且值必須為類型 STRING。這個資料欄包含特徵值所屬的實體 ID。

  • 來源資料值類型必須與特徵商店中目的地特徵的值類型相符。舉例來說,布林值必須匯入 BOOL 類型的特徵。

  • 所有資料欄都必須有 STRING 類型的標題。標頭名稱沒有任何限制。

    • 如果是 BigQuery 資料表和 BigQuery 檢視區塊,資料欄標題就是資料欄名稱。
    • 如果是 AVRO,欄標題是由與二進位資料相關聯的 AVRO 結構定義。
    • 如果是 CSV 檔案,第一列就是資料欄標題。
  • 如果提供特徵產生時間戳記的資料欄,請使用下列其中一種時間戳記格式:

    • 如果是 BigQuery 資料表和 BigQuery 檢視區塊,時間戳記必須位於 TIMESTAMP 欄中。
    • 如果是 Avro,時間戳記必須是 long 類型,且邏輯類型為 timestamp-micros。
    • 如果是 CSV 檔案,時間戳記必須採用 RFC 3339 格式。
  • CSV 檔案無法包含陣列資料型別。請改用 Avro 或 BigQuery。

  • 如果是陣列類型,陣列中不得包含空值。不過,您可以加入空陣列。

特徵值時間戳記

如要批次匯入,Vertex AI 特徵儲存庫 (舊版) 需要使用者提供匯入特徵值的時間戳記。您可以為每個值指定特定時間戳記,也可以為所有值指定相同時間戳記:

  • 如果特徵值的時間戳記不同,請在來源資料的資料欄中指定時間戳記。每列都必須有自己的時間戳記,指出特徵值產生時間。在匯入要求中,您會指定資料欄名稱,以識別時間戳記資料欄。
  • 如果所有特徵值的時間戳記都相同,您可以在匯入要求中將其指定為參數。您也可以在來源資料的資料欄中指定時間戳記,其中每個資料列都有相同時間戳記。

資料來源區域

如果來源資料位於 BigQuery 或 Cloud Storage,來源資料集或值區必須與特徵商店位於相同地區或多地區位置。舉例來說,us-central1 中的特徵儲存庫只能從 us-central1 或美國多地區位置的 Cloud Storage 值區或 BigQuery 資料集匯入資料。您無法匯入 us-east1 等來源的資料。此外,系統不支援雙區域 bucket 中的來源資料。

後續步驟