Per l'importazione collettiva, Vertex AI Feature Store (legacy) può importare i dati dalle tabelle in BigQuery o dai file in Cloud Storage.
Utilizza la tabella BigQuery se devi importare l'intero set di dati e non sono necessari filtri di partizione.
Utilizza la vista BigQuery se devi importare un sottoinsieme specifico del set di dati. Questa opzione è più efficiente in termini di tempo e ti consente di importare selezioni specifiche dall'intero set di dati, incluse più tabelle generate dai dati.
I dati contenuti nei file importati da Cloud Storage devono essere in formato AVRO o CSV.
Per l'importazione in streaming, fornisci i valori delle caratteristiche da importare nella richiesta API. Questi requisiti per i dati di origine non si applicano. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API writeFeatureValues.
Ogni elemento (o riga) deve rispettare i seguenti requisiti:
Devi avere una colonna per gli ID entità e i valori devono essere di tipo
STRING
. Questa colonna contiene gli ID entità a cui si riferiscono i valori delle caratteristiche.I tipi di valore dei dati di origine devono corrispondere ai tipi di valore della caratteristica di destinazione nell'archivio di caratteristiche. Ad esempio, i valori booleani devono essere importati in una funzionalità di tipo
BOOL
.Tutte le colonne devono avere un'intestazione di tipo
STRING
. Non ci sono limitazioni sul nome delle intestazioni.- Per le tabelle e le viste BigQuery, l'intestazione della colonna è il nome della colonna.
- Per Avro, l'intestazione della colonna è definita dallo schema Avro associato ai dati binari.
- Per i file CSV, l'intestazione della colonna è la prima riga.
Se fornisci una colonna per i timestamp di generazione delle funzionalità, usa uno dei seguenti formati di timestamp:
- Per le tabelle e le viste BigQuery, i timestamp devono essere nella colonna TIMESTAMP.
- Per Avro, i timestamp devono essere di tipo long e di tipo logico timestamp-micros.
- Per i file CSV, i timestamp devono essere nel formato RFC 3339.
I file CSV non possono includere tipi di dati di tipo array. Utilizza invece Avro o BigQuery.
Per i tipi di array, non è possibile includere un valore nullo nell'array. Tuttavia, puoi includere un array vuoto.
Timestamp dei valori delle funzionalità
Per l'importazione collettiva, Vertex AI Feature Store (legacy) richiede i timestamp forniti dall'utente per i valori delle funzionalità importati. Puoi specificare un determinato timestamp per ogni valore o lo stesso timestamp per tutti i valori:
- Se i timestamp per i valori delle funzionalità sono diversi, specificali in una colonna dei dati di origine. Ogni riga deve avere un timestamp che indichi quando è stato generato il valore della funzionalità. Nella richiesta di importazione, specifica il nome della colonna per identificare la colonna del timestamp.
- Se il timestamp per tutti i valori delle caratteristiche è lo stesso, puoi specificarlo come parametro nella richiesta di importazione. Puoi anche specificare il timestamp in una colonna dei dati di origine, in cui ogni riga ha lo stesso timestamp.
Regione dell'origine dati
Se i dati di origine si trovano in BigQuery o Cloud Storage, il set di dati o il bucket di origine deve trovarsi nella stessa regione o nella stessa località multiregionale dell'archivio di caratteristiche. Ad esempio, un archivio di caratteristiche in
us-central1
può importare dati solo da bucket Cloud Storage o
set di dati BigQuery che si trovano in us-central1
o nella località US Multi-region. Non puoi importare dati, ad esempio, da us-east1
. Inoltre, i dati di origine provenienti da bucket a due regioni non sono supportati.
Passaggi successivi
- Scopri come configurare il progetto per utilizzare Vertex AI Feature Store (legacy).
- Scopri come importare in batch i valori delle funzionalità.