Requisiti dei dati di origine

Per l'importazione batch, Vertex AI Feature Store (legacy) può importare i dati dalle tabelle in BigQuery o dai file in Cloud Storage.

  • Utilizza la tabella BigQuery se devi importare l'intero set di dati e non hai bisogno di filtri di partizionamento.

  • Utilizza la vista BigQuery se devi importare un sottoinsieme specifico del set di dati. Questa opzione è più efficiente in termini di tempo e ti consente di importare selezioni specifiche dall'intero set di dati, incluse più tabelle generate dai dati.

  • I dati contenuti nei file importati da Cloud Storage devono essere in formato AVRO o CSV.

Per l'importazione in modalità flusso, devi fornire i valori delle caratteristiche da importare nella richiesta API. Questi requisiti dei dati di origine non si applicano. Per ulteriori informazioni, consulta il riferimento per l'API writeFeatureValues.

Ogni elemento (o riga) deve soddisfare i seguenti requisiti:

  • Devi disporre di una colonna per gli ID entità e i valori devono essere di tipo STRING. Questa colonna contiene gli ID entità per i quali si riferiscono i valori delle caratteristiche.

  • I tipi di valore dei dati di origine devono corrispondere ai tipi di valore della funzionalità di destinazione nel featurestore. Ad esempio, i valori booleani devono essere importati in una caratteristica di tipo BOOL.

  • Tutte le colonne devono avere un'intestazione di tipo STRING. Non sono previste limitazioni al nome delle intestazioni.

    • Per le tabelle e le viste BigQuery, l'intestazione della colonna è il nome della colonna.
    • Per AVRO, l'intestazione di colonna è definita dallo schema AVRO associato ai dati binari.
    • Per i file CSV, l'intestazione della colonna è la prima riga.
  • Se fornisci una colonna per i timestamp di generazione di funzionalità, utilizza uno dei seguenti formati di timestamp:

    • Per le tabelle e le viste BigQuery, i timestamp devono essere nella colonna TIMESTAMP.
    • Per Avro, i timestamp devono essere di tipo lungo e di tipo logico timestamp-micros.
    • Per i file CSV, i timestamp devono essere nel formato RFC 3339.
  • I file CSV non possono includere tipi di dati di array. Usa Avro o BigQuery.

  • Per i tipi di array, non è possibile includere un valore null nell'array. Tuttavia, puoi includere un array vuoto.

Timestamp dei valori delle caratteristiche

Per l'importazione batch, Vertex AI Feature Store (legacy) richiede i timestamp forniti dall'utente per i valori delle caratteristiche importate. Puoi specificare un determinato timestamp per ogni valore o specificare lo stesso timestamp per tutti i valori:

  • Se i timestamp per i valori delle caratteristiche sono diversi, specifica i timestamp in una colonna nei dati di origine. Ogni riga deve avere il proprio timestamp che indica quando è stato generato il valore della caratteristica. Nella richiesta di importazione, specifichi il nome della colonna per identificare la colonna del timestamp.
  • Se il timestamp per tutti i valori delle caratteristiche è lo stesso, puoi specificarlo come parametro nella richiesta di importazione. Puoi anche specificare il timestamp in una colonna dei dati di origine, in cui ogni riga ha lo stesso timestamp.

Regione dell'origine dati

Se i tuoi dati di origine si trovano in BigQuery o Cloud Storage, il set di dati o il bucket di origine deve trovarsi nella stessa regione o nella stessa località multiregionale del tuo archivio di caratteristiche. Ad esempio, un archivio di caratteristiche in us-central1 può importare i dati solo dai bucket Cloud Storage o dai set di dati BigQuery che si trovano in us-central1 o nella località con più regioni degli Stati Uniti. Non puoi importare dati, ad esempio, da us-east1. Inoltre, i dati di origine da bucket a due regioni non sono supportati.

Passaggi successivi