Vengono trattati i seguenti argomenti:
- Requisiti relativi alla struttura dei dati
- Prepara l'origine dell'importazione
- Aggiungere pesi ai dati di addestramento
Per impostazione predefinita, Vertex AI utilizza un algoritmo di suddivisione cronologica per separare i dati di previsione in tre suddivisioni di dati. In alternativa, puoi utilizzare la suddivisione manuale, ma è necessario preparare una colonna di suddivisione dati. Scopri di più sulle suddivisioni dei dati.
Requisiti della struttura dei dati
Per i modelli di previsione, i dati di addestramento devono essere conformi a quanto segue Requisiti di base:
Tipo di requisito | Requisito |
---|---|
Dimensioni | Il set di dati deve avere una dimensione massima di 100 GB. |
# di colonne | Il set di dati deve contenere almeno 3 e non più di 100 colonne. Ciascuna delle osservazioni nel set di dati deve avere un obiettivo e un orario, entrambi da caratteristiche. Inoltre, ogni osservazione deve avere un ID serie temporale che identifichi la serie temporale di cui fa parte l'osservazione. Idealmente, i dati di addestramento hanno molte più di tre colonne. Il numero massimo di colonne include colonne di caratteristiche e non di caratteristiche. |
Colonna di destinazione | Devi specificare una colonna di destinazione. La colonna di destinazione consente a Vertex AI di associare i dati di addestramento al risultato desiderato. Non deve contenere valori nulli e deve essere numerico. |
Colonna Data/Ora | Devi specificare una colonna della data/dell'ora che deve avere un valore per ogni riga. La colonna ora indica l'ora in cui è stata effettuata una determinata osservazione. |
Colonna identificatore serie temporale | Devi specificare una colonna identificatore della serie temporale e deve avere un valore per ogni riga. I dati di addestramento di previsione di solito includono più serie temporali e l'identificatore indica a Vertex AI di quale serie temporale fa parte una determinata osservazione nei dati di addestramento. Tutte le righe di una determinata serie temporale hanno lo stesso valore nella colonna dell'identificatore della serie temporale. Alcuni identificatori di serie temporali comuni potrebbero essere l'ID prodotto, l'ID negozio o una regione. È possibile addestrare un modello di previsione su una singola serie temporale, con un valore identico per tutte le righe della colonna dell'identificatore della serie temporale. Tuttavia, Vertex AI è più adatto per i dati di addestramento che contengono due o più serie temporali. Per ottenere risultati ottimali, utilizza almeno 10 serie temporali per ogni colonna che utilizzi per addestrare il modello. |
Formato del nome della colonna | Il nome della colonna può includere qualsiasi carattere alfanumerico o un trattino basso (_ ). Il nome della colonna non può iniziare con un trattino basso. |
# righe | Il set di dati deve contenere almeno 1000 e non più di 100.000.000 righe. A seconda del numero di caratteristiche del set di dati, 1000 righe potrebbero non essere sufficienti per addestrare un modello ad alte prestazioni. Scopri di più. |
Formato dei dati | Utilizza un formato dei dati stretto (a volte chiamato lungo). In un formato ristretto, ogni riga rappresenta l'elemento specificato dall'identificatore della serie temporale per un determinato momento, insieme a tutti i dati relativi all'elemento in quel momento. Scopri come scegliere il formato dei dati. |
Intervallo tra le righe | L'intervallo tra le righe di addestramento deve essere coerente. questa è la granularità dei tuoi dati; influenzerà il modo in cui il modello viene addestrato e la frequenza dei risultati della previsione. Scopri come scegliere la granularità dei dati. |
Durata della serie temporale | La lunghezza di una serie temporale non deve superare i 3000 passi temporali. |
Prepara l'origine dell'importazione
Puoi fornire dati di addestramento del modello a Vertex AI in due formati:
- tabelle BigQuery
- Valori separati da virgola (CSV)
La sorgente che utilizzi dipende dalla modalità di archiviazione dei dati, nonché dalle dimensioni e dalla complessità dei dati. Se il set di dati è di piccole dimensioni e non ti serve altro tipi di dati complessi, il formato CSV potrebbe essere più semplice. Per set di dati più grandi che includono array e struct, devi usare BigQuery.
BigQuery
La tabella o la vista BigQuery deve essere conforme alle Requisiti per le località di BigQuery.
Se la tabella o la vista BigQuery si trova in un progetto diverso da quello progetto in cui stai creando il tuo set di dati Vertex AI o La tabella o la vista BigQuery è supportata da un'origine dati esterna, potrebbe dover aggiungere uno o più ruoli all'agente di servizio Vertex AI. Consulta Requisiti per l'aggiunta di ruoli per BigQuery.
Non è necessario specificare uno schema per la tabella BigQuery. Vertex AI deducono automaticamente lo schema della tabella quando importi i dati.
L'URI BigQuery (che specifica la posizione dei dati di addestramento) deve essere conforme al seguente formato:
bq://<project_id>.<dataset_id>.<table_id>
L'URI non può contenere altri caratteri speciali.
Per informazioni sui tipi di dati BigQuery e su come vengono mappati Vertex AI, vedi Tabelle BigQuery. Per ulteriori informazioni sull'utilizzo delle origini dati esterne di BigQuery, consulta Introduzione alle origini dati esterne.
CSV
I file CSV possono essere in Cloud Storage o sul tuo computer locale. Devono essere conformi ai seguenti requisiti:
- La prima riga del primo file deve essere un'intestazione e contenere i nomi delle colonne. Se la prima riga di un file successivo è uguale all'intestazione, viene a sua volta trattata come un'intestazione, in caso contrario viene trattata come dati.
- I nomi delle colonne possono includere qualsiasi carattere alfanumerico o un trattino basso (_). Il nome della colonna non può iniziare con un trattino basso.
Ogni file non deve essere più grande di 10 GB.
Puoi includere più file, fino a una dimensione massima di 100 GB.
Il delimitatore deve essere una virgola (",").
Non è necessario specificare uno schema per i dati CSV. Vertex AI deduce automaticamente lo schema della tabella quando importi i dati e utilizza la riga di intestazione per i nomi delle colonne.
Per saperne di più sul formato dei file CSV e sui tipi di dati, consulta File CSV.
Se importi i dati da Cloud Storage, questi devono trovarsi in una che soddisfi i seguenti requisiti:
- È conforme ai requisiti dei bucket Vertex AI.
- Se il bucket non si trova nello stesso progetto di Vertex AI, devi aggiungere uno o più ruoli all'agente di servizio Vertex AI. Vedi Requisiti per l'aggiunta di ruoli per Cloud Storage.
Se importi i dati dal computer locale, devi disporre di un bucket Cloud Storage che soddisfi i seguenti requisiti:
- È conforme ai requisiti dei bucket Vertex AI.
Se il bucket non si trova nello stesso progetto di Vertex AI, devi aggiungere uno o più ruoli all'agente di servizio Vertex AI. Consulta i requisiti per l'aggiunta di ruoli per Cloud Storage.
Vertex AI utilizza questo bucket come area temporanea prima dell'importazione i tuoi dati.
Aggiungi pesi ai dati di addestramento
Per impostazione predefinita, Vertex AI pesa ogni riga dei dati di addestramento in egual misura. Ai fini dell'addestramento, nessuna riga è considerata più importante di un'altra.
A volte, potresti voler dare maggiore importanza ad alcune righe per l'addestramento. Ad esempio, se utilizzi i dati di spesa, potresti volere che i dati associati ai consumatori che spendono di più abbiano un impatto maggiore sul modello. Se manca uno specifico il risultato è qualcosa che si vuole evitare in modo particolare, con quel risultato in modo più pesante.
Per assegnare un peso relativo alle righe puoi aggiungere una colonna di peso al tuo set di dati. La colonna peso deve essere una colonna numerica. Il valore del peso può essere compreso tra 0 e 10.000. Valori più elevati indicano che la riga è più importante durante l'addestramento del modello. R peso pari a 0 fa sì che la riga venga ignorata. Se includi una colonna di peso, deve contenere un valore per ogni riga.
In seguito, quando addestrini il modello, specifica questa colonna come colonna Weight
.
I sistemi di ponderazione personalizzati vengono utilizzati solo per l'addestramento del modello e non influiscono sul set di test utilizzato per la valutazione del modello.
Passaggi successivi
- Crea il tuo set di dati.
- Scopri le best practice per la creazione di dati di addestramento tabulari.
- Scopri come funziona Vertex AI con diversi tipi di dati tabulari.