Preparare i dati di addestramento

Questa pagina mostra come preparare i dati tabulari per l'addestramento di modelli di classificazione e di regressione in Vertex AI. La qualità dei dati di addestramento influisce sull'efficacia dei modelli creati.

Vengono trattati i seguenti argomenti:

  1. Requisiti della struttura dei dati
  2. Prepara l'origine dell'importazione
  3. Aggiungere pesi ai dati di addestramento

Per impostazione predefinita, Vertex AI utilizza un algoritmo di suddivisione casuale per separare i dati in tre suddivisioni. Vertex AI seleziona in modo casuale l'80% delle righe di dati per il set di addestramento, il 10% per il set di convalida e il 10% per il set di test. In alternativa, puoi utilizzare una suddivisione manuale o una suddivisione cronologica, ma devi preparare una colonna di suddivisione dei dati o una colonna di tempo. Scopri di più sulle suddivisioni dei dati.

Requisiti della struttura dei dati

I dati di addestramento devono essere conformi ai seguenti requisiti di base:

Tipo di requisito Requisito
Dimensioni Il set di dati deve avere una dimensione massima di 100 GB.
# di colonne Il set di dati deve contenere almeno 2 e non più di 1000 colonne. Il set di dati deve avere un target e almeno una funzionalità per l'addestramento del modello. Idealmente, i dati di addestramento hanno molte più di due colonne. Il numero massimo di colonne include sia le colonne con elementi sia quelle senza elementi.
Colonna di destinazione Devi specificare una colonna di destinazione. La colonna di destinazione consente a Vertex AI di associare i dati di addestramento al risultato desiderato. Non deve contenere valori null e deve essere di tipo Categorico o Numerico. Se è di tipo Categorico, deve avere almeno 2 e non più di 500 valori distinti.
Formato del nome colonna Il nome della colonna può includere qualsiasi carattere alfanumerico o un trattino basso (_). Il nome della colonna non può iniziare con un trattino basso.
# righe Il set di dati deve contenere almeno 1000 e non più di 100.000.000 righe. A seconda del numero di funzionalità del set di dati, 1000 righe potrebbero non essere sufficienti per addestrare un modello ad alte prestazioni. Scopri di più.
Formato dei dati Devi utilizzare il formato dei dati (ampio o ristretto) appropriato per il tuo scopo. In genere, il formato largo è il migliore, poiché ogni riga rappresenta un elemento di dati di addestramento (prodotto, persona e così via). Scopri come scegliere il formato dei dati.

Prepara l'origine dell'importazione

Puoi fornire i dati di addestramento del modello a Vertex AI in due formati:

  • tabelle BigQuery
  • Valori separati da virgole (CSV)

La sorgente che utilizzi dipende dalla modalità di archiviazione dei dati, nonché dalle dimensioni e dalla complessità dei dati. Se il tuo set di dati è di piccole dimensioni e non hai bisogno di tipi di dati più complessi, il formato CSV potrebbe essere più semplice. Per set di dati più grandi che includono array e struct, devi utilizzare BigQuery.

BigQuery

La tabella o la visualizzazione BigQuery deve essere conforme ai requisiti relativi alla posizione di BigQuery.

Se la tabella o la vista BigQuery si trova in un progetto diverso da quello in cui stai creando il set di dati Vertex AI o se la tabella o la vista BigQuery è supportata da un'origine dati esterna, potresti dover aggiungere uno o più ruoli all'agente di servizio Vertex AI. Consulta Requisiti per l'aggiunta di ruoli per BigQuery.

Non è necessario specificare uno schema per la tabella BigQuery. Vertex AI deducono automaticamente lo schema della tabella quando importi i dati.

L'URI BigQuery (che specifica la posizione dei dati di addestramento) deve essere conforme al seguente formato:

bq://<project_id>.<dataset_id>.<table_id>

L'URI non può contenere altri caratteri speciali.

Per informazioni sui tipi di dati di BigQuery e sulla loro mappatura in Vertex AI, consulta Tabelle BigQuery. Per ulteriori informazioni sull'utilizzo delle origini dati esterne di BigQuery, consulta Introduzione alle origini dati esterne.

CSV

I file CSV possono trovarsi in Cloud Storage o sul tuo computer locale. Devono essere conformi ai seguenti requisiti:

  • La prima riga del primo file deve essere un'intestazione e contenere i nomi delle colonne. Se la prima riga di un file successivo è uguale all'intestazione, viene a sua volta trattata come un'intestazione, in caso contrario viene trattata come dati.
  • I nomi delle colonne possono includere qualsiasi carattere alfanumerico o un trattino basso (_). Il nome della colonna non può iniziare con un trattino basso.
  • Ogni file non deve essere più grande di 10 GB.

    Puoi includere più file, fino a una dimensione massima di 100 GB.

  • Il delimitatore deve essere una virgola (",").

Non è necessario specificare uno schema per i dati CSV. Vertex AI deduce automaticamente lo schema della tabella quando importi i dati e utilizza la riga di intestazione per i nomi delle colonne.

Per saperne di più sul formato dei file CSV e sui tipi di dati, consulta File CSV.

Se importi i dati da Cloud Storage, questi devono trovarsi in un bucket che soddisfa i seguenti requisiti:

Se importi i dati dal computer locale, devi disporre di un bucket Cloud Storage che soddisfi i seguenti requisiti:

Aggiungi pesi ai dati di addestramento

Per impostazione predefinita, Vertex AI assegna lo stesso peso a ogni riga dei dati di addestramento. Ai fini dell'addestramento, nessuna riga è considerata più importante di un'altra.

A volte, potresti voler dare maggiore importanza ad alcune righe per l'addestramento. Ad esempio, se utilizzi i dati di spesa, potresti volere che i dati associati ai consumatori che spendono di più abbiano un impatto maggiore sul modello. Se vuoi evitare in modo particolare che manchi un determinato risultato, puoi dare un maggiore peso alle righe con quel risultato.

Per assegnare un peso relativo alle righe puoi aggiungere una colonna di peso al tuo set di dati. La colonna peso deve essere una colonna numerica. Il valore della ponderazione può essere compreso tra 0 e 10.000. Valori più elevati indicano che la riga è più importante durante l'addestramento del modello. Un valore di 0 per il parametro weight fa sì che la riga venga ignorata. Se includi una colonna di peso, deve contenere un valore per ogni riga.

In seguito, quando addestrini il modello, specifica questa colonna come colonna Weight.

I sistemi di ponderazione personalizzati vengono utilizzati solo per l'addestramento del modello e non influiscono sul set di test utilizzato per la valutazione del modello.

Passaggi successivi