Preparare i dati di addestramento

Questa pagina mostra come preparare i dati tabulari per la classificazione dell'addestramento di regressione lineare e di regressione in Vertex AI. La qualità dei dati di addestramento influisce sull'efficacia dei modelli che crei.

Vengono trattati i seguenti argomenti:

  1. Requisiti relativi alla struttura dei dati
  2. Preparare l'origine di importazione
  3. Aggiungere pesi ai dati di allenamento

Per impostazione predefinita, Vertex AI utilizza segmento casuale per separare i dati in tre suddivisioni. Vertex AI seleziona in modo casuale l'80% delle righe di dati per il set di addestramento, il 10% e il 10% per il set di test. In alternativa, puoi utilizzare suddivisione manuale o una divisione cronologica, ma per questo è necessario preparare una colonna di suddivisione dati o una colonna temporale. Scopri di più sulle suddivisioni dei dati.

Requisiti della struttura dei dati

I dati di addestramento devono essere conformi ai seguenti requisiti di base:

Tipo di requisito Requisito
Dimensioni Il set di dati deve avere dimensioni massime di 100 GB.
N. di colonne Il set di dati deve avere da 2 a 1000 colonne. Il set di dati deve avere un target e almeno una caratteristica per l'addestramento del modello. Idealmente, i dati di addestramento hanno molte più di due colonne. Il numero massimo di colonne include colonne di caratteristiche e non di caratteristiche.
Colonna di destinazione Devi specificare una colonna di destinazione. La colonna target consente a Vertex AI di associare i dati di addestramento al risultato desiderato. Non deve contenere valori nulli e deve essere categorico o numerico. Se è categorico, deve avere almeno 2 e non più di 500 valori distinti.
Formato del nome della colonna Il nome della colonna può includere qualsiasi carattere alfanumerico o un trattino basso (_). Il nome della colonna non può iniziare con un trattino basso.
N. di righe Il set di dati deve contenere da un minimo di 1000 a un massimo di 100.000.000 di righe. A seconda del numero di caratteristiche del set di dati, 1000 righe potrebbero non essere sufficienti per addestrare un modello ad alte prestazioni. Scopri di più.
Formato dei dati Devi utilizzare il formato dei dati appropriato (largo o ristretto) per il tuo scopo. Il formato "wide" è generalmente l'ideale, in cui ogni riga rappresenta un elemento di dati di addestramento (prodotto, persona e così via). Scopri come scegliere il formato dei dati.

Prepara l'origine di importazione

Puoi fornire dati di addestramento del modello a Vertex AI in due formati:

  • tabelle BigQuery
  • Valori separati da virgola (CSV)

L'origine da utilizzare dipende dal modo in cui vengono archiviati i dati, dalle dimensioni e la complessità dei dati. Se il set di dati è piccolo e non ti servono tipi di dati complessi, il formato CSV potrebbe essere più semplice. Per set di dati più grandi che includono array e struct, devi usare BigQuery.

BigQuery

La tabella o la vista BigQuery deve essere conforme alle Requisiti per le località di BigQuery.

Se la tabella o la vista BigQuery si trova in un progetto diverso da quello progetto in cui stai creando il set di dati Vertex AI o La tabella o la vista BigQuery è supportata da un'origine dati esterna, potrebbe dover aggiungere uno o più ruoli all'agente di servizio Vertex AI. Consulta Requisiti per l'aggiunta di ruoli per BigQuery.

Non è necessario specificare uno schema per la tabella BigQuery. Vertex AI deduce automaticamente lo schema per la tabella quando importare i dati.

Il tuo URI BigQuery (specificando la località dei dati di addestramento) devono essere conformi al seguente formato:

bq://<project_id>.<dataset_id>.<table_id>

L'URI non può contenere altri caratteri speciali.

Per informazioni sui tipi di dati BigQuery e su come vengono mappati Vertex AI, vedi Tabelle BigQuery. Per ulteriori informazioni informazioni sull'utilizzo delle origini dati esterne di BigQuery, consulta Introduzione alle origini dati esterne.

CSV

I file CSV possono essere in Cloud Storage o sul tuo computer locale. Devono sono conformi ai seguenti requisiti:

  • La prima riga del primo file deve essere un'intestazione e contenere i nomi dei nelle colonne. Se la prima riga di un file successivo corrisponde al intestazione, viene anch'essa trattata come un'intestazione, altrimenti viene trattata come e i dati di Google Cloud.
  • I nomi delle colonne possono includere qualsiasi carattere alfanumerico o un trattino basso (_). Il nome della colonna non può iniziare con un trattino basso.
  • Ogni file non deve essere più grande di 10 GB.

    Puoi includere più file, fino a una dimensione massima di 100 GB.

  • Il delimitatore deve essere una virgola (",").

Non è necessario specificare uno schema per i dati CSV. Vertex AI deduce automaticamente lo schema della tabella quando importi i dati e utilizza la riga di intestazione per i nomi delle colonne.

Per ulteriori informazioni sul formato dei file CSV e sui tipi di dati, vedi CSV.

Se importi i dati da Cloud Storage, questi devono essere in una che soddisfi i seguenti requisiti:

Se importi i dati dal computer locale, devi disporre di un bucket Cloud Storage che soddisfi i seguenti requisiti:

Aggiungi pesi ai dati di addestramento

Per impostazione predefinita, Vertex AI pesa ogni riga dei dati di addestramento in egual misura. Ai fini dell'addestramento, nessuna riga è considerata più importante di un'altra.

A volte potresti volere che alcune righe abbiano maggiore importanza per l'addestramento. Per Ad esempio, se utilizzi dati di spesa, potresti volere che i dati associati gli utenti che spendono di più per avere un maggiore impatto sul modello. Se manca uno specifico il risultato è qualcosa che si vuole evitare in modo particolare, con quel risultato in modo più pesante.

Per assegnare un peso relativo alle righe puoi aggiungere una colonna di peso al tuo set di dati. La peso deve essere una colonna numerica. Il valore del peso può essere compreso tra 0 e 10.000. Valori più alti indicano che la riga è più importante durante l'addestramento del modello. R peso pari a 0 fa sì che la riga venga ignorata. Se includi una colonna di peso, deve contenere un valore per ogni riga.

In seguito, quando addestri il modello, specifichi questa colonna come Weight colonna.

Gli schemi di ponderazione personalizzati vengono utilizzati solo per l'addestramento del modello. non influisce sul set di test usato per la valutazione del modello.

Passaggi successivi