Questa pagina è stata tradotta dall'API Cloud Translation.

Preparare i dati di addestramento del testo per l'analisi del sentiment

A partire dal 15 settembre 2024, potrai personalizzare solo gli scopi di classificazione, estrazione di entità e analisi del sentiment passando ai prompt e alla regolazione di Vertex AI Gemini. L'addestramento o l'aggiornamento dei modelli per Vertex AI AutoML per gli scopi di classificazione del testo, estrazione di entità e analisi del sentiment non sarà più disponibile. Puoi continuare a utilizzare i modelli Text di AutoML per Vertex AI esistenti fino al 15 giugno 2025. Per un confronto tra AutoML Text e Gemini, consulta Gemini per gli utenti di AutoML Text. Per saperne di più su come Gemini offre un'esperienza utente migliorata tramite funzionalità di prompt avanzate, consulta Introduzione all'ottimizzazione. Per iniziare a utilizzare l'ottimizzazione, consulta Ottimizzazione dei modelli di testo Gemini

Questa pagina descrive come preparare i dati di testo da utilizzare in un set di dati Vertex AI per addestrare un modello di analisi del sentiment.

I dati di addestramento per l'analisi del sentiment sono costituiti da documenti associati a un valore di sentiment che indica il sentiment dei contenuti. Ad esempio, potresti avere tweet su un determinato dominio, come i viaggi aerei. A ogni tweet è associato un valore di sentiment che indica se il tweet è positivo, negativo o neutro.

Requisiti dei dati

Devi fornire almeno 10, ma non più di 100.000, documenti di formazione totali.
Un valore di sentiment deve essere un numero intero compreso tra 0 e 10. Il valore del sentiment massimo è a tua scelta. Ad esempio, se vuoi identificare se il sentiment è negativo, positivo o neutro, puoi etichettare i dati di addestramento con punteggi di sentiment pari a 0 (negativo), 1 (neutro) e 2 (positivo). Il può essere pari a 2. Se vuoi ottenere una maggiore granularità, ad esempio cinque livelli di sentiment, puoi etichettare i documenti da 0 (più negativo) a 4 (più positivo).
Devi applicare ogni valore di sentiment ad almeno 10 documenti.
I valori del punteggio del sentiment devono essere numeri interi consecutivi a partire da zero. Se i punteggi presentano lacune o non partono da zero, rimappali in modo che siano numeri interi consecutivi a partire da zero.
Puoi includere documenti in linea o file TXT di riferimento che si trovano nei bucket Cloud Storage.

Best practice per i dati di testo utilizzati per addestrare i modelli AutoML

I seguenti consigli si applicano ai set di dati utilizzati per addestrare i modelli AutoML.

Fornisci almeno 100 documenti per valore di sentiment.
Utilizza un numero equilibrato di documenti per ogni punteggio del sentiment. Avere più esempi per determinati punteggi di sentiment può introdurre bias nel modello.

File di input

I tipi di file di input per l'analisi del sentiment possono essere JSON Lines o CSV.

Righe JSON

Il formato, i nomi dei campi e i tipi di valore per i file JSON Lines sono determinati da un file schema, ovvero file YAML accessibili pubblicamente.

Puoi scaricare il file dello schema per l'analisi del sentiment dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/dataset/ioformat/text_sentiment_io_format_1.0.0.yaml

Esempio di righe JSON

L'esempio seguente mostra come utilizzare lo schema per creare il tuo file JSON Lines. L'esempio include interruzioni di riga per favorire la leggibilità. Nei file JSON Lines, includi gli a capo solo dopo ogni documento. Il campo dataItemResourceLabels specifica, ad esempio, ml_use ed è facoltativo.

{
  "sentimentAnnotation": {
    "sentiment": number,
    "sentimentMax": number
  },
  "textContent": "inline_text",
  "dataItemResourceLabels": {
    "aiplatform.googleapis.com/ml_use": "training|test|validation"
  }
}
{
  "sentimentAnnotation": {
    "sentiment": number,
    "sentimentMax": number
  },
  "textGcsUri": "gcs_uri_to_file",
  "dataItemResourceLabels": {
    "aiplatform.googleapis.com/ml_use": "training|test|validation"
  }
}

CSV

Ogni riga di un file CSV si riferisce a un singolo documento. L'esempio seguente mostra il formato generale di un file CSV valido. La colonna ml_use è facoltativa.

  [ml_use],gcs_file_uri|"inline_text",sentiment,sentimentMax

Il seguente snippet è un esempio di file CSV di input.

  test,gs://path_to_file,sentiment_value,sentiment_max_value
  test,"inline_text",sentiment_value,sentiment_max_value
  training,gs://path_to_file,sentiment_value,sentiment_max_value
  validation,gs://path_to_file,sentiment_value,sentiment_max_value

Avanti

Crea set di dati