Prepara i dati di addestramento del testo per l'analisi del sentiment

Questa pagina descrive come preparare i dati di testo da utilizzare in Vertex AI per addestrare un modello di analisi del sentiment.

I dati di addestramento dell'analisi del sentiment sono costituiti da documenti associati con un valore di sentiment che indica il sentiment dei contenuti. Per Ad esempio, i tweet che riguardano un particolare dominio, come il viaggiare. Ogni tweet è associato a un valore di sentiment che indica se il tweet è positivo, negativo o neutro.

Requisiti dei dati

  • Devi fornire almeno 10, ma non più di 100.000, per l'addestramento totale documenti.
  • Un valore di sentiment deve essere un numero intero compreso tra 0 e 10. Il valore di sentiment massimo è la tua scelta. Ad esempio, se vuoi capire se il sentiment è negativo, positivo o neutro, puoi etichettare i dati di addestramento con punteggi di sentiment pari a 0 (negativo), 1 (neutro) e 2 (positivo). La il punteggio di sentiment massimo per questo set di dati è 2. Se vuoi acquisire più dettagli e granularità, ad esempio cinque livelli di sentiment, puoi etichettare i documenti Da 0 (più negativo) a 4 (più positivo).
  • Devi applicare ciascun valore di sentiment ad almeno 10 documenti.
  • I valori del punteggio del sentiment devono essere numeri interi consecutivi a partire da zero. Se ci sono lacune nei punteggi o non iniziano da zero, rimappa i punteggi in modo che siano numeri interi consecutivi partendo da zero.
  • Puoi includere documenti incorporati o file TXT di riferimento che si trovano di archiviazione dei bucket Cloud Storage.

Best practice per i dati di testo utilizzati per addestrare i modelli AutoML

I seguenti suggerimenti si applicano ai set di dati utilizzati per l'addestramento AutoML.

  • Fornisci almeno 100 documenti per valore di sentiment.
  • Utilizza un numero equilibrato di documenti per ogni punteggio di sentiment. Avere di più esempi di particolari punteggi di sentiment possono introdurre bias nel modello.

File di input

I tipi di file di input per l'analisi del sentiment possono essere righe JSON o CSV.

Righe JSON

Vengono determinati il formato, i nomi dei campi e i tipi di valori per i file JSON Lines. tramite un file di schema, ovvero file YAML accessibili pubblicamente.

Puoi scaricare il file di schema per l'analisi del sentiment dal seguente percorso di Cloud Storage:
gs://google-cloud-aiplatform/schema/dataset/ioformat/text_sentiment_io_format_1.0.0.yaml

Esempio di linee JSON

L'esempio seguente mostra come utilizzare lo schema per creare proprio file JSON Lines. L'esempio include interruzioni di riga per una migliore leggibilità. Nei file JSON Lines, includi le interruzioni di riga solo dopo ogni documento. La Il campo dataItemResourceLabels specifica, ad esempio, ml_use ed è facoltativo.

{
  "sentimentAnnotation": {
    "sentiment": number,
    "sentimentMax": number
  },
  "textContent": "inline_text",
  "dataItemResourceLabels": {
    "aiplatform.googleapis.com/ml_use": "training|test|validation"
  }
}
{
  "sentimentAnnotation": {
    "sentiment": number,
    "sentimentMax": number
  },
  "textGcsUri": "gcs_uri_to_file",
  "dataItemResourceLabels": {
    "aiplatform.googleapis.com/ml_use": "training|test|validation"
  }
}

CSV

Ogni riga di un file CSV fa riferimento a un singolo documento. Le seguenti mostra il formato generale di un file CSV valido. Colonna ml_use è facoltativo.

  [ml_use],gcs_file_uri|"inline_text",sentiment,sentimentMax
  

Lo snippet che segue è un esempio di file CSV di input.

  test,gs://path_to_file,sentiment_value,sentiment_max_value
  test,"inline_text",sentiment_value,sentiment_max_value
  training,gs://path_to_file,sentiment_value,sentiment_max_value
  validation,gs://path_to_file,sentiment_value,sentiment_max_value