Prepara datos de entrenamiento de texto para el análisis de opiniones

En esta página, se describe cómo preparar datos de texto para usarlos en un conjunto de datos de Vertex AI a fin de entrenar un modelo de análisis de opiniones.

Los datos de entrenamiento de análisis de opiniones se componen de documentos asociados con un valor que indica la opinión del contenido. Por ejemplo, es posible que tengas tuits sobre un dominio en particular, como Air travel. Cada tuit se asocia con un valor de opinión que indica si el tuit es positivo, negativo o neutral.

Requisitos de los datos

  • Debes proporcionar entre 10 y 100,000 documentos de entrenamiento en total.
  • Un valor de opinión debe ser un número entero entre 0 y 10. El valor máximo de opiniones es tu elección. Por ejemplo, si deseas identificar si la opinión es negativa, positiva o neutra, puedes etiquetar los datos de entrenamiento con puntuaciones de opinión de 0 (negativo), 1 (neutral) y 2 (positivo). La puntuación máxima de las opiniones para este conjunto de datos es de 2. Si deseas lograr un mayor nivel de detalle, como cinco niveles de opinión, puedes etiquetar los documentos de 0 (más negativo) a 4 (más positivo).
  • Debes aplicar cada valor de opinión, por lo menos, a 10 documentos.
  • Los valores de la puntuación de opinión deben ser números enteros consecutivos a partir de cero. Si tienes brechas en las puntuaciones o no comienzas desde cero, reasigna las puntuaciones para que sean números enteros consecutivos a partir de cero.
  • Puedes incluir documentos intercalados o hacer referencia a archivos TXT que están en buckets de Cloud Storage.

Prácticas recomendadas para los datos de texto que se usan a fin de entrenar los modelos de AutoML

Los siguientes requisitos se aplican a los conjuntos de datos que se usan para entrenar modelos de AutoML.

  • Proporciona al menos 100 documentos por valor de opinión.
  • Usa una cantidad similar de documentos para cada puntuación de opiniones. Tener más ejemplos para puntuaciones de opinión específicas puede ingresar sesgos en el modelo.

Archivos de entrada

Los tipos de archivo de entrada para el análisis de opiniones pueden ser líneas JSON o CSV.

Líneas JSON

El formato, los nombres de campos y los tipos de valores para los archivos de líneas JSONL se determinan mediante un archivo de esquema, que son archivos YAML de acceso público.

Puedes descargar el archivo de esquema para el análisis de opiniones en la siguiente ubicación de Cloud Storage:
gs://google-cloud-aiplatform/schema/dataset/ioformat/text_sentiment_io_format_1.0.0.yaml

Ejemplo de líneas JSON

En el siguiente ejemplo, se muestra cómo puedes usar el esquema para crear tu propio archivo de líneas JSON. El ejemplo incluye saltos de línea para facilitar la lectura. En tus archivos de líneas de JSON, incluye saltos de línea solo después de cada documento. El campo dataItemResourceLabels especifica, por ejemplo, ml_use, de manera opcional.

{
  "sentimentAnnotation": {
    "sentiment": number,
    "sentimentMax": number
  },
  "textContent": "inline_text",
  "dataItemResourceLabels": {
    "aiplatform.googleapis.com/ml_use": "training|test|validation"
  }
}
{
  "sentimentAnnotation": {
    "sentiment": number,
    "sentimentMax": number
  },
  "textGcsUri": "gcs_uri_to_file",
  "dataItemResourceLabels": {
    "aiplatform.googleapis.com/ml_use": "training|test|validation"
  }
}

CSV

Cada línea de un archivo CSV hace referencia a un solo documento. En el siguiente ejemplo, se muestra el formato general de un archivo CSV válido. La columna ml_use es opcional.

  [ml_use],gcs_file_uri|"inline_text",sentiment,sentimentMax
  

El siguiente fragmento es un ejemplo de un archivo CSV de entrada.

  test,gs://path_to_file,sentiment_value,sentiment_max_value
  test,"inline_text",sentiment_value,sentiment_max_value
  training,gs://path_to_file,sentiment_value,sentiment_max_value
  validation,gs://path_to_file,sentiment_value,sentiment_max_value