Se usó la API de Cloud Translation para traducir esta página.

Prepara datos de entrenamiento de texto para el análisis de opiniones

A partir del 15 de septiembre de 2024, solo podrás personalizar los objetivos de clasificación, extracción de entidades y análisis de opiniones; para ello, deberás migrar a las instrucciones y los ajustes de Gemini de Vertex AI. Los modelos de entrenamiento o actualización de AutoML de Vertex AI para los objetivos de clasificación de texto, extracción de entidades y análisis de opiniones ya no estarán disponibles. Puedes seguir usando los modelos de texto de AutoML de Vertex AI existentes hasta el 15 de junio de 2025. Para comparar el modelo de texto de AutoML y Gemini, consulta Gemini para los usuarios del modelo de texto de AutoML. Para obtener más información acerca de cómo Gemini ofrece una experiencia del usuario mejorada a través de funciones de mensajes mejoradas, consulta Introducción al ajuste. Para comenzar a ajustar, consulta Ajuste de modelos para modelos de texto de Gemini

En esta página, se describe cómo preparar datos de texto para usarlos en un conjunto de datos de Vertex AI para entrenar un modelo de análisis de opiniones.

Los datos de entrenamiento de análisis de opiniones se componen de documentos asociados con un valor que indica la opinión del contenido. Por ejemplo, es posible que tengas tuits sobre un dominio en particular, como Air travel. Cada tuit se asocia con un valor de opinión que indica si el tuit es positivo, negativo o neutral.

Requisitos de los datos

Debes proporcionar entre 10 y 100,000 documentos de entrenamiento en total.
Un valor de opinión debe ser un número entero entre 0 y 10. El valor máximo de opiniones es tu elección. Por ejemplo, si deseas identificar si la opinión es negativa, positiva o neutra, puedes etiquetar los datos de entrenamiento con puntuaciones de opinión de 0 (negativo), 1 (neutral) y 2 (positivo). La puntuación máxima de las opiniones para este conjunto de datos es de 2. Si deseas lograr un mayor nivel de detalle, como cinco niveles de opinión, puedes etiquetar los documentos de 0 (más negativo) a 4 (más positivo).
Debes aplicar cada valor de opinión, por lo menos, a 10 documentos.
Los valores de la puntuación de opinión deben ser números enteros consecutivos a partir de cero. Si tienes brechas en las puntuaciones o no comienzas desde cero, reasigna las puntuaciones para que sean números enteros consecutivos a partir de cero.
Puedes incluir documentos intercalados o hacer referencia a archivos TXT que están en buckets de Cloud Storage.

Prácticas recomendadas para los datos de texto que se usan a fin de entrenar los modelos de AutoML

Los siguientes requisitos se aplican a los conjuntos de datos que se usan para entrenar modelos de AutoML.

Proporciona al menos 100 documentos por valor de opinión.
Usa una cantidad similar de documentos para cada puntuación de opiniones. Tener más ejemplos para puntuaciones de opinión específicas puede ingresar sesgos en el modelo.

Archivos de entrada

Los tipos de archivo de entrada para el análisis de opiniones pueden ser líneas JSON o CSV.

Líneas JSON

El formato, los nombres de campos y los tipos de valores para los archivos de líneas JSONL se determinan mediante un archivo de esquema, que son archivos YAML de acceso público.

Puedes descargar el archivo de esquema para el análisis de opiniones en la siguiente ubicación de Cloud Storage:
gs://google-cloud-aiplatform/schema/dataset/ioformat/text_sentiment_io_format_1.0.0.yaml

Ejemplo de líneas JSON

En el siguiente ejemplo, se muestra cómo puedes usar el esquema para crear tu propio archivo de líneas JSON. El ejemplo incluye saltos de línea para facilitar la lectura. En tus archivos de líneas de JSON, incluye saltos de línea solo después de cada documento. El campo dataItemResourceLabels especifica, por ejemplo, ml_use, de manera opcional.

{
  "sentimentAnnotation": {
    "sentiment": number,
    "sentimentMax": number
  },
  "textContent": "inline_text",
  "dataItemResourceLabels": {
    "aiplatform.googleapis.com/ml_use": "training|test|validation"
  }
}
{
  "sentimentAnnotation": {
    "sentiment": number,
    "sentimentMax": number
  },
  "textGcsUri": "gcs_uri_to_file",
  "dataItemResourceLabels": {
    "aiplatform.googleapis.com/ml_use": "training|test|validation"
  }
}

CSV

Cada línea de un archivo CSV hace referencia a un solo documento. En el siguiente ejemplo, se muestra el formato general de un archivo CSV válido. La columna ml_use es opcional.

  [ml_use],gcs_file_uri|"inline_text",sentiment,sentimentMax

El siguiente fragmento es un ejemplo de un archivo CSV de entrada.

  test,gs://path_to_file,sentiment_value,sentiment_max_value
  test,"inline_text",sentiment_value,sentiment_max_value
  training,gs://path_to_file,sentiment_value,sentiment_max_value
  validation,gs://path_to_file,sentiment_value,sentiment_max_value

Crear conjunto de datos

Prepara datos de entrenamiento de texto para el análisis de opiniones Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Requisitos de los datos

Prácticas recomendadas para los datos de texto que se usan a fin de entrenar los modelos de AutoML

Archivos de entrada

Líneas JSON

CSV

Prepara datos de entrenamiento de texto para el análisis de opiniones