Preparar los datos de entrenamiento

Para entrenar a tu modelo personalizado, debes proporcionar muestras representativas del tipo de contenido que deseas clasificar, con las etiquetas de categoría que deseas que use tu modelo personalizado.

  • Contenido fuente. Debes proporcionar al menos 20, y no más de 100,000, documentos de texto fuente que contengan el contenido que se usará para entrenar a tu modelo personalizado.

  • Etiquetas de categorías de contenido para tus documentos de entrenamiento. Debe proporcionar al menos 2, y no más de 100, etiquetas únicas. Debe aplicar cada etiqueta a por lo menos 10 documentos.

El contenido fuente se proporciona como documentos en formato de texto (.txt) o como texto en línea en un archivo de valores separados por comas (.csv). Puedes subir archivos .txt directamente como archivos individuales o agrupar varios archivos .txt en un archivo ZIP (.zip) comprimido.

Puedes identificar y etiquetar tus datos de entrenamiento en un archivo de valores separados por comas (.csv), o puedes usar la interfaz de usuario de AutoML Natural Language para subir y etiquetar los datos. El archivo .csv, si usas uno, enumera todos los datos de entrenamiento y las etiquetas de categoría para esos datos. El archivo .csv puede tener cualquier nombre de archivo, debe estar codificado en UTF-8 y debe terminar con una extensión .csv. Debe estar almacenado en el depósito de Google Cloud Storage asociado con tu proyecto. El archivo tiene una fila para cada documento en el conjunto que subes, y las siguientes columnas en cada fila:

  1. A qué conjunto asignar el contenido de esta fila. Esta columna es opcional y puede ser uno de los siguientes valores:

    • TRAIN - Use the contenido to train the model.
    • VALIDATION - Use the contenido to validate the results that the model returns during training.
    • TEST - Use the contenido to verify the model's results after the model has been trained.

    Si no incluyes esta columna para especificar un conjunto para el contenido en cada fila, AutoML Natural Language lo ubica automáticamente en uno de los tres conjuntos para garantizar que haya suficiente contenido de entrenamiento, validación y prueba. AutoML Natural Language usa el 80% de tus documentos de contenido para entrenamiento, el 10% para validación y el 10% para pruebas.

    Si incluyes esta columna para especificar los conjuntos de contenido, te recomendamos que identifiques al menos el 5% de tus datos para cada categoría. El uso de menos del 5% de tus datos para el entrenamiento, la validación o las pruebas puede producir resultados inesperados y modelos ineficaces.

    Si asignas explícitamente algún artículo a los conjuntos ENTRENAMIENTO, VALIDACIÓN o PRUEBA, debes asignar explícitamente todos los artículos. AutoML Natural Language asigna elementos automáticamente solo cuando ninguno de ellos se ha asignado explícitamente a un conjunto.

  2. El contenido a clasificar. Este campo contiene el contenido como texto citado en línea o proporciona una ruta a un archivo de texto (.txt) o zip (.zip) comprimido. Si el documento se encuentra en un depósito de Google Cloud Storage, la ruta es el URI de Google Cloud Storage que corresponde al mismo.

    AutoML Natural Language admite documentos cortos y grandes. El documento más corto es una oración. Un documento individual no puede tener más de 128 kB.

  3. Una lista de etiquetas separadas por comas que identifican cómo se clasifica el contenido. Las etiquetas deben comenzar con una letra y solo deben contener letras, números y guiones bajos.

Por ejemplo, puedes tener lo siguiente en tu archivo .csv:

gs://my-project-lcm/training-data/file1.txt,Sports,Basketball
gs://my-project-lcm/training-data/ubuntu.zip,Computers,Software,Operating_Systems,Linux,Ubuntu
file://news/documents/file2.txt,Sports,Baseball
"Miles Davis was an American jazz trumpeter, bandleader, and composer.",Arts_Entertainment,Music,Jazz
TRAIN,gs://my-project-lcm/training-data/astros.txt,Sports,Baseball
VALIDATE,gs://my-project-lcm/training-data/mariners.txt,Sports,Baseball
TEST,gs://my-project-lcm/training-data/cubs.txt,Sports,Baseball

Errores comunes de .csv

  • Usar caracteres unicode en las etiquetas. Por ejemplo, los caracteres japoneses no son compatibles
  • Usar espacios y caracteres no alfanuméricos en las etiquetas
  • Líneas vacías
  • Columnas vacías (líneas con dos comas sucesivas)
  • Comillas faltantes en texto insertado que incluya comas
  • Usar de manera incorrecta las mayúsculas en las rutas de los textos de Cloud Storage
  • Configurar de manera incorrecta el control de acceso para tus archivos de texto. Tu cuenta de servicio debe tener acceso de lectura o superior, o bien los archivos deben tener acceso público de lectura
  • Referencias a archivos que no son de texto, como archivos JPEG Asimismo, los archivos que no son archivos de texto, pero que se renombraron con una extensión de texto, causarán un error
  • El URI de un texto lleva a un depósito diferente al del proyecto actual Solo se puede acceder a los archivos del depósito del proyecto
  • Archivos sin formato CSV

Proporcionar datos de entrenamiento de calidad

  • Trata de que tus datos de entrenamiento sean tan variados como los datos sobre los cuales se harán las predicciones. Incluye diferentes longitudes de documentos, documentos de diferentes autores, documentos que usen diferentes palabras o estilos, etcétera.

  • Usa documentos que un lector humano pueda clasificar fácilmente. Por lo general, los modelos de AutoML Natural Language no pueden predecir las etiquetas que las personas no pueden asignar. Por lo tanto, si no se puede entrenar a un humano para asignar una etiqueta al leer un documento, es probable que tu modelo tampoco pueda hacerlo.

  • Te recomendamos que proporciones al menos 1000 documentos de entrenamiento por etiqueta. El número mínimo de documentos por etiqueta es de 10. Sin embargo, puedes mejorar las puntuaciones de confianza de tu modelo utilizando más ejemplos por etiqueta. Las mejores puntuaciones de confianza son especialmente útiles cuando tu modelo muestra varias etiquetas al clasificar un documento.

  • El modelo funciona mejor cuando hay como máximo 100 veces más documentos para la etiqueta más común que para la etiqueta menos común. Te recomendamos que elimines las etiquetas de frecuencia muy baja.

  • Considera incluir una etiqueta None_of_the_above para los documentos que no coincidan con ninguna de tus etiquetas definidas. Por ejemplo, si solo etiquetaste documentos sobre arte y entretenimiento, pero tu conjunto de datos contiene documentos sobre otros temas, como deportes o tecnología, etiqueta los documentos sobre otros temas como None_of_the_above. Esto puede mejorar la exactitud de tu modelo. Puedes usar una etiqueta con un nombre diferente que tenga el mismo significado que None_of_the_above.

¿Te sirvió esta página? Envíanos tu opinión:

Enviar comentarios sobre…

AutoML Natural Language
¿Necesitas ayuda? Visita nuestra página de asistencia.