Entrenar y gestionar modelos

Con la API, sin necesidad de escribir código, puedes crear y entrenar un modelo de Speech-to-Text personalizado para mejorar la precisión del reconocimiento a partir de un modelo de Speech-to-Text. Este servicio totalmente gestionado aprovisiona automáticamente los recursos informáticos, ejecuta el código de la aplicación de entrenamiento y se asegura de que se eliminen los recursos informáticos después del trabajo de entrenamiento. Obtendrás un modelo de transcripción totalmente optimizado que podrás usar en cualquier aplicación posterior.

Al igual que los modelos de aprendizaje automático, el entrenamiento de un modelo de Speech-to-Text personalizado suele ser un proceso iterativo que implica seleccionar un modelo base como punto de partida, optimizarlo con tus conjuntos de datos de texto y audio y, a continuación, probar la calidad del reconocimiento del modelo. Si los resultados no son los esperados, puedes volver a entrenar un modelo con una combinación de datos diferente, volver a probarlo o usarlo directamente para la transcripción en tu dominio.

Antes de empezar

Asegúrate de que tienes una cuenta de Google Cloud , has creado un Google Cloud proyecto y has habilitado la API Speech-to-Text. Para ello, ve a Speech en la consola de Google Cloud y desplázate hasta la API Speech-to-Text. Trabaja en la sección Modelos personalizados de la barra de navegación de la izquierda.

Crear un modelo personalizado

Empieza creando un modelo de Speech-to-Text personalizado y definiendo sus parámetros, como el modelo base y el idioma de transcripción:

  1. Haz clic en Crear para crear un modelo personalizado.
  2. Introduce un nombre de modelo, que se usará para mostrarse y al que se hará referencia en tus solicitudes de API y en la consola de Google Cloud voz.
  3. Escriba una descripción del modelo.
  4. Selecciona un modelo base que se adapte mejor a tu caso práctico.
  5. Selecciona el idioma de transcripción del modelo.
  6. Selecciona la región en la que se debe llevar a cabo la formación.
  7. Haz clic en Continuar.
Captura de pantalla del flujo de trabajo de creación de modelos de Speech-to-Text personalizados, que muestra los campos necesarios para el modelo personalizado

Para completar la definición del trabajo del modelo de Custom Speech-to-Text y empezar el entrenamiento, tendrás que definir los conjuntos de datos de entrenamiento y validación.

  1. Selecciona un conjunto de datos de entrenamiento. Para ello, proporciona un URI de directorio de Cloud Storage válido. Asegúrate de que solo haya archivos de audio y de texto, y de que la duración total del audio cumpla los requisitos del conjunto de datos de entrenamiento.
  2. Selecciona un conjunto de datos de validación. Para ello, proporciona un URI de directorio de Cloud Storage válido. Asegúrate de que solo haya archivos de audio y de texto, y de que la duración total del audio cumpla los requisitos del conjunto de datos de validación.
  3. Haz clic en Crear para iniciar el proceso de entrenamiento.

Si no se indexan suficientes horas de audio o los archivos no cumplen las directrices, el trabajo de entrenamiento fallará.

Captura de pantalla del flujo de trabajo de creación de modelos de Speech-to-Text personalizados, que muestra los campos necesarios para los conjuntos de datos de entrenamiento y validación del modelo personalizado

Las tareas de entrenamiento se pueden poner en cola detrás de otras tareas de nuestro sistema, y el entrenamiento de un modelo puede tardar desde un par de horas hasta varios días, en función del tamaño del conjunto de datos. Una vez que se haya entrenado el modelo, su estado se marcará como Activo.

Eliminar un modelo personalizado

Antes de empezar, asegúrate de que no haya tráfico dirigido a tu modelo de Custom Speech-to-Text a través de ningún endpoint, ya que, si lo eliminas, dejará de atender solicitudes.

  1. Vaya a la pestaña Modelos de la sección Modelos personalizados.
  2. Haz clic para desplegar las opciones y, a continuación, en Eliminar. En unos instantes, el modelo de Speech-to-Text personalizado se eliminará junto con todos sus endpoints y dejará de atender tráfico.

Listar tus modelos personalizados

Si seleccionas Modelos en la sección Modelos personalizados, también puedes ver una lista de todos tus modelos de Speech-to-Text personalizados, incluidos los que están en proceso de entrenamiento, activos y en proceso de eliminación.

Captura de pantalla del flujo de trabajo de la lista de modelos de Speech-to-Text personalizados, que muestra una tabla con todos los modelos personalizados ya creados

Siguientes pasos

Consulta los recursos para aprovechar los modelos de voz personalizados en tu aplicación: