Entrena y administra modelos

Con la API, sin código, puedes crear y entrenar un modelo personalizado de Speech-to-Text para mejorar la exactitud del reconocimiento a partir de un modelo existente de Speech-to-Text. Este servicio completamente administrado aprovisiona automáticamente los recursos de procesamiento, ejecuta el código de la aplicación de entrenamiento y garantiza la eliminación de los recursos de procesamiento después del trabajo de entrenamiento. Obtienes un modelo de transcripción completamente ajustado que es útil para cualquier aplicación descendente.

Al igual que en los modelos de aprendizaje automático, el entrenamiento de un modelo de Speech-to-Text personalizado suele ser iterativo y, además, implica seleccionar un modelo base como punto de partida, ajustarlo con tus conjuntos de datos de texto y audio y, luego, probar la calidad de reconocimiento del modelo. Si los resultados no son los esperados, vuelve a entrenar un modelo nuevo con una mezcla diferente de datos, vuelve a realizar una prueba o úsalo directamente para la transcripción en tu dominio.

Antes de comenzar

Asegúrate de haberte registrado en una cuenta de Google Cloud, creado un proyecto de Google Cloud y habilitado la API de Speech-to-Text: ve a Speech en la consola de Google Cloud y navega a la API de Speech-to-text. Opera en la sección Modelos personalizados de la barra de navegación de la izquierda.

Crear un modelo personalizado

Comienza por crear un modelo personalizado de Speech-to-Text y definir sus parámetros, como el modelo base y el lenguaje de transcripción:

  1. Haz clic en Crear para crear un modelo personalizado.
  2. Ingresa un Nombre de modelo, que se usará para la pantalla y al que se hará referencia en las solicitudes a la API y en la consola de Google Cloud Speech.
  3. Ingresa una Descripción para el modelo.
  4. Selecciona el Modelo base que se adapte mejor a tu caso de uso.
  5. Selecciona el Idioma de transcripción del modelo.
  6. Selecciona la Región en la que se debe realizar el entrenamiento.
  7. Haz clic en Continuar.
Captura de pantalla del flujo de trabajo de creación del modelo personalizado de Speech-to-Text, que muestra los campos necesarios para el modelo personalizado

Para completar la definición del trabajo de modelo personalizado de Speech-to-Text y comenzar el entrenamiento, deberás definir los conjuntos de datos de entrenamiento y validación.

  1. Para seleccionar un conjunto de datos de entrenamiento, proporciona un URI de directorio de Cloud Storage válido. Asegúrate de que solo estén presentes los archivos de audio y de texto, y que la duración total del audio cumpla con los requisitos del conjunto de datos de entrenamiento.
  2. Para seleccionar un conjunto de datos de validación, proporciona un URI de directorio de Cloud Storage válido. Asegúrate de que solo estén presentes archivos de audio y de texto, y que la duración total del audio cumpla con los requisitos del conjunto de datos de validación.
  3. Haz clic en Crear para iniciar el proceso de entrenamiento.

Si no se indexan suficientes horas de audio o los archivos no siguen los lineamientos, el trabajo de entrenamiento fallará.

Captura de pantalla del flujo de trabajo de creación de modelos personalizados de Speech-to-Text, que muestra los campos necesarios para los conjuntos de datos de entrenamiento y validación del modelo personalizado

Los trabajos de entrenamiento pueden estar en cola detrás de otros trabajos en nuestro sistema. El entrenamiento de un modelo puede tardar desde un par de horas hasta unos días, según el tamaño del conjunto de datos. Después del entrenamiento del modelo, su estado se marcará como Activo.

Borra un modelo personalizado

Antes de comenzar, asegúrate de que no se enrute tráfico a tu modelo personalizado de Speech-to-Text a través de ningún extremo, ya que, si lo borras, dejará de entregar solicitudes.

  1. Ve a la pestaña Extremos de la sección Modelos personalizados.
  2. Haz clic para expandir las opciones y, luego, en Borrar. En unos instantes, se borrará el modelo personalizado de Speech-to-Text, junto con todos sus extremos, y ya no entregará tráfico.

Obtén una lista de tus modelos personalizados

Si seleccionas los Modelos en la sección Modelos personalizados, también puedes enumerar todos tus modelos personalizados de Speech-to-Text, incluidos los activos y los que se están entrenando y borrando.

Captura de pantalla del flujo de trabajo de la lista de modelos personalizados de Speech-to-Text, que muestra una tabla con todos los modelos personalizados ya creados

¿Qué sigue?

Sigue los recursos para aprovechar los modelos de voz personalizados en tu aplicación: