Descripción general de los modelos de voz personalizados

Los modelos personalizados de Speech-to-Text te ayudan a optimizar los modelos de reconocimiento de voz para que se adapten a tus necesidades específicas. Este servicio se ha diseñado para mejorar la precisión y la relevancia del servicio de reconocimiento de voz en diversos entornos y casos prácticos, utilizando tus datos de audio y texto específicos del dominio.

Los modelos de Speech-to-Text personalizados, a los que se puede acceder tanto desde nuestra Google Cloud consola como desde la API, permiten entrenar, evaluar e implementar un modelo de voz específico en un entorno integrado sin código. Para el entrenamiento, puedes proporcionar solo datos de audio que representen tus condiciones de audio, sin transcripciones de referencia como conjunto de entrenamiento. Sin embargo, debes proporcionar datos de audio y sus transcripciones de referencia como parte de tu conjunto de evaluación.

Para crear y usar un modelo de Speech-to-Text personalizado, sigue estos pasos:

  1. Prepara y sube los datos de entrenamiento a un segmento de Cloud Storage.
  2. Entrena un nuevo modelo personalizado.
  3. Despliega y gestiona tu modelo personalizado mediante endpoints.
  4. Usa y evalúa tu modelo personalizado en tu aplicación.

¿Cómo funciona?

Puedes usar modelos personalizados de Speech-to-Text para aumentar un modelo de transcripción básico y mejorar el reconocimiento de la transcripción. Algunas condiciones de audio, como las sirenas, la música y el ruido de fondo excesivo, pueden suponer un reto acústico. También puede ocurrir con ciertos acentos o vocabulario inusual, como los nombres de productos.

Todos los modelos de Speech-to-Text personalizados usan una arquitectura preentrenada basada en Conformer como modelo base entrenado con datos propios de lenguaje hablado habitualmente. Durante el proceso de entrenamiento, el modelo base se ajusta adaptando un porcentaje significativo de las ponderaciones originales para mejorar el reconocimiento del vocabulario específico del dominio y las condiciones de audio específicas de tu aplicación.

Para entrenar de forma eficaz un modelo de Speech-to-Text personalizado, debes proporcionar lo siguiente:

  • Un mínimo de 100 horas de audio de datos de entrenamiento, ya sea solo audio o audio con la transcripción de texto correspondiente como datos validados. Estos datos son cruciales para la fase de entrenamiento inicial, ya que permiten que el modelo aprenda de forma exhaustiva los matices de los patrones de habla y el vocabulario. Para obtener más información, consulta el artículo Crear un conjunto de datos de referencia.
  • Un conjunto de datos independiente de al menos 10 horas de audio de datos de validación, con la transcripción de texto correspondiente como verdad fundamental. Puedes consultar más información sobre el formato esperado y las convenciones de la verdad fundamental que se deben seguir en nuestras instrucciones de preparación de datos.

Una vez que hayas completado el entrenamiento, podrás implementar un modelo personalizado de Speech-to-Text en un endpoint con un solo clic y usarlo directamente a través de la API Cloud Speech-to-Text V2 para realizar inferencias y comparativas.

Modelos, idiomas y regiones admitidos

Los modelos personalizados de Speech-to-Text admiten las siguientes combinaciones de modelos, idiomas y configuraciones regionales para el entrenamiento:

Idioma BCP-47 Modelo base

Alemán (Alemania)

de-DE

latest_long

Inglés (Australia)

en-AU

latest_long

Inglés (Reino Unido)

en-GB

latest_long

Inglés (India)

en-IN

latest_long

Inglés (EE. UU.)

en-US

latest_long

Español (Estados Unidos)

es-US

latest_long

Español (España)

es-ES

latest_long

Francés (Canadá)

fr-CA

latest_long

Francés (Francia)

fr-FR

latest_long

Hindi (India)

hi-IN

latest_long

Italiano (Italia)

it-IT

latest_long

Japonés (Japón)

ja-JP

latest_long

Coreano (Corea del Sur)

ko-KR

latest_long

Neerlandés (Países Bajos)

nl-NL

latest_long

Portugués (Brasil)

pt-BR

latest_long

Portugués (Portugal)

pt-PT

latest_long

Además, para cumplir los requisitos de residencia de datos, ofrecemos hardware de formación y de implementación en diferentes regiones. El hardware específico se admite en las siguientes combinaciones de modelos y regiones:

Modelo base Google Cloud Region Tareas admitidas

latest_long

us-east1

Entrenamiento y despliegue

latest_long

europe-west4

Entrenamiento y despliegue

Cuota

Para entrenar modelos de Custom Speech-to-Text, cada proyecto Google Cloud debe tener suficiente cuota predeterminada para ejecutar varias tareas de entrenamiento simultáneamente y está diseñado para satisfacer las necesidades de la mayoría de los proyectos sin ajustes adicionales. Sin embargo, si necesitas ejecutar un mayor número de trabajos de entrenamiento simultáneos o requieres más recursos de computación o de etiquetado, solicita cuota adicional.

En el caso de un modelo de Custom Speech-to-Text que sirva para un despliegue de endpoint, cada endpoint tiene un límite teórico de 20 consultas por segundo (QPS). Si necesitas un mayor rendimiento, solicita cuota de servicio adicional.

Precios

Crear y usar un modelo de Speech-to-Text personalizado conlleva ciertos costes que se basan principalmente en los recursos utilizados durante el entrenamiento y la posterior implementación del modelo. En concreto, el modelo de Custom Speech-to-Text tendrá los siguientes costes durante su ciclo de vida habitual:

  • Entrenamiento: se te cobrará por el número de horas de entrenamiento del modelo. Este tiempo es proporcional a la cantidad de horas de audio del conjunto de datos de entrenamiento. Por lo general, el entrenamiento lleva una décima parte del número de horas de audio del conjunto de datos.
  • Despliegue: se te cobrará por cada hora que un modelo esté desplegado en un endpoint.
  • Inferencia: se te cobrará por el número de segundos de audio transmitidos para la transcripción, de acuerdo con la facturación general de Speech-to-Text.

Conocer estos costes es fundamental para elaborar presupuestos y asignar recursos de forma eficaz. Para obtener más información, consulta la sección Modelos personalizados de Speech-to-Text de la página Precios de Cloud Speech-to-Text.

Siguientes pasos

Consulta los recursos para aprovechar los modelos de voz personalizados en tu aplicación: