Descripción general de los modelos de voz personalizados

Los modelos personalizados de Speech-to-Text te ayudan a ajustar los modelos de reconocimiento de voz a tus necesidades específicas. Este servicio se diseñó para mejorar la exactitud y la relevancia del servicio de reconocimiento de voz en diversos entornos y casos de uso, con tus datos de audio y texto específicos de tu dominio.

Los modelos personalizados de Speech-to-Text, accesibles en nuestra consola de Google Cloud y en la API, permiten entrenar, evaluar e implementar un modelo de voz dedicado en un entorno integrado sin código. Para el entrenamiento, puedes proporcionar solo datos de audio que representen tus condiciones de audio, sin transcripciones de referencia como un conjunto de entrenamiento. Sin embargo, debes proporcionar datos de audio y sus transcripciones de referencia como parte del conjunto de evaluación.

La creación y el uso de un modelo personalizado de Speech-to-Text implica los siguientes pasos:

  1. Preparar y subir los datos de entrenamiento en un bucket de Cloud Storage.
  2. Entrena un nuevo modelo personalizado.
  3. Implementar y administrar tu modelo personalizado con extremos.
  4. Usa y evalua el modelo personalizado en tu aplicación

¿Cómo funciona?

Puedes usar modelos personalizados de Speech-to-Text para mejorar un modelo de transcripción base a fin de mejorar el reconocimiento de transcripciones. Algunas condiciones de audio, como las sirenas, la música y el ruido de fondo excesivo, pueden representar desafíos acústicos. Ciertos acentos o vocabulario inusual, como nombres de productos, también pueden hacerlo.

Cada modelo personalizado de Speech-to-Text usa una arquitectura previamente entrenada basada en Conformer como un modelo base entrenado con datos propios del lenguaje más comúnmente hablado. Durante el proceso de entrenamiento, el modelo base se ajusta mediante la adaptación de un porcentaje significativo de las ponderaciones originales para mejorar el reconocimiento del vocabulario específico del dominio y las condiciones de audio específicas de tu aplicación.

Para el entrenamiento eficaz de un modelo personalizado de Speech-to-Text, debes proporcionar lo siguiente:

  • Al menos 100 horas de audio de datos de entrenamiento, ya sea solo audio o audio con la transcripción de texto correspondiente como verdad fundamental. Estos datos son fundamentales para la fase de entrenamiento inicial, por lo que el modelo aprende de manera integral los matices de los patrones de voz y el vocabulario. Para obtener más información, consulta Crea un conjunto de datos de verdad fundamental.
  • Un conjunto de datos separado de al menos 10 horas de audio de datos de validación, con la transcripción de texto correspondiente como verdad fundamental. Puedes obtener más información acerca del formato esperado y las convenciones de verdad fundamental que se deben seguir en nuestras instrucciones de preparación de datos.

Luego de un entrenamiento exitoso, puedes implementar un modelo personalizado de Speech-to-Text en un extremo con un solo clic y usarlo directamente a través de la API de Cloud Speech-to-Text V2 para las inferencias y comparativas.

Modelos, idiomas y regiones compatibles

Los modelos personalizados de Speech-to-Text admiten las siguientes combinaciones de modelos, idiomas y configuraciones regionales para el entrenamiento:

Lenguaje BCP-47 Modelo de base

Alemán (Alemania)

de-DE

latest_long

inglés (Australia)

en-AU

latest_long

Inglés (Reino Unido)

en-GB

latest_long

Inglés (India)

en-IN

latest_long

Español (Latinoamérica)

en-US

latest_long

Español (Estados Unidos)

es-US

latest_long

Español (España)

es-ES

latest_long

Francés (Canadá)

fr-CA

latest_long

Francés (Francia)

fr-FR

latest_long

Hindi (India)

hi-IN

latest_long

Italiano (Italia)

it-IT

latest_long

Japonés (Japón)

ja-JP

latest_long

Coreano (Corea del Sur)

ko-KR

latest_long

Holandés (Países Bajos)

nl-NL

latest_long

Portugués (Brasil)

pt-BR

latest_long

Portugués (Portugal)

pt-PT

latest_long

Además, para cumplir con los requisitos de residencia de datos, ofrecemos hardware de capacitación y de implementación en diferentes regiones. El hardware dedicado es compatible con las siguientes combinaciones de modelos y regiones:

Modelo de base Región de Google Cloud Tareas admitidas

latest_long

us-east1

Entrenamiento e Implementación

latest_long

europe-west4

Entrenamiento e Implementación

Cuota

En el caso del entrenamiento de modelos personalizados de Speech-to-Text, cada proyecto de Google Cloud debe tener una cuota predeterminada suficiente para ejecutar varios trabajos de entrenamiento de forma simultánea y está diseñado para satisfacer las necesidades de la mayoría de los proyectos sin ajustes adicionales. Sin embargo, si necesitas ejecutar una mayor cantidad de trabajos de entrenamiento simultáneos o necesitas recursos de etiquetado o procesamiento más extensos, solicita una cuota adicional.

Para un modelo personalizado de Speech-to-Text que entrega una implementación de extremo, cada extremo tiene un límite teórico de 20 consultas por segundo (QPS). Si se requiere una capacidad de procesamiento mayor, solicita una cuota de entrega adicional.

Precios

Crear y usar un modelo personalizado de Speech-to-Text implica ciertos costos que se basan principalmente en los recursos que se usaron durante el entrenamiento y la implementación posterior del modelo. En particular, el modelo personalizado de Speech-to-Text generará los siguientes costos en un ciclo de vida de un modelo típico:

  • Entrenamiento: se te cobrará por la cantidad de horas de entrenamiento de modelos. Este tiempo es proporcional a la cantidad de horas de audio en el conjunto de datos de entrenamiento. Como regla general, el entrenamiento toma una décima parte de la cantidad de horas de audio en el conjunto de datos.
  • Implementación: Se te cobrará por cada hora de implementación de un modelo en un extremo.
  • Inferencia: Se te cobrará por la cantidad de segundos transmitidos de audio para la transcripción, de acuerdo con la facturación general de Speech-to-Text.

Comprender estos costos es fundamental para crear presupuestos y asignar recursos de manera eficaz. Para obtener más información, en la sección Modelos personalizados de Speech-to-Text, consulta los precios de Cloud Speech-to-Text.

¿Qué sigue?

Sigue los recursos para aprovechar los modelos de voz personalizados en tu aplicación: