Puedes mejorar la exactitud de los resultados de la transcripción que obtienes de Speech-to-Text mediante la adaptación de voz. La función de adaptación de voz te permite especificar palabras o frases que STT debe reconocer con mayor frecuencia en los datos de audio que otras alternativas que, de otro modo, se podrían sugerir de otra manera. La adaptación de voz es particularmente útil para mejorar la exactitud de la transcripción en los siguientes casos:
- Tu audio contiene palabras o frases que suelen aparecer con mucha frecuencia.
- Es probable que tu audio contenga palabras poco comunes, como nombres propios, o palabras que no existen en general.
- Tu audio contiene ruido o no está muy claro.
Consulta la página de conceptos de adaptación de voz para obtener información sobre las prácticas recomendadas de la adaptación de voz y la mejora de la adaptación de voz.
En la siguiente muestra de código, se indica cómo mejorar la exactitud de la transcripción a través de la configuración de contextos de voz en una solicitud enviada a la API de Speech-to-Text. Si deseas obtener una lista de las clases disponibles para tu idioma, consulta la página Tokens de clase admitidos.
LÍNEA DE REST Y CMD
Consulta el extremo de la API de speech:recognize
para obtener más detalles.
Antes de usar cualquiera de los datos de solicitud siguientes, realiza los siguientes reemplazos:
- language-code: Es el código BCP-47 del idioma que se habla en el clip de audio.
- phrases-to-boost: Es la frase o las frases que deseas que Speech-to-Text priorice, como un arreglo de strings.
- storage-bucket: Es un depósito de Cloud Storage.
- input-audio: Son los datos de audio que deseas transcribir.
Método HTTP y URL:
POST https://speech.googleapis.com/v1p1beta1/speech:recognize
Cuerpo JSON de la solicitud:
{ "config":{ "languageCode":"language-code", "speechContexts":[{ "phrases":[phrases-to-boost], "boost": 2 }] }, "audio":{ "uri":"gs:storage-bucket/input-file" } }
Para enviar tu solicitud, expande una de estas opciones:
Deberías recibir una respuesta JSON similar a la que se muestra a continuación:
{ "results": [ { "alternatives": [ { "transcript": "When deciding whether to bring an umbrella, I consider the weather", "confidence": 0.9463943 } ], "languageCode": "en-us" } ] }
Java
Node.js
Python
Go