En esta página, se describe cómo habilitar el reconocimiento de idioma para las solicitudes de transcripción de audio enviadas a Speech-to-Text.
En algunas situaciones, no sabes con certeza qué idioma contienen tus grabaciones de audio. Por ejemplo, si publicas tu servicio, aplicación o producto en un país con varios idiomas oficiales, puedes recibir entradas de audio de los usuarios en diferentes idiomas. Esto puede hacer que la especificación de un código de idioma único para las solicitudes de transcripción sea mucho más difícil.
Reconocimiento de varios idiomas
Speech-to-Text ofrece una manera de especificar un conjunto de idiomas alternativos que podrían contener tus datos de audio. Cuando envías una solicitud de transcripción de audio a Speech-to-Text, puedes proporcionar una lista de los idiomas adicionales que tal vez se incluyan en los datos de audio. Si incluyes una lista de idiomas en tu solicitud, Speech-to-Text intentará transcribir el audio según el idioma que mejor se ajuste a la muestra de las alternativas que proporcionaste. Luego, Speech-to-Text etiqueta los resultados de la transcripción con el código de idioma previsto.
Esta característica es ideal para las aplicaciones que necesitan transcribir declaraciones cortas, como comandos de voz o búsqueda. Puedes enumerar hasta tres idiomas alternativos entre los que admite Speech-to-Text además de tu idioma principal, lo que suma un total de cuatro idiomas.
Aunque puedes especificar idiomas alternativos para tu solicitud de transcripción de voz, igualmente debes proporcionar un código de idioma principal en el campo languageCode
. Además, deberías limitar el número de idiomas que solicitas al mínimo. Cuanto menor sea la cantidad de códigos de idioma alternativos que solicites, mayor será la exactitud de Speech-to-Text a la hora de seleccionar el idioma correcto. Los mejores resultados se obtienen cuando especificas un solo idioma.
Habilita el reconocimiento de idioma en las solicitudes de transcripción de audio
Para especificar idiomas alternativos en tu transcripción de audio, debes configurar el campo alternativeLanguageCodes
en una lista de códigos de idioma en los parámetros RecognitionConfig
para la solicitud. Con Speech-to-Text, se admiten códigos de idioma alternativos para todos los métodos de reconocimiento de voz: speech:recognize
, speech:longrunningrecognize
y transmisión.
Usa un archivo local
Protocolo
Consulta el extremo de la API de speech:recognize
para obtener más detalles.
Para realizar un reconocimiento de voz síncrono, haz una solicitud POST
y proporciona el cuerpo de la solicitud apropiado. A continuación, se muestra un ejemplo de una solicitud POST
con curl
. En el ejemplo, se usa Google Cloud CLI para generar un token
de acceso. Para obtener instrucciones sobre cómo instalar gcloud CLI,
consulta la guía de inicio rápido.
En el ejemplo siguiente, se muestra cómo solicitar la transcripción de un archivo de audio que puede incluir voz en inglés, francés o alemán.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1p1beta1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "languageCode": "en-US", "alternativeLanguageCodes": ["fr-FR", "de-DE"], "model": "command_and_search" }, "audio": { "uri": "gs://cloud-samples-tests/speech/commercial_mono.wav" } }' > multi-language.txt
Si la solicitud se completa correctamente, el servidor muestra un código de estado HTTP 200 OK
y la respuesta en formato JSON, guardada en un archivo llamado multi-language.txt
.
{ "results": [ { "alternatives": [ { "transcript": "hi I'd like to buy a Chromecast I'm ..." "confidence": 0.9466864 } ], "languageCode": "en-us" }, { "alternatives": [ { "transcript": " let's go with the black one", "confidence": 0.9829583 } ], "languageCode": "en-us" }, ] }
Java
Para obtener información sobre cómo instalar y usar la biblioteca cliente de Speech-to-Text, consulta las bibliotecas cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API de Speech-to-Text Java.
Para autenticar en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Node.js
Para obtener información sobre cómo instalar y usar la biblioteca cliente de Speech-to-Text, consulta las bibliotecas cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API de Speech-to-Text Node.js.
Para autenticar en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Python
Para obtener información sobre cómo instalar y usar la biblioteca cliente de Speech-to-Text, consulta las bibliotecas cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API de Speech-to-Text Python.
Para autenticar en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Usa un archivo remoto
Java
Para obtener información sobre cómo instalar y usar la biblioteca cliente de Speech-to-Text, consulta las bibliotecas cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API de Speech-to-Text Java.
Para autenticar en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Node.js
Para obtener información sobre cómo instalar y usar la biblioteca cliente de Speech-to-Text, consulta las bibliotecas cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API de Speech-to-Text Node.js.
Para autenticar en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Python
Para obtener información sobre cómo instalar y usar la biblioteca cliente de Speech-to-Text, consulta las bibliotecas cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API de Speech-to-Text Python.
Para autenticar en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.