En esta página se describe cómo habilitar el reconocimiento de idiomas para las solicitudes de transcripción de audio enviadas a Speech-to-Text.
En algunas situaciones, no sabes con certeza en qué idioma están tus grabaciones de audio. Por ejemplo, si publicas tu servicio, aplicación o producto en un país con varios idiomas oficiales, es posible que recibas entradas de audio de los usuarios en varios idiomas. Esto puede hacer que sea mucho más difícil especificar un solo código de idioma para las solicitudes de transcripción.
Reconocimiento de varios idiomas
Speech-to-Text te permite especificar un conjunto de idiomas alternativos que pueden estar presentes en tus datos de audio. Cuando envías una solicitud de transcripción de audio a Speech-to-Text, puedes proporcionar una lista de idiomas adicionales que pueden incluirse en los datos de audio. Si incluyes una lista de idiomas en tu solicitud, Speech-to-Text intentará transcribir el audio en función del idioma que mejor se adapte a la muestra de las alternativas que proporciones. A continuación, Speech-to-Text etiqueta los resultados de la transcripción con el código de idioma previsto.
Esta función es ideal para aplicaciones que necesitan transcribir frases cortas, como comandos de voz o búsquedas. Puedes indicar hasta tres idiomas alternativos de entre los que admite la transcripción de voz, además del idioma principal (cuatro idiomas en total).
Aunque puedes especificar idiomas alternativos para tu solicitud de transcripción de voz, debes proporcionar un código de idioma principal en el campo languageCode
. Además, debes limitar al mínimo el número de idiomas que solicites. Cuantos menos códigos de idioma alternativos solicite, más fácil será para Speech-to-Text seleccionar el correcto. Si especificas un solo idioma, obtendrás los mejores resultados.
Habilitar el reconocimiento de idiomas en las solicitudes de transcripción de audio
Para especificar idiomas alternativos en la transcripción de audio, debe asignar al campo alternativeLanguageCodes
una lista de códigos de idioma en los parámetros RecognitionConfig
de la solicitud. Speech-to-Text admite códigos de idioma alternativos para todos los métodos de reconocimiento de voz: speech:recognize
, speech:longrunningrecognize
y Streaming.
Usar un archivo local
Protocolo
Consulta todos los detalles en el endpoint de la API speech:recognize
.
Para realizar el reconocimiento de voz síncrono, haz una solicitud POST
y proporciona el cuerpo de la solicitud adecuado. A continuación, se muestra un ejemplo de una solicitud POST
que utiliza curl
. En el ejemplo se usa Google Cloud CLI para generar un token de acceso. Para obtener instrucciones sobre cómo instalar gcloud CLI, consulta la guía de inicio rápido.
En el siguiente ejemplo se muestra cómo solicitar la transcripción de un archivo de audio que puede incluir contenido en inglés, francés o alemán.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1p1beta1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "languageCode": "en-US", "alternativeLanguageCodes": ["fr-FR", "de-DE"], "model": "command_and_search" }, "audio": { "uri": "gs://cloud-samples-tests/speech/commercial_mono.wav" } }' > multi-language.txt
Si la solicitud se realiza correctamente, el servidor devuelve un código de estado HTTP 200 OK
y la respuesta en formato JSON, que se guarda en un archivo llamado multi-language.txt
.
{ "results": [ { "alternatives": [ { "transcript": "hi I'd like to buy a Chromecast I'm ..." "confidence": 0.9466864 } ], "languageCode": "en-us" }, { "alternatives": [ { "transcript": " let's go with the black one", "confidence": 0.9829583 } ], "languageCode": "en-us" }, ] }
Java
Para saber cómo instalar y usar la biblioteca de cliente de Speech-to-Text, consulta el artículo Bibliotecas de cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API Java Speech-to-Text.
Para autenticarte en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Node.js
Para saber cómo instalar y usar la biblioteca de cliente de Speech-to-Text, consulta el artículo Bibliotecas de cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API Node.js Speech-to-Text.
Para autenticarte en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Python
Para saber cómo instalar y usar la biblioteca de cliente de Speech-to-Text, consulta el artículo Bibliotecas de cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API Python Speech-to-Text.
Para autenticarte en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Usar un archivo remoto
Java
Para saber cómo instalar y usar la biblioteca de cliente de Speech-to-Text, consulta el artículo Bibliotecas de cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API Java Speech-to-Text.
Para autenticarte en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Node.js
Para saber cómo instalar y usar la biblioteca de cliente de Speech-to-Text, consulta el artículo Bibliotecas de cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API Node.js Speech-to-Text.
Para autenticarte en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Python
Para saber cómo instalar y usar la biblioteca de cliente de Speech-to-Text, consulta el artículo Bibliotecas de cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API Python Speech-to-Text.
Para autenticarte en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.