En este instructivo, se explica cómo transcribir el audio grabado de un teléfono con Speech-to-Text.
Los archivos de audio pueden provenir de muchas fuentes diferentes. Los datos de audio pueden provenir de un teléfono (como el buzón de voz) o de una banda sonora incluida en un archivo de video.
En Speech-to-Text, puedes usar uno de varios modelos de aprendizaje automático para transcribir tu archivo de audio a fin de que coincida mejor con la fuente original del audio. Para obtener mejores resultados en tu transcripción de voz, especifica la fuente del audio original. Esto permite que se procesen tus archivos de audio en Speech-to-Text con un modelo de aprendizaje automático entrenado para datos similares a tu archivo de audio.
Objetivos
- Envía una solicitud de transcripción de audio para el audio grabado desde un teléfono (como el buzón de voz) a Speech-to-Text.
- Especifica un modelo de reconocimiento de voz mejorado para una solicitud de transcripción de audio.
Costos
En este instructivo, se usa el siguiente componente facturable de Cloud Platform:
- Speech-to-Text
Usa la calculadora de precios para generar una estimación de los costos según el uso previsto.
Antes de comenzar
Este instructivo tiene varios requisitos previos:
- Haber configurado un proyecto de Speech-to-Text en la consola de Google Cloud
- Haber configurado tu entorno con las credenciales predeterminadas de la aplicación en la consola de Google Cloud
- Configuraste el entorno de desarrollo para tu lenguaje de programación elegido.
- Instalaste la Biblioteca cliente de Google Cloud para tu lenguaje de programación elegido.
Envía una solicitud:
Para transcribir mejor el audio capturado en un teléfono, como una llamada telefónica o un mensaje de voz, puedes configurar el campo model
en tu carga útil RecognitionConfig
como phone_call
. En el campo model
, se indica a la API de Speech-to-Text qué modelo de reconocimiento de voz usar para la solicitud de transcripción.
Para mejorar los resultados de la transcripción de audio telefónico, usa un modelo mejorado. Para usar un modelo mejorado, debes configurar el campo useEnhanced
como true
en tu carga útil RecognitionConfig
.
En las siguientes muestras de código, se explica cómo seleccionar un modelo de transcripción específico cuando se llama a Speech-to-Text.
Protocolo
Consulta el extremo de la API de speech:recognize
para obtener todos los detalles.
Para realizar un reconocimiento de voz síncrono, haz una solicitud POST
y proporciona el cuerpo de la solicitud apropiado. A continuación, se muestra un ejemplo de una solicitud POST
con curl
. En el ejemplo, se usa el token de acceso correspondiente a la configuración de una cuenta de servicio para el proyecto con Google Cloud CLI. Si deseas obtener instrucciones para instalar la gcloud CLI, configurar un proyecto con una cuenta de servicio y conseguir un token de acceso, consulta la guía de inicio rápido.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "languageCode": "en-US", "enableWordTimeOffsets": false, "enableAutomaticPunctuation": true, "model": "phone_call", "useEnhanced": true }, "audio": { "uri": "gs://cloud-samples-tests/speech/commercial_mono.wav" } }'
Consulta la documentación de referencia de RecognitionConfig
para obtener más información sobre la configuración del cuerpo de la solicitud.
Si la solicitud se realiza correctamente, el servidor muestra un código de estado HTTP 200 OK
y la respuesta en formato JSON:
{ "results": [ { "alternatives": [ { "transcript": "Hi, I'd like to buy a Chromecast. I was wondering whether you could help me with that.", "confidence": 0.8930228 } ], "resultEndTime": "5.640s" }, { "alternatives": [ { "transcript": " Certainly, which color would you like? We are blue black and red.", "confidence": 0.9101991 } ], "resultEndTime": "10.220s" }, { "alternatives": [ { "transcript": " Let's go with the black one.", "confidence": 0.8818244 } ], "resultEndTime": "13.870s" }, { "alternatives": [ { "transcript": " Would you like the new Chromecast Ultra model or the regular Chromecast?", "confidence": 0.94733626 } ], "resultEndTime": "18.460s" }, { "alternatives": [ { "transcript": " Regular Chromecast is fine. Thank you. Okay. Sure. Would you like to ship it regular or Express?", "confidence": 0.9519095 } ], "resultEndTime": "25.930s" }, { "alternatives": [ { "transcript": " Express, please.", "confidence": 0.9101229 } ], "resultEndTime": "28.260s" }, { "alternatives": [ { "transcript": " Terrific. It's on the way. Thank you. Thank you very much. Bye.", "confidence": 0.9321616 } ], "resultEndTime": "34.150s" } ] }
Go
Para autenticar en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Java
Para autenticar en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Node.js
Para autenticar en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Python
Para autenticar en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Idiomas adicionales
C#: Sigue las instrucciones de configuración de C# en la página de bibliotecas cliente y, luego, visita la documentación de referencia de Speech-to-Text para .NET
PHP: Sigue las instrucciones de configuración de PHP en la página de bibliotecas cliente y, luego, visita la documentación de referencia de Speech-to-Text para PHP.
Ruby: Sigue las instrucciones de configuración de Ruby en la página Bibliotecas cliente y, luego, visita la documentación de referencia de Speech-to-Text para Ruby.
Limpia
Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos usados en este instructivo, borra el proyecto que contiene los recursos o conserva el proyecto y borra los recursos individuales.
Borra el proyecto
La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para el instructivo.
Para borrar el proyecto, sigue estos pasos:
- En la consola de Google Cloud, ve a la página Administrar recursos.
- En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
- En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.
Borra instancias
Para borrar una instancia de Compute Engine:
- En la consola de Google Cloud, ve a la página Instancias de VM.
-
Selecciona tu instancia
en la casilla de verificación de es la instancia que deseas borrar.
- Para borrar la instancia, haz clic en Más acciones, haz clic en Borrar y, luego, sigue las instrucciones.
Borra reglas de firewall para la red predeterminada
Para borrar una regla de firewall, haz lo siguiente:
- En la consola de Google Cloud, ve a la página Firewall.
- Selecciona la casilla de verificación para la regla de firewall que quieres borrar.
- Para borrar la regla de firewall, haz clic en Borrar.