En esta página, se describe cómo usar un modelo de aprendizaje automático específico para las solicitudes de transcripción de audio a Speech-to-Text.
Modelos de transcripción
Speech-to-Text detecta palabras en un clip de audio mediante la comparación de los datos de entrada en uno de muchos modelos de aprendizaje automático. Cada modelo se ha entrenado mediante el análisis de millones de ejemplos, en este caso, muchísimas grabaciones de audio de personas hablando.
En Speech-to-Text, hay modelos especializados entrenados con audio proveniente de fuentes específicas, como llamadas telefónicas o videos. Debido a este proceso de entrenamiento, estos modelos especializados brindan mejores resultados cuando se aplican a tipos similares de datos de audio.
Por ejemplo, Speech-to-Text tiene un modelo de transcripción entrenado para reconocer la voz capturada en un teléfono. Cuando Speech-to-Text usa el modelo telephony
o telephony_short
para transcribir el audio del teléfono, produce resultados de transcripción más precisos que si se transcribiera audio del teléfono usando los modelos latest_short
o latest_long
.
En la siguiente tabla, se muestran los modelos de transcripción disponibles para usar con Speech-to-Text.
Nombre del modelo | Descripción |
---|---|
latest_long |
Usa este modelo para cualquier tipo de contenido de formato largo, como el contenido multimedia o las conversaciones espontáneas. Considera usar este modelo en lugar del modelo de video, en especial si el modelo de video no está disponible en tu idioma objetivo. También puedes usar esto en lugar del modelo predeterminado. |
latest_short |
Usa este modelo para expresiones cortas que duran pocos segundos. Es útil para intentar capturar comandos u otro caso de uso de expresiones únicas de voz dirigida. Considera usar este modelo en lugar del modelo de comando y búsqueda. |
telephony |
Es una versión mejorada del modelo "phone_call", que es mejor para audios que provienen de una llamada telefónica, generalmente grabada con una tasa de muestreo de 8 kHz. |
telephony_short |
Es una versión dedicada del modelo moderno de "telefonía" para enunciados cortos o incluso de una sola palabra para audio que se originó a partir de una llamada telefónica, que generalmente se graba con una tasa de muestreo de 8 kHz. |
medical_dictation |
Usa este modelo para transcribir notas dictadas por un profesional médico.
Este es un modelo premium que cuesta más que la tarifa estándar. Consulta la página de precios para obtener más detalles. |
medical_conversation |
Usa este modelo para transcribir una conversación entre un profesional de la salud y un paciente.
Este es un modelo Premium que cuesta más que la tarifa estándar. Consulta la página de precios y obtén más información. |
Los siguientes modelos se basan principalmente en arquitecturas clásicas no conformes y se conservan principalmente por motivos de compatibilidad con versiones anteriores y heredados. | |
command_and_search |
La mejor opción para expresiones cortas o de una sola palabra, como comandos por voz o búsqueda por voz. |
default |
La mejor opción para los audios no incluidos en los demás modelos, como audios largos y dictados. El modelo predeterminado producirá resultados de transcripciones para cualquier tipo de audio, incluidos audios como clips de video que tengan un modelo separado adaptado específicamente a él. Sin embargo, es probable que reconocer audio de clip de video con el modelo predeterminado genere resultados de menor calidad que con el modelo de video. Idealmente, este audio es de alta fidelidad y está grabado con una tasa de muestreo de 16 khz o superior. |
phone_call |
La mejor opción para audios que pertenecen a una llamada telefónica (en general, grabada con una tasa de muestreo de 8 kHz). |
video |
La mejor opción para audios de clips de video y otras fuentes (como podcasts) que tienen varios interlocutores. Este modelo también suele ser la mejor opción para audio que se grabó con un micrófono de alta calidad o que tiene mucho ruido de fondo. Para obtener los mejores resultados, proporciona audio grabado a 16,000 Hz o con una tasa de muestreo mayor. |
Selecciona un modelo para la transcripción de audio
Para especificar un modelo determinado para la transcripción de audio, debes configurar el campo model
con uno de los valores permitidos (latest_long
, latest_short
, telephony
o telephony_short
) en los parámetros RecognitionConfig
de la solicitud.
En Speech-to-Text, se admite la selección de modelos para todos los métodos de reconocimiento de voz: speech:recognize
, speech:longrunningrecognize
y transmisión.
Realiza la transcripción de un archivo de audio local
Protocolo
Consulta el extremo de la API de speech:recognize
para obtener todos los detalles.
Para realizar un reconocimiento de voz síncrono, haz una solicitud POST
y proporciona el cuerpo de la solicitud apropiado. A continuación, se muestra un ejemplo de una solicitud POST
con curl
. En el ejemplo, se usa Google Cloud CLI para generar un token
de acceso. Para obtener instrucciones sobre cómo instalar gcloud CLI,
consulta la guía de inicio rápido.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "sampleRateHertz": 16000, "languageCode": "en-US", "model": "video" }, "audio": { "uri": "gs://cloud-samples-tests/speech/Google_Gnome.wav" } }'
Consulta la documentación de referencia de RecognitionConfig
para obtener más información sobre la configuración del cuerpo de la solicitud.
Si la solicitud se realiza correctamente, el servidor muestra un código de estado HTTP 200 OK
y la respuesta en formato JSON:
{ "results": [ { "alternatives": [ { "transcript": "OK Google stream stranger things from Netflix to my TV okay stranger things from Netflix playing on TV from the people that brought you Google home comes the next evolution of the smart home and it's just outside your window me Google know hi how can I help okay no what's the weather like outside the weather outside is sunny and 76 degrees he's right okay no turn on the hose I'm holding sure okay no I'm can I eat this lemon tree leaf yes what about this Daisy yes but I wouldn't recommend it but I could eat it okay Nomad milk to my shopping list I'm sorry that sounds like an indoor request I keep doing that sorry you do keep doing that okay no is this compost really we're all compost if you think about it pretty much everything is made up of organic matter and will return", "confidence": 0.9251011 } ] } ] }
Go
Para obtener información sobre cómo instalar y usar la biblioteca cliente de Speech-to-Text, consulta las bibliotecas cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API de Speech-to-Text de Go.
Para autenticar en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Java
Para obtener información sobre cómo instalar y usar la biblioteca cliente de Speech-to-Text, consulta las bibliotecas cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API de Speech-to-Text de Java.
Para autenticar en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Node.js
Para obtener información sobre cómo instalar y usar la biblioteca cliente de Speech-to-Text, consulta las bibliotecas cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API de Speech-to-Text de Node.js.
Para autenticar en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Python
Para obtener información sobre cómo instalar y usar la biblioteca cliente de Speech-to-Text, consulta las bibliotecas cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API de Speech-to-Text de Python.
Para autenticar en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Idiomas adicionales
C#: Sigue las instrucciones de configuración de C# en la página de bibliotecas cliente y, luego, visita la documentación de referencia de Speech-to-Text para .NET
PHP: Sigue las instrucciones de configuración de PHP en la página de bibliotecas cliente y, luego, visita la documentación de referencia de Speech-to-Text para PHP.
Ruby: Sigue las instrucciones de configuración de Ruby en la página Bibliotecas cliente y, luego, visita la documentación de referencia de Speech-to-Text para Ruby.
Realiza la transcripción de un archivo de audio de Google Cloud Storage
Go
Para obtener información sobre cómo instalar y usar la biblioteca cliente de Speech-to-Text, consulta las bibliotecas cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API de Speech-to-Text de Go.
Para autenticar en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Java
Para obtener información sobre cómo instalar y usar la biblioteca cliente de Speech-to-Text, consulta las bibliotecas cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API de Speech-to-Text de Java.
Para autenticar en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Node.js
Para obtener información sobre cómo instalar y usar la biblioteca cliente de Speech-to-Text, consulta las bibliotecas cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API de Speech-to-Text de Node.js.
Para autenticar en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Idiomas adicionales
C#: Sigue las instrucciones de configuración de C# en la página de bibliotecas cliente y, luego, visita la documentación de referencia de Speech-to-Text para .NET
PHP: Sigue las instrucciones de configuración de PHP en la página de bibliotecas cliente y, luego, visita la documentación de referencia de Speech-to-Text para PHP.
Ruby: Sigue las instrucciones de configuración de Ruby en la página Bibliotecas cliente y, luego, visita la documentación de referencia de Speech-to-Text para Ruby.