En esta página, se demuestra cómo transcribir un archivo de audio corto a texto con el reconocimiento de voz síncrono.
El Reconocimiento de voz síncrono muestra el texto reconocido de un audio corto (menos de 1 minuto) en la respuesta en cuanto se procesa. Para procesar una solicitud de reconocimiento de voz de un audio largo, usa el Reconocimiento de voz asíncrono.
El contenido del audio se puede enviar directamente a Speech-to-Text o se puede procesar contenido de audio que ya se encuentre en Google Cloud Storage. Consulta también los límites de audio para las solicitudes de reconocimiento de voz síncronas.
Realiza reconocimiento de voz síncrono en un archivo local
El siguiente es un ejemplo de cómo realizar un reconocimiento de voz síncrono en un archivo de audio local:
Protocolo
Consulta el extremo de la API de speech:recognize
para obtener los detalles completos.
Para realizar un reconocimiento de voz síncrono, haz una solicitud POST
y proporciona el cuerpo de la solicitud apropiado. A continuación, se muestra un ejemplo de una solicitud POST
con curl
. En el ejemplo, se utiliza el token de acceso correspondiente a la configuración de una cuenta de servicio para el proyecto con el SDK de Cloud de Google Cloud. Si deseas obtener instrucciones para instalar el SDK de Cloud, configurar un proyecto con una cuenta de servicio y conseguir un token de acceso, consulta la guía de inicio rápido.
curl -X POST \ -H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \ -H "Content-Type: application/json; charset=utf-8" \ --data "{ 'config': { 'encoding': 'LINEAR16', 'sampleRateHertz': 16000, 'languageCode': 'en-US', 'enableWordTimeOffsets': false }, 'audio': { 'content': '/9j/7QBEUGhvdG9zaG9...base64-encoded-audio-content...fXNWzvDEeYxxxzj/Coa6Bax//Z' } }" "https://speech.googleapis.com/v1/speech:recognize"
Consulta la documentación de referencia de RecognitionConfig para obtener más información sobre cómo configurar el cuerpo de la solicitud.
El contenido de audio suministrado en el cuerpo de la solicitud está codificado en Base64.
Para obtener más información sobre cómo codificar audio en Base64, consulta Contenido de audio con codificación Base64. Para obtener más información sobre el campo content
, consulta RecognitionAudio.
Si la solicitud se completa correctamente, el servidor muestra un código de estado HTTP 200 OK
y la respuesta en formato JSON:
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
gcloud
Consulta el comando recognize
para obtener los detalles completos.
Para realizar el reconocimiento de voz en un archivo local, usa la herramienta de línea de comandos gcloud
y pasa la ruta local del archivo a fin de realizar el reconocimiento de voz.
gcloud ml speech recognize PATH-TO-LOCAL-FILE --language-code='en-US'
Si la solicitud es exitosa, el servidor muestra una respuesta en formato JSON:
{ "results": [ { "alternatives": [ { "confidence": 0.9840146, "transcript": "how old is the Brooklyn Bridge" } ] } ] }
C#
Go
Java
Node.js
PHP
Python
Ruby
Realiza reconocimiento de voz síncrono en un archivo remoto
Para mayor comodidad, la API de Speech-to-Text puede realizar el reconocimiento de voz síncrono directamente en un archivo de audio ubicado en Google Cloud Storage sin necesidad de enviar el contenido del archivo de audio en el cuerpo de tu solicitud.
El siguiente es un ejemplo de cómo realizar un reconocimiento de voz síncrono en un archivo ubicado en Cloud Storage.
Protocolo
Consulta el extremo de la API de speech:recognize
para obtener los detalles completos.
Para realizar un reconocimiento de voz síncrono, haz una solicitud POST
y proporciona el cuerpo de la solicitud apropiado. A continuación, se muestra un ejemplo de una solicitud POST
con curl
. En el ejemplo, se utiliza el token de acceso correspondiente a la configuración de una cuenta de servicio para el proyecto con el SDK de Cloud de Google Cloud. Si deseas obtener instrucciones para instalar el SDK de Cloud, configurar un proyecto con una cuenta de servicio y conseguir un token de acceso, consulta la guía de inicio rápido.
curl -X POST -H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \ -H "Content-Type: application/json; charset=utf-8" \ --data "{ 'config': { 'encoding': 'LINEAR16', 'sampleRateHertz': 16000, 'languageCode': 'en-US' }, 'audio': { 'uri': 'gs://YOUR_BUCKET_NAME/YOUR_FILE_NAME' } }" "https://speech.googleapis.com/v1/speech:recognize"
Consulta la documentación de referencia de RecognitionConfig para obtener más información sobre cómo configurar el cuerpo de la solicitud.
Si la solicitud se completa correctamente, el servidor muestra un código de estado HTTP 200 OK
y la respuesta en formato JSON:
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
gcloud
Consulta el comando recognize
para obtener los detalles completos.
Para realizar el reconocimiento de voz en un archivo local, usa la herramienta de línea de comandos gcloud
y pasa la ruta local del archivo a fin de realizar el reconocimiento de voz.
gcloud ml speech recognize 'gs://cloud-samples-tests/speech/brooklyn.flac' \ --language-code='en-US'
Si la solicitud es exitosa, el servidor muestra una respuesta en formato JSON:
{ "results": [ { "alternatives": [ { "confidence": 0.9840146, "transcript": "how old is the Brooklyn Bridge" } ] } ] }
C#
Go
Java
Node.js
PHP
Ruby