En esta página, se muestra cómo enviar una solicitud de reconocimiento de voz a Speech-to-Text con la herramienta de gcloud
desde la línea de comandos.
Con Speech-to-Text, se puede realizar una integración sencilla de las tecnologías de reconocimiento de voz de Google en las aplicaciones de los desarrolladores. Puedes enviar datos de audio a la API de Speech-to-Text que, a su vez, muestra una transcripción de texto de ese archivo de audio. Para obtener más información sobre el servicio, consulta Conceptos básicos de Speech-to-Text.
Antes de comenzar
- Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
- Configura un proyecto de Cloud Console.
Haz clic para realizar alguna de las siguientes acciones:
- Crea o selecciona un proyecto.
- Habilita la API de Speech-to-Text para ese proyecto.
- Crea una cuenta de servicio.
- Descargar una clave privada como JSON
Puedes ver y administrar estos recursos en cualquier momento desde Cloud Console.
-
Configura la variable de entorno
GOOGLE_APPLICATION_CREDENTIALS
en la ruta del archivo JSON que contiene la clave de tu cuenta de servicio. Esta variable solo se aplica a la sesión actual de shell. Por lo tanto, si abres una sesión nueva, deberás volver a configurar la variable. - Instala e inicializa el SDK de Cloud.
Realiza una solicitud de transcripción de audio
Ahora puedes usar Speech-to-Text para transcribir un archivo de audio a texto. Usa la siguiente muestra de código para enviar una solicitud de recognize
a la API de Speech-to-Text.
Abre el shell de línea de comandos y ejecuta el siguiente comando.
gcloud ml speech recognize gs://cloud-samples-tests/speech/brooklyn.flac \ --language-code=en-US
Con este comando, se envía una solicitud para que se transcriba el audio de un FLAC alojado en una ubicación de acceso público mediante Speech-to-Text.
Si la solicitud es exitosa, el servidor muestra una respuesta en formato JSON:
{ "results": [ { "alternatives": [ { "confidence": 0.9840146, "transcript": "how old is the Brooklyn Bridge" } ] } ] }
Felicitaciones Enviaste tu primera solicitud a Speech-to-Text.
Si recibes un error o una respuesta vacía de Speech-to-Text, consulta los pasos de Solución de problemas y Mensajes de error.
¿Qué sigue?
- Practica transcribir archivos de audio cortos.
- Aprende a agrupar archivos de audio largos para reconocimiento de voz.
- Aprende a transcribir audio con transmisión continua como, por ejemplo, desde un micrófono.
- Comienza a usar Speech-to-Text en el idioma de tu preferencia mediante una biblioteca cliente de Speech-to-Text.
- Trabaja con las aplicaciones de muestra.
- Para mejorar el rendimiento y la exactitud, así como ver otras sugerencias, consulta la documentación de prácticas recomendadas.