Guía de inicio rápido: Usa la herramienta de gcloud

En esta página, se muestra cómo enviar una solicitud de reconocimiento de voz a Speech-to-Text con la herramienta de gcloud desde la línea de comandos.

Con Speech-to-Text, se puede realizar una integración sencilla de las tecnologías de reconocimiento de voz de Google en las aplicaciones de los desarrolladores. Puedes enviar datos de audio a la API de Speech-to-Text que, a su vez, muestra una transcripción de texto de ese archivo de audio. Para obtener más información sobre el servicio, consulta Conceptos básicos de Speech-to-Text.

Antes de comenzar

  1. Accede a tu Cuenta de Google.

    Si todavía no tienes una cuenta, regístrate para obtener una nueva.

  2. Configura un proyecto de Cloud Console.

    Configurar un proyecto

    Haz clic para realizar alguna de las siguientes acciones:

    • Crea o selecciona un proyecto.
    • Habilita la API de Speech-to-Text para ese proyecto.
    • Crea una cuenta de servicio.
    • Descargar una clave privada como JSON

    Puedes ver y administrar estos recursos en cualquier momento desde Cloud Console.

  3. Configura la variable de entorno GOOGLE_APPLICATION_CREDENTIALS en la ruta del archivo JSON que contiene la clave de tu cuenta de servicio. Esta variable solo se aplica a la sesión actual de shell. Por lo tanto, si abres una sesión nueva, deberás volver a configurar la variable.

  4. Instala e inicializa el SDK de Cloud.

Realiza una solicitud de transcripción de audio

Ahora puedes usar Speech-to-Text para transcribir un archivo de audio a texto. Usa la siguiente muestra de código para enviar una solicitud de recognize a la API de Speech-to-Text.

Abre el shell de línea de comandos y ejecuta el comando que se indica a continuación.

gcloud ml speech recognize gs://cloud-samples-tests/speech/brooklyn.flac \
    --language-code=en-US

Con este comando, se envía una solicitud para que se transcriba el audio de un FLAC alojado en una ubicación de acceso público mediante Speech-to-Text.

Si la solicitud es exitosa, el servidor muestra una respuesta en formato JSON:

{
  "results": [
    {
      "alternatives": [
        {
          "confidence": 0.9840146,
          "transcript": "how old is the Brooklyn Bridge"
        }
      ]
    }
  ]
}

Felicitaciones Enviaste tu primera solicitud a Speech-to-Text.

Si recibes un error o una respuesta vacía de Speech-to-Text, consulta los pasos de Solución de problemas y Mensajes de error.

Qué sigue