Transcribe la voz a texto con la línea de comandos

En esta página, se muestra cómo enviar una solicitud de reconocimiento de voz a Speech-to-Text mediante la interfaz de REST y el comando curl.

Con Speech-to-Text, se puede realizar una integración sencilla de las tecnologías de reconocimiento de voz de Google en las aplicaciones de los desarrolladores. Puedes enviar datos de audio a la API de Speech-to-Text que, a su vez, muestra una transcripción de texto de ese archivo de audio. Para obtener más información sobre el servicio, consulta Conceptos básicos de Speech-to-Text.

Antes de comenzar

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  4. Enable the Speech-to-Text APIs.

    Enable the APIs

  5. Make sure that you have the following role or roles on the project: Cloud Speech Administrator

    Check for the roles

    1. In the Google Cloud console, go to the IAM page.

      Go to IAM
    2. Select the project.
    3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.

    4. For all rows that specify or include you, check the Role colunn to see whether the list of roles includes the required roles.

    Grant the roles

    1. In the Google Cloud console, go to the IAM page.

      Ir a IAM
    2. Selecciona el proyecto.
    3. Haz clic en Grant access.
    4. En el campo Principales nuevas, ingresa tu identificador de usuario. Esta suele ser la dirección de correo electrónico de una Cuenta de Google.

    5. En la lista Seleccionar un rol, elige un rol.
    6. Para otorgar funciones adicionales, haz clic en Agregar otro rol y agrega cada rol adicional.
    7. Haz clic en Guardar.
    8. Install the Google Cloud CLI.
    9. To initialize the gcloud CLI, run the following command:

      gcloud init
    10. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Go to project selector

    11. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

    12. Enable the Speech-to-Text APIs.

      Enable the APIs

    13. Make sure that you have the following role or roles on the project: Cloud Speech Administrator

      Check for the roles

      1. In the Google Cloud console, go to the IAM page.

        Go to IAM
      2. Select the project.
      3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.

      4. For all rows that specify or include you, check the Role colunn to see whether the list of roles includes the required roles.

      Grant the roles

      1. In the Google Cloud console, go to the IAM page.

        Ir a IAM
      2. Selecciona el proyecto.
      3. Haz clic en Grant access.
      4. En el campo Principales nuevas, ingresa tu identificador de usuario. Esta suele ser la dirección de correo electrónico de una Cuenta de Google.

      5. En la lista Seleccionar un rol, elige un rol.
      6. Para otorgar funciones adicionales, haz clic en Agregar otro rol y agrega cada rol adicional.
      7. Haz clic en Guardar.
      8. Install the Google Cloud CLI.
      9. To initialize the gcloud CLI, run the following command:

        gcloud init

      Realiza una solicitud de transcripción de audio

      Usa la siguiente muestra de código para enviar una solicitud de REST recognize a la API de Speech-to-Text.

      1. Ejecuta este comando para crear un archivo JSON como entrada para la solicitud. Reemplaza /full/path/to/audio/file.wav por la ruta de acceso al archivo de audio que deseas transcribir:

        echo "{
          \"config\": {
            \"auto_decoding_config\": {},
            \"language_codes\": [\"en-US\"],
            \"model\": \"long\"
          },
          \"content\": \"$(base64 -w 0 /full/path/to/audio/file.wav | sed 's/+/-/g; s/\//_/g')\"
        }" > /tmp/data.txt
        
      2. Usa curl para realizar una solicitud recognize:

        curl -X POST -H "Content-Type: application/json; charset=utf-8" \
            -H "Authorization: Bearer $(gcloud auth print-access-token)" \
            -d @/tmp/data.txt \
            https://speech.googleapis.com/v2/projects/PROJECT_ID/locations/global/recognizers/_:recognize
        

        Debería ver una respuesta similar a la siguiente:

          {
            "results": [
              {
                "alternatives": [
                  {
                    "transcript": "how old is the Brooklyn Bridge",
                    "confidence": 0.98267895
                  }
                ]
              }
            ]
          }
        

      Enviaste tu primera solicitud a Speech-to-Text.

      Limpia

      Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.

      1. Optional: Revoke the authentication credentials that you created, and delete the local credential file.

        gcloud auth application-default revoke
      2. Optional: Revoke credentials from the gcloud CLI.

        gcloud auth revoke

      Consola

    14. En la consola de Google Cloud, ve a la página Administrar recursos.

      Ir a Administrar recursos

    15. En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
    16. En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.
    17. gcloud

      Borra un proyecto de Google Cloud:

      gcloud projects delete PROJECT_ID

      ¿Qué sigue?