Transcribir voz a texto mediante la Google Cloud consola

Esta guía de inicio rápido te presenta la consola de Cloud Speech-to-Text. En esta guía de inicio rápido, crearás y refinarás una transcripción, y aprenderás a usar esta configuración con la API Speech-to-Text en tus propias aplicaciones.

Para saber cómo enviar solicitudes y recibir respuestas mediante la API REST en lugar de la consola, consulta la página Antes de empezar.

Antes de empezar

Antes de empezar a usar la consola de Speech-to-Text, debes habilitar la API en la consola de Google Cloud Platform. En los pasos que se indican a continuación, se explica cómo hacer lo siguiente:

  • Habilita Speech-to-Text en un proyecto.
  • Asegúrate de que la facturación esté habilitada en Speech-to-Text.

Configurar un Google Cloud proyecto

  1. Inicia sesión en la Google Cloud consola.

  2. Ir a la página del selector de proyectos

    Puedes elegir un proyecto que ya tengas o crear uno. Para obtener más información sobre cómo crear un proyecto, consulta la documentación de Google Cloud Platform.

  3. Si creas un proyecto, se te pedirá que vincules una cuenta de facturación a él. Si usas un proyecto que ya existe, asegúrate de que la facturación esté habilitada.

    Consulta cómo confirmar que la facturación está habilitada en tu proyecto.

  4. Una vez que hayas seleccionado un proyecto y lo hayas vinculado a una cuenta de facturación, podrás habilitar la API Speech-to-Text. Ve a la barra Buscar productos y recursos, situada en la parte superior de la página, y escribe "voz".

  5. Selecciona la API Cloud Speech-to-Text en la lista de resultados.

  6. Para probar Speech-to-Text sin vincularlo a tu proyecto, elige la opción PROBAR ESTA API. Para habilitar la API Speech-to-Text en tu proyecto, haz clic en HABILITAR.

Roles obligatorios

Para obtener los permisos que necesitas para crear una transcripción, pide a tu administrador que te conceda el rol de gestión de identidades y accesos Administrador de Storage (roles/storage.admin) en tu proyecto. Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.

Este rol predefinido contiene los permisos necesarios para crear una transcripción. Para ver los permisos exactos que se necesitan, despliega la sección Permisos necesarios:

Permisos obligatorios

Para crear una transcripción, se necesitan los siguientes permisos:

  • storage.buckets.get
  • storage.buckets.list
  • storage.buckets.update
  • A nivel de proyecto o de segmento:
    • storage.objects.create
    • storage.objects.delete
    • storage.objects.get
    • storage.objects.list
    • storage.objects.update

También puedes obtener estos permisos con roles personalizados u otros roles predefinidos.

Crear una transcripción

Usa la consola Google Cloud para crear una transcripción.

Configuración de audio

  1. Abre la vista general de Speech-to-Text.

    Captura de pantalla de la página de descripción general de Speech-to-Text.

  2. Haz clic en Crear transcripción.

    • Si es la primera vez que usas la consola, se te pedirá que elijas dónde quieres almacenar tus configuraciones y transcripciones en Cloud Storage.
      Captura de pantalla de la página Crear transcripción de Speech-to-Text.
  3. En la página Crear transcripción, sube un archivo de audio de origen. Puedes elegir un archivo que ya esté guardado en Cloud Storage o subir uno nuevo al destino de Cloud Storage que hayas especificado.

  4. Selecciona el tipo de codificación del archivo de audio subido.

  5. Especifica su frecuencia de muestreo.

  6. Haz clic en Continuar. Se te dirigirá a Opciones de transcripción.

Opciones de transcripción

  1. Selecciona el código de idioma del audio de origen. Es el idioma que se habla en la grabación.

  2. Elige el modelo de transcripción que quieras usar en el archivo. La opción Predeterminada está seleccionada de forma predeterminada y, por lo general, no es necesario cambiarla, pero si el modelo coincide con el tipo de audio, la precisión puede ser mayor. Ten en cuenta que los costes de los modelos varían.

    Captura de pantalla de la página Crear transcripción de Speech-to-Text.

  3. Haz clic en Continuar. Se te dirigirá a Adaptación de modelos.

Adaptación del modelo (opcional)

Si el audio de origen contiene palabras poco comunes, nombres propios o términos específicos y tienes problemas con el reconocimiento, la adaptación del modelo puede ayudarte.

  1. Marca Activar la adaptación del modelo.

  2. Elige Recurso de adaptación único.

  3. Añade frases relevantes y asígnales un valor de refuerzo.

    Captura de pantalla de la página Crear transcripción de Speech-to-Text.

  4. En la columna de la izquierda, haz clic en Enviar para crear la transcripción.

Revisar la transcripción

En función del tamaño del archivo de audio, la transcripción puede tardar entre unos minutos y varias horas en crearse. Una vez que se haya creado la transcripción, estará lista para revisarse. Ordenar la tabla por marca de tiempo puede ayudarte a localizar fácilmente tus transcripciones recientes.

  1. Haga clic en el Nombre de la transcripción que quiera revisar.

    Captura de pantalla de la página Lista de transcripciones de voz a texto.
  2. Compara el texto de la transcripción con el archivo de audio

    Captura de pantalla de la página Lista de transcripciones de voz a texto.
  3. Si quieres hacer cambios, haz clic en Reutilizar configuración. Se te dirigirá al flujo Crear transcripción con las mismas opciones preseleccionadas, lo que te permitirá cambiar algunos aspectos, crear una nueva transcripción y comparar los resultados.

Siguientes pasos