Transcribir voz a texto mediante la Google Cloud consola
Esta guía de inicio rápido te presenta la consola de Cloud Speech-to-Text. En esta guía de inicio rápido, crearás y refinarás una transcripción, y aprenderás a usar esta configuración con la API Speech-to-Text en tus propias aplicaciones.
Para saber cómo enviar solicitudes y recibir respuestas mediante la API REST en lugar de la consola, consulta la página Antes de empezar.
Antes de empezar
Antes de empezar a usar la consola de Speech-to-Text, debes habilitar la API en la consola de Google Cloud Platform. En los pasos que se indican a continuación, se explica cómo hacer lo siguiente:
- Habilita Speech-to-Text en un proyecto.
- Asegúrate de que la facturación esté habilitada en Speech-to-Text.
Configurar un Google Cloud proyecto
Ir a la página del selector de proyectos
Puedes elegir un proyecto que ya tengas o crear uno. Para obtener más información sobre cómo crear un proyecto, consulta la documentación de Google Cloud Platform.
Si creas un proyecto, se te pedirá que vincules una cuenta de facturación a él. Si usas un proyecto que ya existe, asegúrate de que la facturación esté habilitada.
Consulta cómo confirmar que la facturación está habilitada en tu proyecto.
Una vez que hayas seleccionado un proyecto y lo hayas vinculado a una cuenta de facturación, podrás habilitar la API Speech-to-Text. Ve a la barra Buscar productos y recursos, situada en la parte superior de la página, y escribe "voz".
Selecciona la API Cloud Speech-to-Text en la lista de resultados.
Para probar Speech-to-Text sin vincularlo a tu proyecto, elige la opción PROBAR ESTA API. Para habilitar la API Speech-to-Text en tu proyecto, haz clic en HABILITAR.
Roles obligatorios
Para obtener los permisos que necesitas para crear una transcripción, pide a tu administrador que te conceda el rol de gestión de identidades y accesos Administrador de Storage (roles/storage.admin
) en tu proyecto.
Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.
Este rol predefinido contiene los permisos necesarios para crear una transcripción. Para ver los permisos exactos que se necesitan, despliega la sección Permisos necesarios:
Permisos obligatorios
Para crear una transcripción, se necesitan los siguientes permisos:
-
storage.buckets.get
-
storage.buckets.list
-
storage.buckets.update
-
A nivel de proyecto o de segmento:
-
storage.objects.create
-
storage.objects.delete
-
storage.objects.get
-
storage.objects.list
-
storage.objects.update
-
También puedes obtener estos permisos con roles personalizados u otros roles predefinidos.
Crear una transcripción
Usa la consola Google Cloud para crear una transcripción.
Configuración de audio
Abre la vista general de Speech-to-Text.
Haz clic en Crear transcripción.
- Si es la primera vez que usas la consola, se te pedirá que elijas dónde quieres almacenar tus configuraciones y transcripciones en Cloud Storage.
- Si es la primera vez que usas la consola, se te pedirá que elijas dónde quieres almacenar tus configuraciones y transcripciones en Cloud Storage.
En la página Crear transcripción, sube un archivo de audio de origen. Puedes elegir un archivo que ya esté guardado en Cloud Storage o subir uno nuevo al destino de Cloud Storage que hayas especificado.
Selecciona el tipo de codificación del archivo de audio subido.
Especifica su frecuencia de muestreo.
Haz clic en Continuar. Se te dirigirá a Opciones de transcripción.
Opciones de transcripción
Selecciona el código de idioma del audio de origen. Es el idioma que se habla en la grabación.
Elige el modelo de transcripción que quieras usar en el archivo. La opción Predeterminada está seleccionada de forma predeterminada y, por lo general, no es necesario cambiarla, pero si el modelo coincide con el tipo de audio, la precisión puede ser mayor. Ten en cuenta que los costes de los modelos varían.
Haz clic en Continuar. Se te dirigirá a Adaptación de modelos.
Adaptación del modelo (opcional)
Si el audio de origen contiene palabras poco comunes, nombres propios o términos específicos y tienes problemas con el reconocimiento, la adaptación del modelo puede ayudarte.
Marca Activar la adaptación del modelo.
Elige Recurso de adaptación único.
Añade frases relevantes y asígnales un valor de refuerzo.
En la columna de la izquierda, haz clic en Enviar para crear la transcripción.
Revisar la transcripción
En función del tamaño del archivo de audio, la transcripción puede tardar entre unos minutos y varias horas en crearse. Una vez que se haya creado la transcripción, estará lista para revisarse. Ordenar la tabla por marca de tiempo puede ayudarte a localizar fácilmente tus transcripciones recientes.
Haga clic en el Nombre de la transcripción que quiera revisar.
Compara el texto de la transcripción con el archivo de audio
Si quieres hacer cambios, haz clic en Reutilizar configuración. Se te dirigirá al flujo Crear transcripción con las mismas opciones preseleccionadas, lo que te permitirá cambiar algunos aspectos, crear una nueva transcripción y comparar los resultados.
Siguientes pasos
- Practica la transcripción de archivos de audio cortos.
- Consulta cómo procesar por lotes archivos de audio largos para el reconocimiento de voz.
- Consulta cómo transcribir audio en streaming, como el de un micrófono.
- Empieza a usar Speech-to-Text en el idioma que elijas con una biblioteca de cliente de Speech-to-Text.
- Consulta las aplicaciones de ejemplo.
- Para obtener el mejor rendimiento, precisión y otros consejos, consulta la documentación sobre prácticas recomendadas.