Prueba los modelos de Gemini 1.5, nuestros modelos multimodales más recientes en Vertex AI y observa lo que puedes compilar con una ventana de contexto de 1 millón de tokens. Prueba los modelos de Gemini 1.5, nuestros modelos multimodales más recientes en Vertex AI y observa lo que puedes compilar con una ventana de contexto de 1 millón de tokens.

Mide y mejora la precisión

En esta guía de inicio rápido, aprenderás a medir y mejorar la exactitud de Google Cloud Speech-to-Text para tus datos de audio. También explora los diversos modelos y opciones disponibles en la API para mejorar la precisión de la transcripción. Explora cómo usar la IU de Speech-to-Text en Google Cloud Console y un archivo de verdad fundamental para medir la precisión y obtener estadísticas del sistema de Speech-to-Text.

Por su parte, los sistemas de aprendizaje automático (AA) están sujetos a errores, y los sistemas de reconocimiento de voz automático (ASR), también conocidos como sistemas de voz a texto, no son una excepción. La medición precisa de la precisión se relaciona estrechamente con los casos prácticos específicos y los sistemas que se evalúan, ya que las diferencias en la calidad de la grabación de audio y las condiciones acústicas pueden afectar significativamente la exactitud. Como resultado, una puntuación de precisión única para todos los clientes y casos prácticos no es práctica. Para garantizar un rendimiento confiable de los sistemas ASR en el rendimiento crítico de los sistemas orientados a la producción. También es esencial comprender el rendimiento de Speech-to-Text dentro del contexto más amplio de tu sistema.

Para los fines de esta guía de inicio rápido, usa el método estándar de la industria para comparar, Tasa de error de palabras (WER), que a menudo se abrevia como WER. Si deseas obtener más información para interpretar y calcular el WER, consulta Mide y mejora la precisión de la voz. Comencemos.

Comienza a usar la consola de Speech-to-Text

Permisos necesarios para esta tarea

Para hacer esta tarea, debes tener los siguientes permisos:

storage.buckets.get
storage.buckets.list

A nivel de proyecto o de bucket:

storage.objects.create
storage.objects.get
storage.objects.list
storage.objects.update

Asegúrate de haberte registrado en una cuenta de Google Cloud y creado un proyecto. 1. Ve a Speech en la consola de Google Cloud y navega a la IU de Speech-to-Text. 2. Con un archivo de audio que represente de forma alternativa tu caso práctico y cómo planeas usar el sistema ASR, sigue las instrucciones de la guía de inicio rápido para realizar tu primera transcripción mediante Speech-to-Text.

Calcula la exactitud de la transcripción

Una vez que hayas transcrito correctamente el archivo de audio, usa la sección Transcription Accuracy. Esta sección permanece vacía hasta que se calcule la exactitud para tu transcripción.
Puedes comenzar a calcular la exactitud con el botón Subir verdad fundamental que se encuentra en la parte superior de la sección.

Especifica la verdad fundamental

Para calcular la exactitud de la transcripción, proporciona un archivo de verdad fundamental. Este es un archivo .txt o .csv, por lo general, es un archivo de transcripción generado por personas que contiene las transcripciones correctas o esperadas para su comparación.
Usa gs://cloud-samples-data/speech/brooklyn_bridge.wav como ejemplo. El archivo de verdad fundamental contiene: How old is the Brooklyn Bridge. Si no tienes un archivo de verdad fundamental disponible, se recomienda descargar la transcripción en formato de texto. Edita el archivo de transcripción según sea necesario. Sube el archivo de transcripción como el archivo de verdad fundamental.
Con Subir o un archivo existente de Cloud Storage, especifica el archivo de verdad fundamental y haz clic en Guardar.

Confirma la verdad fundamental

Después de hacer clic en Guardar, aparecerá un mensaje para confirmar que el archivo de verdad fundamental especificado sea correcto. Verifica que el archivo de verdad fundamental represente con exactitud las transcripciones correctas, ya que afecta directamente las métricas de precisión.
Haz clic en Confirmar para continuar.

Revisa los resultados de la evaluación

Según el tamaño de los datos de entrada, el proceso de evaluación puede llevar un tiempo, y los resultados se muestran cuando se completan.
Una vez que se complete la evaluación, se mostrarán las siguientes secciones:
- La tabla Precisión de la transcripción, las métricas de precisión y un vínculo al archivo de verdad fundamental que se usó en el proceso.
- El Transcription con un botón de activación para comparar con el archivo de verdad fundamental, junto con un desglose de las métricas de precisión y aspectos destacados.
Revisa e interpreta los resultados de precisión para comprender el rendimiento del reconocedor de Speech-to-Text que se usa a fin de identificar las áreas que se deben mejorar, ya que varían según las entradas y las transcripciones que se usen. En los siguientes ejemplos, puedes ver casos indicativos de los resultados de precisión, que proporcionan estadísticas valiosas para la optimización del sistema de Google Cloud Speech-to-Text.
- Un ejemplo de WER del 0%:
- Un ejemplo de WER del 40%:

Opcional: actualiza la verdad fundamental

Para probar una verdad fundamental diferente con respecto a la transcripción existente, puedes volver a adjuntar un archivo diferente y repetir los pasos tres y cuatro con un archivo de verdad fundamental actualizado.

Pruébalo tú mismo

Si es la primera vez que usas Google Cloud, crea una cuenta para evaluar el rendimiento de Speech-to-Text en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.

Probar Speech-to-Text gratis