Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
Usa la funcionalidad de comparativas de la consola de Cloud Speech-to-Text para medir la exactitud de cualquiera de los modelos de transcripción que se usan en la API de Speech-to-Text V2.
La consola de Cloud Speech-to-Text proporciona comparativas visuales para los modelos previamente entrenados y personalizados de Speech-to-Text. Puedes inspeccionar la calidad del reconocimiento mediante la comparación de las métricas de evaluación de la tasa de errores de palabras (WER) en varios modelos de transcripción para ayudarte a decidir qué modelo se adapta mejor a tu aplicación.
Antes de comenzar
Asegúrate de haberte registrado en una cuenta de Google Cloud , de haber creado un proyecto y de haber entrenado un modelo de voz personalizado y haberlo implementado con un extremo.
Crea un conjunto de datos de verdad fundamental
Para crear un conjunto de datos de comparativas personalizado, recopila muestras de audio que reflejen con precisión el tipo de tráfico que el modelo de transcripción encontrará en un entorno de producción. Lo ideal es que la duración total de estos archivos de audio abarque un mínimo de 30 minutos y no supere las 10 horas. Para ensamblar el conjunto de datos, necesitarás lo siguiente:
Crea un directorio en un bucket de Cloud Storage de tu elección para almacenar los archivos de audio y texto del conjunto de datos.
Para cada archivo de audio en el conjunto de datos, crea transcripciones razonablemente precisas. Para cada archivo de audio (como example_audio_1.wav), se debe crear el archivo de texto de verdad fundamental correspondiente (example_audio_1.txt). Este servicio usa estas vinculaciones de audio y texto en un bucket de Cloud Storage para ensamblar el conjunto de datos.
Compara el modelo
Con el modelo personalizado de Speech-to-Text y el conjunto de datos de comparativas para evaluar la exactitud de tu modelo, sigue la Guía de medición y mejora de la exactitud.
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-09-09 (UTC)"],[],[],null,["# Evaluate models\n\n| **Preview**\n|\n|\n| This feature is subject to the \"Pre-GA Offerings Terms\" in the General Service Terms section\n| of the [Service Specific Terms](/terms/service-terms#1).\n|\n| Pre-GA features are available \"as is\" and might have limited support.\n|\n| For more information, see the\n| [launch stage descriptions](/products#product-launch-stages).\n\nUse the benchmarking functionality of the Cloud Speech-to-Text Console to measure the accuracy of any of the [transcription models](/speech-to-text/v2/docs/transcription-model) used in the Speech-to-Text V2 API.\n\nCloud Speech-to-Text Console provides visual benchmarking for pre-trained and Custom Speech-to-Text models. You can inspect the recognition quality by comparing Word-Error-Rate (WER) evaluation metrics across multiple transcription models to help you decide which model best fits your application.\n\nBefore you begin\n----------------\n\nEnsure you have signed up for a Google Cloud account, created a project, trained a custom speech model, and deployed using an endpoint.\n\nCreate a ground-truth dataset\n-----------------------------\n\nTo create a custom benchmarking dataset, gather audio samples that accurately reflect the type of traffic the transcription model will encounter in a production environment. The aggregate duration of these audio files should ideally span a minimum of 30 minutes and not exceed 10 hours. To assemble the dataset, you will need to:\n\n1. Create a directory in a Cloud Storage bucket of your choice to store the audio and text files for the dataset.\n2. For every audio-file in the dataset, create reasonably accurate transcriptions. For each audio file (such as `example_audio_1.wav`), a corresponding ground-truth text file (`example_audio_1.txt`) must be created. This service uses these audio-text pairings in a Cloud Storage bucket to assemble the dataset.\n\nBenchmark the model\n-------------------\n\nUsing the Custom Speech-to-Text model and your benchmarking dataset to assess the accuracy of your model, follow the [Measure and improve accuracy guide](/speech-to-text/docs/measure-accuracy)."]]