Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Utilisez la fonctionnalité d'analyse comparative de la console Cloud Speech-to-Text pour mesurer la précision de n'importe quel modèle de transcription utilisé dans l'API Speech-to-Text V2.
La console Cloud Speech-to-Text fournit une analyse comparative visuelle des modèles Speech-to-Text pré-entraînés et personnalisés. Vous pouvez inspecter la qualité de la reconnaissance en comparant les métriques d'évaluation du taux d'erreurs par mot (WER) de plusieurs modèles de transcription pour vous aider à choisir celui qui convient le mieux à votre application.
Avant de commencer
Assurez-vous d'avoir créé un compte Google Cloud , un projet, entraîné un modèle de reconnaissance vocale personnalisé et déployé à l'aide d'un point de terminaison.
Créer un ensemble de données de vérité terrain
Pour créer un ensemble de données de benchmarking personnalisé, rassemblez des échantillons audio qui reflètent avec précision le type de trafic que le modèle de transcription rencontrer dans un environnement de production. Idéalement, la durée totale de ces fichiers audio doit être d'au moins 30 minutes et ne pas dépasser 10 heures. Pour assembler l'ensemble de données, vous devez :
Créer un répertoire dans le bucket Cloud Storage de votre choix pour stocker les fichiers audio et texte de l'ensemble de données.
Pour chaque fichier audio de l'ensemble de données, créer des transcriptions raisonnablement précises. Un fichier texte de vérité terrain correspondant (example_audio_1.txt) doit être créé pour chaque fichier audio (par exemple, example_audio_1.wav). Ce service utilise ces associations audio-texte dans un bucket Cloud Storage pour assembler l'ensemble de données.
Effectuer une analyse comparative du modèle
En utilisant le modèle Speech-to-Text personnalisé et votre ensemble de données de benchmarking pour évaluer la précision de votre modèle, suivez le guide Mesurer et améliorer la précision.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/09/04 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/09/04 (UTC)."],[],[],null,["# Evaluate models\n\n| **Preview**\n|\n|\n| This feature is subject to the \"Pre-GA Offerings Terms\" in the General Service Terms section\n| of the [Service Specific Terms](/terms/service-terms#1).\n|\n| Pre-GA features are available \"as is\" and might have limited support.\n|\n| For more information, see the\n| [launch stage descriptions](/products#product-launch-stages).\n\nUse the benchmarking functionality of the Cloud Speech-to-Text Console to measure the accuracy of any of the [transcription models](/speech-to-text/v2/docs/transcription-model) used in the Speech-to-Text V2 API.\n\nCloud Speech-to-Text Console provides visual benchmarking for pre-trained and Custom Speech-to-Text models. You can inspect the recognition quality by comparing Word-Error-Rate (WER) evaluation metrics across multiple transcription models to help you decide which model best fits your application.\n\nBefore you begin\n----------------\n\nEnsure you have signed up for a Google Cloud account, created a project, trained a custom speech model, and deployed using an endpoint.\n\nCreate a ground-truth dataset\n-----------------------------\n\nTo create a custom benchmarking dataset, gather audio samples that accurately reflect the type of traffic the transcription model will encounter in a production environment. The aggregate duration of these audio files should ideally span a minimum of 30 minutes and not exceed 10 hours. To assemble the dataset, you will need to:\n\n1. Create a directory in a Cloud Storage bucket of your choice to store the audio and text files for the dataset.\n2. For every audio-file in the dataset, create reasonably accurate transcriptions. For each audio file (such as `example_audio_1.wav`), a corresponding ground-truth text file (`example_audio_1.txt`) must be created. This service uses these audio-text pairings in a Cloud Storage bucket to assemble the dataset.\n\nBenchmark the model\n-------------------\n\nUsing the Custom Speech-to-Text model and your benchmarking dataset to assess the accuracy of your model, follow the [Measure and improve accuracy guide](/speech-to-text/docs/measure-accuracy)."]]