Utilisez la fonctionnalité d'analyse comparative de la console Cloud Speech-to-Text pour mesurer la précision de n'importe quel modèle de transcription utilisé dans l'API Speech-to-Text V2.
La console Cloud Speech-to-Text fournit une analyse comparative visuelle des modèles Speech-to-Text pré-entraînés et personnalisés. Vous pouvez inspecter la qualité de la reconnaissance en comparant les métriques d'évaluation du taux d'erreur sur les mots (WER, Word-Error-Rate) sur plusieurs modèles de transcription, afin de vous aider à choisir le modèle qui convient le mieux à votre application.
Avant de commencer
Assurez-vous d'avoir créé un compte Google Cloud et un projet, d'avoir entraîné un modèle de reconnaissance vocale personnalisé et de l'avoir déployé à l'aide d'un point de terminaison.
Créer un ensemble de données de vérité terrain
Pour créer un ensemble de données d'analyse comparative personnalisé, rassemblez des échantillons audio qui reflètent avec précision le type de trafic que le modèle de transcription rencontrer dans un environnement de production. Idéalement, la durée totale de ces fichiers audio doit être d'au moins 30 minutes et ne pas dépasser 10 heures. Pour assembler l'ensemble de données, vous devez :
- Créer un répertoire dans le bucket Cloud Storage de votre choix pour stocker les fichiers audio et texte de l'ensemble de données.
- Pour chaque fichier audio de l'ensemble de données, créer des transcriptions raisonnablement précises. Un fichier texte de vérité terrain correspondant (
example_audio_1.txt
) doit être créé pour chaque fichier audio (par exemple,example_audio_1.wav
). Ce service utilise ces associations audio-texte dans un bucket Cloud Storage pour assembler l'ensemble de données.
Effectuer une analyse comparative du modèle
En utilisant le modèle Speech-to-Text personnalisé et votre ensemble de données d'analyse comparative pour évaluer la précision de votre modèle, suivez le guide Mesurer et améliorer la précision.