Mesurer et améliorer la précision

Dans ce guide de démarrage rapide, vous allez apprendre à mesurer et à améliorer la précision de Google Cloud Speech-to-Text pour vos données audio. Vous allez également découvrir les différents modèles et options disponibles dans l'API pour améliorer la précision de la transcription. Découvrez comment utiliser l'interface utilisateur de Speech-to-Text dans la console Google Cloud et un fichier de vérité terrain pour mesurer la précision et obtenir des insights sur le système Speech-to-Text.

Les systèmes de machine learning (ML, apprentissage automatique) sont par nature sujets à des imprécisions, et les systèmes de reconnaissance vocale automatique (ASR, Automatic Speech Recognition), également appelés systèmes de reconnaissance vocale, ne font pas exception. La mesure précise de la précision est étroitement liée à des cas d'utilisation spécifiques et aux systèmes évalués, car les différences de qualité de l'enregistrement audio et les conditions optiques peuvent avoir un impact significatif sur la précision. Par conséquent, le score de précision unique pour tous les clients et cas d'utilisation est difficile à atteindre. Pour garantir des performances fiables des systèmes de reconnaissance vocale automatique dans les performances critiques des systèmes destinés à la production, il est également essentiel de comprendre le fonctionnement de Speech-to-Text dans le contexte plus large de votre système.

Pour les besoins de ce guide de démarrage rapide, utilisez la méthode standard du secteur, taux d'erreur sur les mots, souvent abrégé en WER (pour Word Error Rate). Pour plus d'informations sur la méthode de calcul et d'interprétation du WER, consultez la page Mesurer et améliorer la précision vocale. Commençons.

Premiers pas avec la console Speech-to-Text

Autorisations requises pour cette tâche

Pour effectuer cette tâche, vous devez disposer des autorisations suivantes :

storage.buckets.get
storage.buckets.list

Au niveau du projet ou du bucket :

storage.objects.create
storage.objects.get
storage.objects.list
storage.objects.update

Assurez-vous d'avoir créé un compte Google Cloud et d'avoir créé un projet. 1. Accédez à Speech dans la console Google Cloud, puis accédez à l'interface utilisateur de Speech-to-Text. 2. Utilisez un fichier audio représentatif de votre cas d'utilisation et la manière dont vous prévoyez d'utiliser le système de reconnaissance vocale automatique, puis suivez les instructions de démarrage rapide pour effectuer votre première transcription à l'aide de Speech-to-Text.

Calculer la précision de transcription

Une fois la transcription de votre fichier audio terminée, utilisez la section Transcription Accuracy. Cette section reste vide jusqu'au calcul de la précision de votre transcription.
Utilisez le bouton Importer la vérité terrain en haut de la section pour commencer à calculer la précision.

Spécifier la vérité terrain

Pour calculer la précision de la transcription, vous devez fournir un fichier de vérité terrain. Il s'agit d'un fichier .txt ou .csv, généralement un fichier de transcription généré par un humain, qui contient les transcriptions correctes ou attendues pour la comparaison.
Prenons pour exemple le fichier gs://cloud-samples-data/speech/brooklyn_bridge.wav Le fichier de vérité terrain contient : How old is the Brooklyn Bridge. Si vous ne disposez pas de fichier de vérité terrain, nous vous recommandons de télécharger la transcription au format texte. Modifiez le fichier de transcription si nécessaire. Importez le fichier de transcription en tant que fichier de vérité terrain.
À l'aide de l'option Importer, ou en accédant directement à un fichier Cloud Storage existant, spécifiez le fichier de vérité terrain puis cliquez sur Enregistrer.

Confirmer la vérité terrain

Après avoir cliqué sur Enregistrer, une invite de commande s'affiche pour confirmer que le fichier de vérité terrain spécifié est correct. Vérifiez que le fichier de vérité terrain représente avec précision les transcriptions correctes, car il affecte directement les métriques de précision.
Cliquez sur Confirmer pour continuer.

Examiner les résultats de l'évaluation

Selon la taille des données d'entrée, le processus d'évaluation peut prendre un certain temps. Les résultats s'affichent une fois le processus terminé.
Une fois l'évaluation terminée, les sections suivantes s'affichent :
- La table Précision de la transcription, les métriques de précision et un lien vers le fichier de vérité terrain utilisé pendant le processus.
- Le Transcription avec un bouton permettant de comparer le fichier de vérité terrain, ainsi qu'une répartition des métriques de précision et des points forts.
Examinez et interprétez les résultats de précision, afin d'identifier les performances de l'outil de reconnaissance Speech-to-Text, ce qui va permettre de cerner les axes d'amélioration. En effet, les résultats varient en fonction des entrées et de la transcription utilisées. Dans les exemples suivants, vous pouvez voir des cas indicatifs de résultats de précision, qui fournissent des renseignements précieux pour l'optimisation du système Google Cloud Speech-to-Text.
- Exemple de taux d'erreur sur les mots de 0 % :
- Exemple de taux d'erreur sur les mots de 40 % :

Facultatif : mettre à jour la vérité terrain

Vous pouvez tester une vérité terrain différente sur la transcription existante en rattachant un autre fichier, puis en répétant les étapes 3 et 4 avec un fichier de vérité terrain mis à jour.

Faites l'essai

Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de Speech-to-Text en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.

Profiter d'un essai gratuit de Speech-to-Text