Dans ce guide de démarrage rapide, vous allez apprendre à mesurer et à améliorer la précision de Google Cloud Speech-to-Text pour vos données audio. Explorez également les différents modèles et options disponibles via l'API pour améliorer la précision de la transcription. Découvrez comment utiliser l'interface utilisateur de Speech-to-Text dans la console Google Cloud et un fichier de vérité terrain pour mesurer la précision et obtenir des insights sur le système Speech-to-Text.
Les systèmes de machine learning (ML) sont intrinsèquement soumis à des inexactitudes, et les systèmes de reconnaissance vocale automatique, également appelés systèmes Speech-to-Text, ne font pas exception. La mesure précise de la précision est étroitement liée à des cas d'utilisation spécifiques et aux systèmes évalués, car les différences de qualité de l'enregistrement audio et les conditions optiques peuvent avoir un impact significatif sur la précision. Par conséquent, le score de précision unique pour tous les clients et cas d'utilisation est difficile à atteindre. Pour garantir des performances fiables des systèmes de reconnaissance vocale automatique dans les performances critiques des systèmes destinés à la production, il est également essentiel de comprendre le fonctionnement de Speech-to-Text dans le contexte plus large de votre système.
Pour les besoins de ce guide de démarrage rapide, utilisez la méthode standard du secteur, taux d'erreur sur les mots, souvent abrégé en WER (pour Word Error Rate). Pour plus d'informations sur la méthode de calcul et d'interprétation du WER, consultez la page Mesurer et améliorer la précision vocale. Commençons.
Premiers pas avec la console Speech-to-Text
Assurez-vous d'avoir créé un compte Google Cloud et d'avoir créé un projet. 1. Accédez à Speech dans la console Google Cloud, puis accédez à l'interface utilisateur de Speech-to-Text. 2. Utilisez un fichier audio représentatif de votre cas d'utilisation et la manière dont vous prévoyez d'utiliser le système de reconnaissance vocale automatique, puis suivez les instructions de démarrage rapide pour effectuer votre première transcription à l'aide de Speech-to-Text.
Calculer la précision de la transcription
- Après avoir transcrit votre fichier audio, utilisez la section
Transcription Accuracy
. Cette section reste vide jusqu'au calcul de la précision de votre transcription. - Utilisez le bouton Importer la vérité terrain en haut de la section pour commencer à calculer la précision.
Spécifier la vérité terrain
- Pour calculer la précision de la transcription, fournissez un fichier de vérité terrain. Il s'agit d'un fichier
.txt
ou.csv
, généralement un fichier de transcription généré manuellement qui contient les transcriptions correctes ou attendues à des fins de comparaison. - En utilisant
gs://cloud-samples-data/speech/brooklyn_bridge.wav
comme exemple. Le fichier de vérité terrain contient :How old is the Brooklyn Bridge
. Si vous n'avez pas de fichier de vérité terrain disponible, nous vous recommandons de télécharger la transcription au format texte. Modifiez le fichier de transcription si nécessaire. Importez le fichier de transcription en tant que fichier de vérité terrain. - À l'aide de l'importation ou d'un fichier Cloud Storage existant, spécifiez le fichier de vérité terrain, puis cliquez sur Enregistrer.
Confirmer la vérité terrain
- Lorsque vous cliquez sur Enregistrer, une invite s'affiche pour confirmer que le fichier de vérité terrain spécifié est correct. Vérifiez que le fichier de vérité terrain représente avec précision les transcriptions correctes, car il affecte directement les métriques de précision.
- Cliquez sur Confirmer pour continuer.
Examiner les résultats de l'évaluation
- Selon la taille des données d'entrée, le processus d'évaluation peut prendre un certain temps, et les résultats sont affichés à l'issue de l'opération.
- Une fois l'évaluation terminée, les sections suivantes s'affichent :
- La table Précision de la transcription, les métriques de précision et un lien vers le fichier de vérité terrain utilisé pendant le processus.
- Le
Transcription
avec un bouton permettant de comparer le fichier de vérité terrain, ainsi qu'une répartition des métriques de précision et des points forts.
- Passez en revue et interprétez les résultats de précision pour comprendre les performances du système de reconnaissance vocale utilisé pour identifier les points à améliorer, car les résultats varient en fonction des entrées et de la transcription utilisées. Les exemples suivants illustrent les résultats précis, qui fournissent de précieuses informations pour optimiser le système Speech-to-Text de Google Cloud.
- Exemple de taux d'erreur sur les mots de 0 % :
- Exemple de taux d'erreur sur les mots de 40 % :
Facultatif : mettre à jour la vérité terrain
Vous pouvez tester une vérité terrain différente sur la transcription existante en rattachant un autre fichier, puis en répétant les étapes 3 et 4 avec un fichier de vérité terrain mis à jour.
Faites l'essai
Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de Speech-to-Text en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
Profiter d'un essai gratuit de Speech-to-Text