Mesurer et améliorer la justesse de la reconnaissance vocale

Présentation

La reconnaissance vocale automatique (ASR, Automated Speech Recognition), également appelée transcription automatique ou reconnaissance vocale, utilise le machine learning pour convertir du contenu audio en texte. La reconnaissance vocale automatique propose de nombreuses applications, telles que le sous-titrage, les assistants virtuels, les réponses vocales interactives (IVR, Interactive Voice Response), la dictée, etc. Cependant, les systèmes de machine learning sont rarement précis à 100 %, et la reconnaissance vocale automatique ne fait pas exception. Si vous prévoyez d'utiliser la reconnaissance vocale automatique pour des systèmes critiques, il est très important d'en mesurer la justesse ou la qualité globale afin de comprendre leurs performances dans le système plus large qui l'intègre.

Une fois que vous avez mesuré votre justesse, il est possible d'ajuster les systèmes afin de fournir encore plus de justesse pour votre situation spécifique. Dans l'API Cloud Speech-to-Text de Google, vous pouvez régler la justesse en choisissant le modèle de reconnaissance le plus approprié et en utilisant notre API d'adaptation vocale. Nous proposons un large éventail de modèles adaptés à différents cas d'utilisation, tels que les contenus audio longs, médicaux ou téléphoniques.

Définir la justesse de la reconnaissance vocale

La justesse de la reconnaissance vocale peut être mesurée de différentes manières. Il peut vous être utile d'utiliser plusieurs métriques, en fonction de vos besoins. Cependant, la méthode standard de l'industrie est le taux d'erreur sur les mots, souvent abrégé en WER (pour Word Error Rate). WER mesure le pourcentage de transcriptions incorrectes de mots dans l'ensemble. Un WER plus faible signifie que le système est plus précis.

Vous pouvez également voir le terme vérité terrain, utilisé dans le contexte de la justesse de la reconnaissance vocale automatique. La vérité terrain est la transcription précise à 100 %, généralement fournie par l'homme, que vous utilisez pour comparer et mesurer la justesse.

Taux d'erreur sur les mots (WER)

Le WER combine les trois types d'erreurs de transcription suivants :

  • Erreur d'insertion (I) : mots présents dans la transcription d'hypothèses, qui ne figurent pas dans la vérité terrain.
  • Erreurs de substitution (S) : mots présents dans l'hypothèse et la vérité terrain, mais qui ne sont pas transcrits correctement.
  • Erreurs de suppression (D) : mots manquants dans l'hypothèse, mais présents dans la vérité terrain.

\[WER = {S+R+Q \over N}\]

Pour trouver le WER, ajoutez le nombre total de chacune de ces erreurs, puis divisez le nombre total de mots (N) dans la transcription de vérité terrain. Le WER peut être supérieur à 100 % dans les situations où la justesse est très faible, par exemple lorsqu'une grande quantité de nouveau texte est insérée. Remarque : La substitution est essentiellement la suppression suivie de l'insertion, et certaines substitutions sont moins graves que d'autres. Par exemple, il peut y avoir une différence dans le remplacement d'une seule lettre par rapport à un mot.

Relation entre WER et un score de confiance

La métrique WER est indépendante d'un score de confiance et n'est généralement pas corrélée les unes aux autres. Un score de confiance est basé sur la probabilité, tandis que le WER repose sur l'identification ou non du mot. S'il n'est pas correctement identifié, cela signifie que même des erreurs grammaticales mineures peuvent entraîner un WER élevé. Un mot correctement identifié entraîne un faible WER, qui peut toujours entraîner une faible probabilité, ce qui génère un niveau de confiance faible si le mot n'est pas aussi fréquent ou si les contenus audio sont très bruyants.

De même, un mot fréquemment utilisé peut avoir une forte probabilité d'être transcrit correctement par la reconnaissance vocale automatique, ce qui augmente le score de confiance. Par exemple, lorsqu'une différence est identifiée entre "I" et "eye", une confiance élevée peut se produire, car "I" est un mot plus populaire, mais la métrique WER diminue.

En résumé, les métriques de confiance et WER sont indépendantes et ne doivent pas être corrélées.

Normalization

Lors du calcul de la métrique WER, la transcription de la machine est comparée à une transcription de vérité terrain fournie par l'homme. Le texte des deux transcriptions est normalisé avant la comparaison. Les signes de ponctuation sont supprimés, et la casse est ignorée lors de la comparaison de la transcription de la machine à la transcription par la vérité terrain.

Conventions de vérité terrain

Il est important de reconnaître qu'il n'existe pas de format de transcription unique convenu pour un contenu audio donné. Vous devez prendre en compte de nombreux aspects. Par exemple, le contenu audio peut inclure d'autres voix non vocales, comme "euh", "yep" ou "umm". Certains modèles Cloud STT, tels que "medical_conversation", incluent ces visualisations, tandis que d'autres non. Par conséquent, il est important que les conventions de vérité terrain correspondent aux conventions du modèle en cours d'évaluation. Les instructions générales suivantes permettent de préparer une transcription textuelle de vérité terrain pour un contenu audio donné.

  • En plus des lettres standards, vous pouvez utiliser les chiffres (0-9).
  • N'utilisez pas de symboles tels que "@", "#", "$", ".". Utilisez des mots tels que "à", "hachage", "dollar", "point".
  • Utiliser "%", mais uniquement lorsqu'il est précédé d'un nombre. Sinon, utilisez le mot "pourcentage".
  • Utilisez "\$" uniquement lorsqu'il est suivi d'un nombre, tel que "Le lait coûte \3,99$".

  • Utilisez des mots pour les nombres inférieurs à 10.

    • Par exemple, "J'ai quatre chats et 12 chapeaux".
  • Utilisez des chiffres pour les mesures, la devise et des facteurs importants tels que des millions, des milliards ou des milliards. Par exemple, "7,5 millions" au lieu de "sept millions et demi".

  • N'utilisez pas d'abréviations dans les cas suivants :

    À FAIRE À NE PAS FAIRE
    PSG versus OM PSG vs OM
    J'habite au 123 Main Street J'habite au 123 Main St

Mesurer la justesse de la reconnaissance vocale

Les étapes suivantes vous permettent de déterminer la justesse à l'aide de votre contenu audio :

Recueillir les fichiers audio de test

Rassemblez un échantillon représentatif de fichiers audio pour mesurer leur qualité. Cet exemple doit être aléatoire et être aussi proche que possible de l'environnement cible. Par exemple, si vous souhaitez transcrire des conversations provenant d'un centre d'appel afin de faciliter le contrôle qualité, vous devez sélectionner de manière aléatoire quelques appels enregistrés sur le même équipement que celui utilisé pour la production audio. Si l'audio est enregistré sur votre téléphone portable ou sur votre micro, il n'est pas représentatif de votre cas d'utilisation.

Enregistrez au moins 30 minutes d'audio pour obtenir une métrique à la justesse statistiquement significative. Nous vous recommandons d'utiliser entre 30 minutes et trois heures d'audio. Dans cet atelier, nous vous fournissons le contenu audio.

Obtenir des transcriptions de vérité terrain

Obtenez des transcriptions précises de l'audio. Cette approche implique généralement une transcription humaine unique ou double pour le contenu audio cible. Votre objectif est de disposer d'une transcription précise à 100 % pour évaluer les résultats automatisés.

Il est important d'obtenir des transcriptions de vérité terrain pour qu'elles correspondent le plus possible aux conventions de transcription de votre système ASR cible. Par exemple, assurez-vous que les signes de ponctuation, les chiffres et la casse sont cohérents.

Obtenez une transcription automatique et résolvez les problèmes dans le texte que vous remarquez.

Obtenir la transcription automatique

Envoyez le contenu audio à l'API Google Speech-to-Text et obtenez votre transcription d'hypothèse à l'aide de l'interface utilisateur de Speech-to-Text.

Associer la vérité terrain à l'audio

Dans l'outil d'interface utilisateur, cliquez sur "Joindre la vérité terrain" pour associer un fichier audio donné à la vérité terrain fournie. Une fois le rattachement terminé, vous pouvez voir votre métrique WER et la visualisation de toutes les différences.