Cette page a été traduite par l'API Cloud Translation.

Adaptation vocale

Lorsque vous effectuez une requête de détection d'intent, vous pouvez éventuellement contexte vocale pour fournir des indices à l'outil de reconnaissance vocale. Ces indications peuvent faciliter la reconnaissance dans un état de conversation spécifique.

Adaptation vocale automatique

La fonctionnalité d'adaptation vocale automatique améliore la précision de la reconnaissance vocale de l'agent en utilisant automatiquement l'état de conversation pour transmettre les entités pertinentes et les phrases d'entraînement comme indications de contexte vocal pour toutes les requêtes de détection d'intents. Cette fonctionnalité est activée par défaut.

Activer ou désactiver l'adaptation vocale automatique

Pour activer ou désactiver l'adaptation vocale automatique, procédez comme suit :

Accédez à la console Dialogflow ES.
Sélectionnez votre agent dans la partie supérieure du menu de la barre latérale gauche.
Cliquez sur le bouton des paramètres à côté du nom de l'agent.
Sélectionnez l'onglet Voix.
Faites défiler la page jusqu'à la section Améliorer la qualité de la reconnaissance vocale.
Sélectionnez ou déselectionnez l'option Activer l'adaptation vocale automatique.

Conception d'agents pour améliorer la reconnaissance vocale

Lorsque l'adaptation vocale automatique est activée, vous pouvez créer votre agent de manière à en bénéficier. Les sections suivantes expliquent comment améliorer la reconnaissance vocale en apportant certaines modifications aux expressions d'entraînement, au contexte et aux entités de votre agent.

Phrases d'entraînement et contextes

Si vous définissez des phrases d'entraînement avec une expression telle que "un beau nez", un énoncé utilisateur phonétiquement semblable est reconnu comme correspondant à "un beau nez", et non à "un bonnet".

Lorsqu'une session est active Contextes l'adaptation vocale automatique influencera le plus vers les phrases d'entraînement des intents, où tous les contextes d'entrée sont actifs. Par exemple, avec deux contextes actifs "pay-bill" et "confirmation", tous les intents suivants vont influencer l'adaptation vocale automatique : les intents avec un contexte d'entrée unique "pay-bill", les intents avec un seul contexte d'entrée "confirmation", et intents avec deux contextes d'entrée "pay-bill" et "confirmation".

Remarque :L'adaptation vocale automatique ne prend en compte que les contextes qui ont été actifs à la fin du tour de conversation précédent. Les contextes activés dans la demande en cours n'ont pas d'incidence sur les paramètres l'adaptation vocale requise pour cette requête. Les contextes activés via la La méthode contexts de l'API n'affecte pas adaptation vocale automatique pour la requête de suivi. Contextes activés via une entrée d'événement ou via le outputContexts d'une réponse webhook ont une incidence adaptation vocale automatique pour la requête de suivi.
Lorsqu'une session n'a pas de contextes actifs, l'adaptation vocale automatique penchera plus pour les expressions d'entraînement des intents sans contexte d'entrée.

Lorsque vous avez un paramètre obligatoire qui oblige Dialogflow à remplissage de cases requêtes, adaptation vocale automatique une forte influence en faveur de l'entité à remplir.

Dans tous les cas, l'adaptation vocale automatique ne fait que pondérer la reconnaissance vocale, et ne la limite pas. Par exemple, même si Dialogflow demande à un utilisateur un paramètre requis, les utilisateurs pourront toujours déclencher d'autres intents, tels qu'un intent de premier niveau "parler à un agent".

Entités système

Si vous définissez une phrase d'entraînement qui utilise @sys.number entité système , et que l'utilisateur final dit « J'en veux deux », il peut être reconnu comme "à", "aussi", "2" ou "deux".

Si l'adaptation vocale automatique est activée, l'entité @sys.number sert d'indication à Dialogflow pendant la reconnaissance vocale, et le paramètre est plus susceptible d'être extrait pour "2".

Entités personnalisées

Si vous définissez une entité personnalisée concernant les noms de produits ou de services proposés par votre entreprise, et que l'utilisateur final mentionne ces termes dans un énoncé, il est plus probable pour être reconnues. Une phrase d'entraînement telle que "I love Dialogflow", où "Dialogflow" est annoté en tant qu'entité @product, indique à l'adaptation automatique de pencher pour "I love Dialogflow", "I love Cloud Speech" et de toutes autres entrées de l'entité @product.
Il est particulièrement important de définir des synonymes d'entité propres lorsque vous utilisez Dialogflow pour détecter la reconnaissance vocale. Imaginons que vous disposez de deux entrées d'entité @product, "Dialogflow" et "Dataflow". Vos synonymes de "Dialogflow" peuvent être "Dialogflow", "dialogue flow", "dialogue builder", "Speaktoit", "speak to it", "API.ai", "API dot AI". Ce sont des synonymes pertinents, car ils présentent les variantes les plus courantes. Vous n'avez pas besoin d'ajouter "the dialogue flow builder", car "dialogue flow" couvre déjà cette entrée.

Remarque : Pourquoi est-ce important ? Imaginons que vous avez deux entités "Dialogflow" et "Dataflow", et deux synonymes sont "the dialogue flow builder" et "Google Cloud Dataflow". Un utilisateur final pourrait dire "Google Cloud Dialogflow", mais comme il n'y a pas de synonyme à "Google Cloud Dialogflow", la reconnaissance vocale entendra probablement "Google Cloud Dataflow", car les définitions d'entités penchent vers cette phrase. De même, si quelqu'un dit "the dataflow builder", la reconnaissance vocale entendra probablement "the dialogue flow builder", car il s'agit de la seule entité définie avec "builder". Au lieu de cela, vous obtiendrez de meilleures performances en définissant uniquement les expressions clés répertoriées dans le paragraphe ci-dessus. En résumé, veillez à ne pas ajouter de données génériques aux définitions d'entité, car c'est ce à quoi les expressions d'entraînement d'intent sont destinées. Une phrase d'entraînement "Google Cloud Dataflow", où "Dataflow" est annoté sous forme d'entité @product, permet à l'adaptation vocale automatique de prendre en considération "Google Cloud Dataflow" et de "Google Cloud Dialogflow" d'une pondération égale. Voir Conception de l'agent pour découvrir d'autres bonnes pratiques.

Les énoncés de l'utilisateur avec des entités de nombre consécutives, mais distinctes, peuvent être ambigus. Par exemple, "Je veux deux packs de seize" peut signifier 2 quantités de 16 paquets, soit 216 quantités de paquets. L'adaptation vocale peut aider à clarifier les cas suivants si vous configurez des entités avec des valeurs épelées :
- Définissez une entité quantity avec des entrées :
  zero
  one
  ...
  twenty
- Définissez une entité product ou size avec des entrées :
  sixteen pack
  two ounce
  ...
  five liter
- Seuls les synonymes des entités sont utilisés dans l'adaptation vocale. Vous pouvez ainsi définir une entité avec la valeur de référence 1 et un simple synonyme one pour simplifier votre logique de fulfillment.

Entités d'expression régulière

Entités d'expression régulière peut déclencher la voix automatique pour les séquences alphanumériques et les chiffres comme "ABC123" ou "12345" Quand configurés et testés correctement.

Pour reconnaître ces séquences par commande vocale, mettez en œuvre les quatre des exigences ci-dessous:

1. Exigences concernant la saisie de Regexp

Bien que n'importe quelle expression régulière puisse être utilisée pour extraire des entités à partir d'entrées de texte, seules certaines expressions indiqueront à l'adaptation vocale automatique de pondérer pour des séquences alphanumériques ou des chiffres orthographiées pour la reconnaissance vocale.

Dans l'entité d'expression régulière, au moins une entrée doit respecter toutes les règles suivantes:

Doit correspondre à certains caractères alphanumériques, par exemple: \d, \w, [a-zA-Z0-9]
Ne doit pas contenir d'espace blanc ou \s, bien que \s* et \s? soient autorisés
Ne doit pas contenir de groupes de capture ou de non-capture ()
Ne doit pas essayer de correspondre à des caractères spéciaux ni à des signes de ponctuation, par exemple: ` ~ ! @ # $ % ^ & * ( ) - _ = + , . < > / ? ; ' : " [ ] { } \ |

Cette entrée peut comporter des jeux de caractères [] et des quantificateurs de répétition tels que *, ?, + et {3,5}.

Consultez la section Exemples.

2. Exigence de définition des paramètres

Marquez l'entité d'expression régulière en tant que paramètre d'intent requis pour pouvoir la collecter lors du remplissage de cases. Cela permet à l'adaptation vocale automatique de pencher fortement pour la reconnaissance de séquence au lieu d'essayer de reconnaître un intent et une séquence en même temps. Sinon, "Where is my package for ABC123" sera peut-être mal interprété comme "Where is my package 4ABC123".

3. Exigence d'annotation des phrases d'entraînement

N'utilisez pas l'entité d'expression régulière pour une annotation de phrase d'entraînement d'intent. Cela garantit que le paramètre est résolu lors du remplissage de cases.

4. Exigence de test

Consultez Tester l'adaptation vocale.

Examples

Par exemple, une entité d'expression régulière avec une seule entrée ([a-zA-Z0-9]\s?){5,9} ne déclenche pas l'outil de reconnaissance de la séquence vocale, car elle contient un groupe de capture. Pour résoudre ce problème, ajoutez simplement une autre entrée pour [a-zA-Z0-9]{5,9}. Vous allez maintenant bénéficier du reconnaissance de séquence lors de la recherche de « ABC123 », mais le NLU continue à correspondre à des entrées comme "ABC 123" grâce à l'original qui autorise les espaces.

Les exemples suivants d'expressions régulières s'adaptent aux séquences alphanumériques :

^[A-Za-z0-9]{1,10}$
WAC\d+
215[2-8]{3}[A-Z]+
[a-zA-Z]\s?[a-zA-Z]\s?[0-9]\s?[0-9]\s?[0-9]\s?[a-zA-Z]\s?[a-zA-Z]

Les exemples suivants d'expressions régulières s'adaptent aux séquences de chiffres :

\d{2,8}
^[0-9]+$
2[0-9]{7}
[2-9]\d{2}[0-8]{3}\d{4}

Solution de contournement de l'expression régulière

La prise en charge intégrée de l'adaptation vocale automatique pour les entités d'expression régulière varie selon la langue. Consultez les jetons de classe Speech pour connaître les langues acceptées par $OOV_CLASS_ALPHANUMERIC_SEQUENCE et $OOV_CLASS_DIGIT_SEQUENCE.

Si votre langue n'est pas répertoriée, vous pouvez contourner cette limite. Par exemple, si vous souhaitez un ID d'employé trois lettres suivies de trois chiffres pour qu'il soit reconnu, vous pouvez Créez votre agent avec les entités et les paramètres suivants:

Définissez une entité digit contenant 10 entrées d'entité (avec des synonymes):
0, 0
1, 1
...
9, 9
Définissez une entité letter contenant 26 entrées d'entités (avec des synonymes):
A, A
B, B
...
Z, Z
Définissez une entité employee-id contenant une seule entrée d'entité (sans synonymes) :
@letter @letter @letter @digit @digit @digit
Utilisez @employee-id comme paramètre dans une expression d'entraînement.

Tester l'adaptation vocale

Lors du test des capacités d'adaptation vocale de votre agent pour une expression d'entraînement ou une correspondance d'entité spécifique, vous ne devez pas passer directement au test par le premier énoncé vocal d'une conversation. Vous ne devez utiliser que des entrées vocales ou d'événement pour toute la conversation avant la correspondance que vous souhaitez tester. Comportement de votre agent lorsqu'il est testé de cette manière sera similaire au comportement des conversations de production réelles.

Limites

Les limites suivantes s'appliquent :

L'adaptation vocale n'est pas disponible pour tous les modèles vocaux et combinaisons de langues. Reportez-vous à la page d'assistance pour les langages Cloud Speech pour vérifier si "adaptation du modèle" est disponible pour votre modèle de reconnaissance vocale et votre combinaison de langues.

L'adaptation vocale automatique n'est pas compatible avec Actions on Google (Assistant Google), car la reconnaissance vocale est effectuée par Actions on Google avant que les données ne soient envoyées à Dialogflow.

La reconnaissance des séquences de caractères longues est difficile. Le nombre de les caractères qui sont capturés en un seul tour sont directement liés à la qualité du son d'entrée. Par exemple, si votre intégration fonctionne sur l'audio des appels téléphoniques, vous devez des modèles de reconnaissance vocale améliorés : reconnaître de manière fiable les séquences alphanumériques de plus de quatre ou cinq ou des séquences de chiffres de plus de 10 caractères. Si vous avez suivi toutes les consignes relatives aux entités d'expression régulière et qui ont encore du mal à capturer toute la séquence en un seul tour, vous pouvez envisager d'autres options plus conversationnelles:
- Lorsque vous validez la séquence par rapport à une base de données, pensez à faire référence aux autres paramètres collectés, tels que les dates, les noms ou les numéros de téléphone, afin d'autoriser les correspondances incomplètes. Par exemple, au lieu de demander simplement un numéro de commande à un utilisateur, demandez également son numéro de téléphone. Désormais, lorsque votre webhook interroge votre base de données pour connaître l'état de la commande, il s'appuie d'abord sur le numéro de téléphone, puis renvoie le numéro de commande correspondant le plus proche pour ce compte. Cela peut permettre à Dialogflow d'identifier "ABC" en tant que "AVC", mais de toujours renvoyer le correct état de la commande pour l'utilisateur.
- Pour les séquences plus longues, envisagez de créer un flux qui encourage les utilisateurs finaux à faire une pause au milieu afin que le bot puisse confirmer au fur à mesure. Pour en savoir plus, consultez ce tutoriel.

Modèles vocaux

Modèles de reconnaissance vocale améliorés