Certains produits et fonctionnalités sont en cours de changement de nom. Les fonctionnalités de playbook et de flux génératifs sont également en cours de migration vers une console unique. Consultez les détails.

Cette page a été traduite par l'API Cloud Translation.

Adaptation vocale

Lorsque vous exécutez une requête de détection d'intent, vous pouvez éventuellement indiquer des phrase_hints pour fournir des indications au système de reconnaissance vocale. Ces indications peuvent faciliter la reconnaissance dans un état de conversation spécifique.

Adaptation vocale automatique

La fonctionnalité d'adaptation vocale automatique améliore la précision de la reconnaissance vocale de l'agent en utilisant automatiquement l'état de conversation pour transmettre les entités pertinentes et les phrases d'entraînement comme indications de contexte vocal pour toutes les requêtes de détection d'intents. Cette fonctionnalité est désactivée par défaut.

Activer ou désactiver l'adaptation vocale automatique

Pour activer ou désactiver l'adaptation vocale automatique, procédez comme suit :

Console

Ouvrez la console Dialogflow CX.
Choisissez votre projet GCP.
Sélectionnez votre agent.
Cliquez sur Agent Settings (Paramètres de l'agent).
Cliquez sur l'onglet Voix et réponse vocale interactive.
Activez ou désactivez l'option Activer l'adaptation vocale automatique.
Cliquez sur Enregistrer.

API

Consultez les méthodes get et patch/update pour le type Agent.

Sélectionnez un protocole et une version pour la référence de l'agent :

Protocole	V3	V3beta1
REST	Ressource de l'agent	Ressource de l'agent
RPC	Interface de l'agent	Interface de l'agent
C++	AgentsClient	Non disponible
C#	AgentsClient	Non disponible
Go	AgentsClient	Non disponible
Java	AgentsClient	AgentsClient
Node.js	AgentsClient	AgentsClient
PHP	Non disponible	Non disponible
Python	AgentsClient	AgentsClient
Ruby	Non disponible	Non disponible

Conception d'agents pour améliorer la reconnaissance vocale

Lorsque l'adaptation vocale automatique est activée, vous pouvez créer votre agent de manière à en bénéficier. Les sections suivantes expliquent comment améliorer la reconnaissance vocale en apportant certaines modifications aux expressions d'entraînement et aux entités de votre agent.

Phrases d'entraînement

Si vous définissez des phrases d'entraînement avec une expression telle que "un beau nez", un énoncé utilisateur phonétiquement semblable est reconnu comme correspondant à "un beau nez", et non à "un bonnet".

Lorsque vous disposez d'un paramètre obligatoire qui oblige Dialogflow à envoyer des invites de remplissage de formulaires, l'adaptation vocale automatique penchera fortement vers l'entité remplie.

Dans tous les cas, l'adaptation vocale automatique ne fait que pondérer la reconnaissance vocale, et ne la limite pas. Par exemple, même si Dialogflow demande à un utilisateur un paramètre requis, les utilisateurs pourront toujours déclencher d'autres intents, tels qu'un intent de premier niveau "parler à un agent".

Entités système

Si vous définissez une phrase d'entraînement qui utilise l'entité système @sys.number et que l'utilisateur final dit "J'en veux deux", celui-ci peut être reconnu de différentes façons : "de", "d'œufs", "2" ou "deux".

Si l'adaptation vocale automatique est activée, l'entité @sys.number sert d'indication à Dialogflow pendant la reconnaissance vocale, et le paramètre est plus susceptible d'être extrait pour "2".

Entités personnalisées

Si vous définissez une entité personnalisée pour les noms de produits ou de services proposés par votre entreprise et que l'utilisateur final mentionne ces termes dans un énoncé, ils sont plus susceptibles d'être reconnus. Une phrase d'entraînement telle que "I love Dialogflow", où "Dialogflow" est annoté en tant qu'entité @product, indique à l'adaptation automatique de pencher pour "I love Dialogflow", "I love Cloud Speech" et de toutes autres entrées de l'entité @product.
Il est particulièrement important de définir des synonymes d'entité propres lorsque vous utilisez Dialogflow pour détecter la reconnaissance vocale. Imaginons que vous disposez de deux entrées d'entité @product, "Dialogflow" et "Dataflow". Vos synonymes de "Dialogflow" peuvent être "Dialogflow", "dialogue flow", "dialogue builder", "Speaktoit", "speak to it", "API.ai", "API dot AI". Ce sont des synonymes pertinents, car ils présentent les variantes les plus courantes. Vous n'avez pas besoin d'ajouter "the dialogue flow builder", car "dialogue flow" couvre déjà cette entrée.

Remarque : Pourquoi est-ce important ? Imaginons que vous avez deux entités "Dialogflow" et "Dataflow", et deux synonymes sont "the dialogue flow builder" et "Google Cloud Dataflow". Un utilisateur final pourrait dire "Google Cloud Dialogflow", mais comme il n'y a pas de synonyme à "Google Cloud Dialogflow", la reconnaissance vocale entendra probablement "Google Cloud Dataflow", car les définitions d'entités penchent vers cette phrase. De même, si quelqu'un dit "the dataflow builder", la reconnaissance vocale entendra probablement "the dialogue flow builder", car il s'agit de la seule entité définie avec "builder". Au lieu de cela, vous obtiendrez de meilleures performances en définissant uniquement les expressions clés répertoriées dans le paragraphe ci-dessus. En résumé, veillez à ne pas ajouter de données génériques aux définitions d'entité, car c'est ce à quoi les expressions d'entraînement d'intent sont destinées. Une phrase d'entraînement "Google Cloud Dataflow", où "Dataflow" est annoté sous forme d'entité @product, permet à l'adaptation vocale automatique de prendre en considération "Google Cloud Dataflow" et de "Google Cloud Dialogflow" d'une pondération égale. Pour en savoir plus sur les bonnes pratiques, consultez la section Concevoir des agents.

Les énoncés de l'utilisateur avec des entités de nombre consécutives, mais distinctes, peuvent être ambigus. Par exemple, "Je veux deux packs de seize" peut signifier 2 quantités de 16 paquets, soit 216 quantités de paquets. L'adaptation vocale peut aider à clarifier les cas suivants si vous configurez des entités avec des valeurs épelées :
- Définissez une entité quantity avec des entrées :
  zero
  one
  ...
  twenty
- Définissez une entité product ou size avec des entrées :
  sixteen pack
  two ounce
  ...
  five liter
- Seuls les synonymes des entités sont utilisés dans l'adaptation vocale. Vous pouvez ainsi définir une entité avec la valeur de référence 1 et un simple synonyme one pour simplifier votre logique de fulfillment.

Entités d'expression régulière

Les entités d'expression régulière peuvent déclencher l'adaptation vocale automatique pour des séquences alphanumériques et numériques tels que "ABC123" ou "12345" lorsqu'elles sont correctement configurées et testées.

Pour reconnaître ces séquences par commande vocale, implémentez toutes les quatre des conditions ci-dessous:

1. Exigences concernant la saisie de l'expression régulière

Bien que toute expression régulière puisse être utilisée pour extraire des entités à partir d'entrées textuelles, seules certaines expressions indiquent à l'adaptation vocale automatique de tenir compte des séquences alphanumériques ou numériques épelées lors de la reconnaissance vocale.

Dans l'entité d'expression régulière, au moins une entrée doit respecter toutes ces règles:

Doit correspondre à certains caractères alphanumériques, par exemple: \d, \w ou [a-zA-Z0-9]
Ne doit pas contenir d'espace blanc ou \s, bien que \s* et \s? soient autorisés
Ne doit pas contenir de groupes de capture ou de non-capture ()
Ne doit pas essayer de faire correspondre des caractères spéciaux ou des signes de ponctuation tels que : ` ~ ! @ # $ % ^ & * ( ) - _ = + , . < > / ? ; ' : " [ ] { } \ |

Cette entrée peut contenir des jeux de caractères [] et des quantificateurs de répétition tels que *, ?, + et {3,5}.

Consultez la section Exemples.

2. Exigences concernant la définition des paramètres

Marquez l'entité d'expression régulière en tant que paramètre de formulaire requis pour pouvoir la collecter lors du remplissage du formulaire. Cela permet à l'adaptation vocale automatique de pencher fortement pour la reconnaissance de séquence au lieu d'essayer de reconnaître un intent et une séquence en même temps. Sinon, "Where is my package for ABC123" sera peut-être mal interprété comme "Where is my package 4ABC123".

3. Exigence d'annotation des phrases d'entraînement

N'utilisez pas l'entité d'expression régulière pour une annotation de phrase d'entraînement d'intent. Cela garantit que le paramètre est résolu lors du remplissage du formulaire.

4. Exigences concernant les tests

Consultez Tester l'adaptation vocale.

Examples

Par exemple, une entité d'expression régulière avec une seule entrée ([a-zA-Z0-9]\s?){5,9} ne déclenche pas l'outil de reconnaissance de la séquence vocale, car elle contient un groupe de capture. Pour résoudre ce problème, ajoutez simplement une autre entrée pour [a-zA-Z0-9]{5,9}. Vous bénéficiez désormais de l'outil de reconnaissance des séquences pour la mise en correspondance de "ABC123", mais le NLU renvoie quand même les entrées telles que "ABC 123" grâce à la règle d'origine autorisant les espaces.

Les exemples suivants d'expressions régulières s'adaptent aux séquences alphanumériques :

^[A-Za-z0-9]{1,10}$
WAC\d+
215[2-8]{3}[A-Z]+
[a-zA-Z]\s?[a-zA-Z]\s?[0-9]\s?[0-9]\s?[0-9]\s?[a-zA-Z]\s?[a-zA-Z]

Les exemples suivants d'expressions régulières s'adaptent aux séquences de chiffres :

\d{2,8}
^[0-9]+$
2[0-9]{7}
[2-9]\d{2}[0-8]{3}\d{4}

Solution de contournement pour les expressions régulières

La prise en charge intégrée de l'adaptation vocale automatique pour les entités d'expression régulière varie selon la langue. Consultez les jetons de classe Speech pour connaître les langues acceptées par $OOV_CLASS_ALPHANUMERIC_SEQUENCE et $OOV_CLASS_DIGIT_SEQUENCE.

Si votre langue n'est pas répertoriée, vous pouvez contourner cette limite. Par exemple, si vous souhaitez qu'un ID d'employé composé de trois lettres suivies de trois chiffres soit correctement reconnu, vous pouvez créer votre agent avec les entités et les paramètres suivants:

Définissez une entité digit contenant 10 entrées d'entités (avec des synonymes) :
0, 0
1, 1
...
9, 9
Définissez une entité letter contenant 26 entrées d'entités (avec des synonymes) :
A, A
B, B
...
Z, Z
Définissez une entité employee-id contenant une seule entrée d'entité (sans synonymes):
@letter @letter @letter @digit @digit @digit
Utilisez @employee-id comme paramètre dans une expression d'entraînement.

Adaptation vocale manuelle

L'adaptation vocale manuelle vous permet de configurer manuellement des expressions d'adaptation vocale pour un flux ou une page. Il remplace également les contextes vocaux implicites générés par l'adaptation vocale automatique lorsque celle-ci est activée.

Les paramètres d'adaptation vocale au niveau du flux et au niveau de la page ont une relation hiérarchique, ce qui signifie qu'une page hérite des paramètres d'adaptation vocale du niveau du flux par défaut et que le niveau de page plus précis remplace toujours le niveau du flux si la page dispose d'un paramètre personnalisé.

Pour le paramètre d'adaptation vocale, le paramètre au niveau du flux et le paramètre au niveau de la page peuvent être activés indépendamment. Si le paramètre d'adaptation au niveau du flux n'est pas activé, vous pouvez toujours sélectionner Personnaliser au niveau de la page pour activer l'adaptation manuelle de la parole pour cette page spécifique. De même, si vous désactivez l'adaptation manuelle de la synthèse vocale au niveau du flux, les pages du flux pour lesquelles Personnaliser est sélectionné ne seront pas affectées.

Toutefois, vous ne pouvez pas désactiver le paramètre au niveau du flux et celui au niveau de la page indépendamment. Si l'adaptation vocale manuelle est activée pour un flux, vous ne pouvez pas la désactiver pour une page du flux via l'option Personnaliser. Par conséquent, si vous souhaitez utiliser à la fois l'adaptation vocale manuelle et l'adaptation vocale automatique pour les pages d'un flux, vous ne devez pas activer l'adaptation vocale manuelle au niveau du flux et utiliser uniquement les paramètres d'adaptation au niveau de la page. Vous pouvez vous reporter au tableau ci-dessous pour déterminer la combinaison de flux et de paramètres de page à utiliser pour votre cas d'adaptation.

Effet cible	Utilisation recommandée des paramètres d'adaptation
Désactiver l'adaptation automatique pour un flux	Flux activé sans ensembles de phrases (les pages du flux utilisent par défaut le paramètre du flux).
Désactiver l'adaptation automatique pour une page	Flux désactivé et page activée (option Personnaliser sélectionnée) sans ensembles de phrases.
Utiliser uniquement l'adaptation vocale manuelle pour toutes les pages d'un flux	Flux activé. Personnalisez les pages qui doivent utiliser des ensembles de phrases différents du flux.
Combiner l'adaptation automatique et manuelle dans un flux	Flux désactivé. Personnalisez les pages auxquelles vous souhaitez appliquer une adaptation manuelle.
Utiliser uniquement l'adaptation vocale automatique pour toutes les pages d'un parcours	Flux désactivé.

Activer ou désactiver l'adaptation vocale manuelle

Pour activer ou désactiver l'adaptation vocale manuelle au niveau du flux ou de la page:

Paramètres du flux

Ouvrez la console Dialogflow CX.
Choisissez votre projet GCP.
Passez la souris sur le flux dans la section Flows (Flux).
Cliquez sur le bouton des options .
Sélectionnez Paramètres du flux dans le menu déroulant.
Cochez ou décochez la case Activer l'adaptation vocale manuelle.
Modifier, ajouter ou supprimer des ensembles de phrases dans le tableau des ensembles de phrases
Cliquez sur Enregistrer.

Paramètres de la page

Ouvrez la console Dialogflow CX.
Choisissez votre projet GCP.
Passez la souris sur la page dans la section Pages.
Cliquez sur le bouton des options .
Sélectionnez Page Settings (Paramètres de la page) dans le menu déroulant.
L'option Utiliser le niveau de flux est sélectionnée par défaut. Si vous la choisissez, les expressions d'adaptation au niveau du flux seront réutilisées pour cette page. Vous pouvez choisir Personnaliser pour configurer des expressions d'adaptation différentes des paramètres au niveau du flux. Même si l'adaptation manuelle de la synthèse vocale est désactivée au niveau du flux, vous pouvez toujours activer et configurer l'adaptation manuelle de la synthèse vocale pour une page de ce flux via l'option Personnaliser.
Modifier, ajouter ou supprimer un ensemble de phrases dans le tableau des ensembles de phrases d'adaptation
Cliquez sur Enregistrer.

Configuration manuelle d'un ensemble d'expressions pour améliorer la reconnaissance vocale

1. Mots et expressions

Dans un ensemble de phrases d'adaptation, vous pouvez définir des expressions composées d'un ou de plusieurs mots avec des références facultatives à des jetons de classe vocale. Par exemple, vous pouvez ajouter des expressions telles que "taux intéressant", "numéro de suivi : $OOV_CLASS_ALPHANUMERIC_SEQUENCE" ou "$FULLPHONENUM". Ces expressions fournies augmentent la probabilité qu'elles soient transcrites par rapport à d'autres expressions phonétiquement similaires. Lorsque vous ajoutez une expression composée de plusieurs mots sans aucune amélioration, le biais s'applique à l'ensemble de l'expression et aux portions continues de l'expression. En règle générale, le nombre de phrases doit être limité, et vous ne devez ajouter que des phrases que la reconnaissance vocale a du mal à reconnaître sans adaptation vocale. Si Speech-to-Text peut déjà reconnaître correctement une phrase, il n'est pas nécessaire de l'ajouter aux paramètres d'adaptation de la voix. Si vous constatez que certaines expressions sont souvent mal reconnues par la conversion Speech-to-Text sur une page ou un flux, vous pouvez ajouter les expressions correctes aux paramètres d'adaptation correspondants.

Exemple de correction d'erreur de reconnaissance

Voici un exemple d'utilisation de l'adaptation vocale pour corriger les problèmes de reconnaissance. Imaginons que vous conceviez un agent de trading d'appareils téléphoniques. L'utilisateur peut dire quelque chose contenant les expressions "vendre des téléphones" ou "téléphone mobile" après que l'agent a posé sa première question : "De quoi avez-vous besoin ?". Comment pouvons-nous utiliser l'adaptation vocale pour améliorer la précision de la reconnaissance pour les deux phrases ?

Si vous incluez les deux phrases dans les paramètres d'adaptation, Speech-to-Text risque toujours d'être perturbée, car elles se ressemblent. Si vous ne fournissez qu'une seule des deux phrases, Speech-to-Text risque de mal reconnaître l'une comme l'autre. Pour améliorer la précision de la reconnaissance vocale pour les deux expressions, vous devez fournir à Speech-to-Text plus d'indices contextuels pour distinguer quand il doit entendre "vendre des téléphones" et quand il doit entendre "téléphone portable". Par exemple, vous remarquerez peut-être que les utilisateurs utilisent souvent "vendre des téléphones" dans des expressions comme "comment vendre des téléphones", "vouloir vendre des téléphones" ou "vends-tu des téléphones", tandis que "téléphone mobile" est utilisé dans des expressions comme "acheter un téléphone mobile", "facture de téléphone mobile" et "service de téléphone mobile". Si vous fournissez ces expressions plus précises au modèle au lieu des courtes expressions d'origine "téléphone portable" et "vendre des téléphones", Speech-to-Text apprendra que "vendre un téléphone" en tant qu'expression verbale est plus susceptible de suivre des mots comme "comment", "vouloir" et "voulez-vous", tandis que "téléphone portable" en tant qu'expression nominale est plus susceptible de suivre des mots comme "acheter" ou d'être suivi par des mots comme "facture" ou "service". Par conséquent, en règle générale, pour configurer des expressions d'adaptation, il est généralement préférable de fournir des expressions plus précises telles que "comment vendre des téléphones" ou "vends-tu des téléphones" plutôt que de n'inclure que "vendre un téléphone".

2. Jetons de classe de synthèse vocale

En plus des mots en langage naturel, vous pouvez également intégrer des références à des jetons de classe de parole dans une phrase. Les jetons de classe de parole représentent des concepts courants qui suivent généralement un certain format par écrit. Par exemple, pour le numéro d'une adresse comme "123, rue Principale", les utilisateurs s'attendent généralement à voir le format numérique "123" plutôt que la version complète "cent vingt-trois". Si vous attendez une mise en forme spécifique dans les résultats de la transcription, en particulier pour les séquences alphanumériques, consultez la liste des jetons de classe compatibles pour connaître les jetons disponibles pour votre langue et votre cas d'utilisation.

Si la page comporte déjà des routes ou des paramètres d'intent avec des références à des entités système, voici un tableau de référence des mappages entre les entités système courantes et les jetons de classe de synthèse vocale:

Entités système	Jetons de classe de synthèse vocale
`@sys.date`	`$MONTH $DAY $YEAR`
`@sys.date-time`	`$MONTH $DAY $YEAR`
`@sys.date-period`	`$MONTH $DAY $YEAR`
`@sys.time`	`$TIME`
`@sys.time-period`	`$TIME`
`@sys.age`	`$OPERAND`
`@sys.number`	`$OPERAND`
`@sys.number-integer`	`$OPERAND`
`@sys.cardinal`	`$OPERAND`
`@sys.ordinal`	`$OPERAND`
`@sys.percentage`	`$OPERAND`
`@sys.duration`	`$OPERAND`
`@sys.currency-name`	`$MONEY`
`@sys.unit-currency`	`$MONEY`
`@sys.phone-number`	`$FULLPHONENUM`
`@sys.zip-code`	`$POSTALCODE` ou `$OOV_CLASS_POSTALCODE`
`@sys.address`	`$ADDRESSNUM $STREET $POSTALCODE`
`@sys.street-address`	`$ADDRESSNUM $STREET $POSTALCODE`
`@sys.temperature`	`$OOV_CLASS_TEMPERATURE`
`@sys.number-sequence`	`$OOV_CLASS_DIGIT_SEQUENCE`
`@sys.flight-number`	`$OOV_CLASS_ALPHANUMERIC_SEQUENCE`

3. Valeur d'amélioration

Si l'ajout de phrases sans la valeur de boost ne produit pas un effet de biais suffisamment fort, vous pouvez utiliser la valeur de boost pour renforcer davantage l'effet de biais de l'adaptation vocale.

L'amélioration applique un biais supplémentaire lorsqu'elle est définie sur des valeurs supérieures à 0 et ne dépassant pas 20. Lorsque le boost est vide ou égal à 0, l'effet de biaisage par défaut permet de reconnaître l'ensemble de la phrase et les portions continues de la phrase. Par exemple, la phrase non optimisée "êtes-vous ouvert à la vente de téléphones" permet de reconnaître cette phrase, ainsi que des phrases similaires telles que "Je vends des téléphones" et "Bonjour êtes-vous ouvert ?".

Lorsque l'optimisation positive est appliquée, l'effet de biais est plus fort, mais il ne s'applique qu'à l'expression exacte. Par exemple, la phrase optimisée "vendre des téléphones" permet de reconnaître "pouvez-vous vendre des téléphones", mais pas "vendrez-vous des téléphones".

C'est pourquoi vous obtiendrez de meilleurs résultats si vous fournissez des expressions avec et sans la fonctionnalité d'amélioration.

Des valeurs d'amélioration plus élevées peuvent réduire le nombre de faux négatifs, c'est-à-dire d'énoncés prononcés dans le contenu audio mais mal reconnus par Speech-to-Text (sous-biais). Cependant, la fonctionnalité d'amélioration peut également augmenter la probabilité de faux positifs, c'est-à-dire d'énoncés qui figurent dans la transcription alors qu'ils n'ont pas été prononcés dans le contenu audio (surpondération). Vous devez généralement affiner vos phrases biaisées pour trouver un bon compromis entre les deux problèmes de biais.

Pour en savoir plus sur l'ajustement de la valeur de boost pour les expressions, consultez la documentation Cloud Speech sur le boost.

Quand utiliser l'adaptation vocale automatique ou manuelle ?

En général, si vous n'êtes pas sûr que l'adaptation vocale améliorera la qualité de la reconnaissance vocale pour votre agent (aucun schéma d'erreur de transcription clair en tête), nous vous recommandons d'essayer d'abord l'adaptation vocale automatique avant de recourir à l'adaptation vocale manuelle. Pour prendre des décisions plus nuancées, tenez compte des facteurs suivants pour choisir entre l'adaptation automatique de la parole et l'adaptation manuelle de la parole:

1. Remplissage de formulaire

L'adaptation automatique de la parole fonctionne très bien avec le remplissage de formulaires, car elle utilise le contexte grammatical ABNF pour les paramètres de formulaire et applique des règles grammaticales en fonction de leurs types d'entités. Étant donné que l'adaptation vocale manuelle n'est pas encore compatible avec les grammaires ABNF, l'adaptation vocale automatique est généralement préférée à l'adaptation vocale manuelle pour une page de saisie de formulaire. Pour les pages ne contenant que des paramètres d'entité système et des entités d'expression régulière simples compatibles avec les jetons de classe vocale, vous pouvez également utiliser l'adaptation vocale manuelle pour obtenir un effet de biais similaire à l'adaptation vocale automatique sans avoir à ajuster les entités d'expression régulière.

2. Complexité de la transition entre les pages ou les flux

Pour une page ou un flux simple avec quelques routes d'intent, l'adaptation vocale automatique générera probablement des phrases biaisées représentatives et fonctionnera de manière raisonnable.

Toutefois, si une page ou un flux comporte un grand nombre de parcours d'intent (pour une page, veuillez également tenir compte du nombre de parcours au niveau du flux), ou si l'un des intents comporte des phrases d'entraînement trop longues ou trop courtes (par exemple, une phrase entière ou un seul mot avec une ou deux syllabes), il est très probable que le modèle d'adaptation de la parole ne fonctionne pas bien avec ces phrases. Vous devez d'abord essayer de désactiver l'adaptation vocale pour les pages ouvertes à la fin et à forte complexité en activant l'adaptation vocale manuelle avec des ensembles de phrases vides (forcement d'adaptation vide). Ensuite, évaluez si des phrases spéciales non ambiguës doivent encore être fournies à la conversion Speech-to-Text pour améliorer la qualité de la reconnaissance.

Un autre symptôme de ce problème de complexité est la présence d'un large éventail de problèmes de sous-biais ou de sur-biais lorsque l'adaptation vocale automatique est activée. Comme dans le cas ci-dessus, vous devez d'abord tester avec l'adaptation de la parole désactivée pour la page spécifique. Si des comportements erronés persistent après la désactivation de l'adaptation vocale, vous pouvez ajouter les expressions que vous souhaitez corriger dans les paramètres d'adaptation vocale, et même ajouter des valeurs d'amélioration pour renforcer davantage les effets de biais si nécessaire.

Tester l'adaptation vocale

Lorsque vous testez les fonctionnalités d'adaptation de la parole de votre agent pour une expression d'entraînement ou une mise en correspondance d'entité spécifique, vous ne devez pas passer directement au test de la mise en correspondance avec la première expression vocale d'une conversation. Vous ne devez utiliser que des entrées vocales ou d'événement pour l'ensemble de la conversation avant la correspondance que vous souhaitez tester. Le comportement de votre agent lors de ce test sera semblable à celui des conversations réelles en production.

Limites

Les limites suivantes s'appliquent :

L'adaptation vocale n'est pas disponible pour tous les modèles vocaux et toutes les combinaisons de langues. Consultez la page Langues acceptées pour Cloud Speech pour vérifier si l'adaptation de modèle est disponible pour votre combinaison modèle de synthèse vocale et langue.

Actuellement, l'adaptation manuelle de la parole n'est pas encore compatible avec les classes personnalisées ni la grammaire ABNF. Vous pouvez activer l'adaptation vocale automatique ou utiliser la requête d'intent de détection d'exécution pour utiliser ces fonctionnalités d'adaptation.
La même valeur de boost peut avoir des performances différentes pour différents modèles de synthèse vocale et langues. Par conséquent, soyez prudent lorsque vous les configurez manuellement pour des agents utilisant plusieurs langues ou modèles de synthèse vocale. Actuellement, l'adaptation manuelle de la parole s'applique à toutes les langues d'un agent. Par conséquent, les agents multilingues ne doivent utiliser que des expressions indépendantes de la langue ou diviser chaque langue en un agent distinct. Étant donné que le comportement de biaisage par défaut (ne fournissant pas de boost ou un boost de 0) fonctionne généralement de manière raisonnable pour toutes les langues et tous les modèles, vous n'avez pas besoin de configurer des valeurs de boost spécifiques à la langue, sauf si un biaisage plus fort est nécessaire pour votre cas d'utilisation de la reconnaissance. Pour en savoir plus sur l'ajustement de la valeur de boost, consultez ce guide Cloud Speech-to-Text.

La reconnaissance des séquences de caractères longues est difficile. Le nombre de caractères capturés en une seule commande est directement lié à la qualité de l'audio de votre entrée. Si vous avez suivi toutes les consignes concernant les entités d'expression régulière et essayé d'utiliser des jetons de classe vocale pertinents dans les paramètres d'adaptation vocale manuelle, mais que vous ne parvenez toujours pas à capturer l'ensemble de la séquence en une seule prise de parole, vous pouvez envisager d'autres alternatives de conversation :
- Lorsque vous validez la séquence par rapport à une base de données, pensez à faire référence aux autres paramètres collectés, tels que les dates, les noms ou les numéros de téléphone, afin d'autoriser les correspondances incomplètes. Par exemple, au lieu de demander simplement un numéro de commande à un utilisateur, demandez également son numéro de téléphone. Désormais, lorsque votre webhook interroge votre base de données pour connaître l'état de la commande, il s'appuie d'abord sur le numéro de téléphone, puis renvoie le numéro de commande correspondant le plus proche pour ce compte. Cela peut permettre à Dialogflow d'identifier "ABC" en tant que "AVC", mais de toujours renvoyer le correct état de la commande pour l'utilisateur.
- Pour les séquences plus longues, envisagez de créer un flux qui encourage les utilisateurs finaux à faire une pause au milieu afin que le bot puisse confirmer au fur à mesure.

Clonage vocal

Paramètres vocaux avancés