Alcuni prodotti e funzionalità sono in fase di rinominazione. Anche le funzionalità di playbook e flusso generativi sono in fase di migrazione a un'unica console consolidata. Consulta i dettagli.

Questa pagina è stata tradotta dall'API Cloud Translation.

Adattamento vocale

Quando esegui una richiesta di rilevamento dell'intent, se vuoi puoi fornire phrase_hints per fornire suggerimenti al riconoscimento vocale. Questi suggerimenti possono essere utili per il riconoscimento in uno stato di conversazione specifico.

Adattamento vocale automatico

La funzionalità di adattamento automatico del parlato migliora la precisione del riconoscimento vocale del tuo agente utilizzando automaticamente lo stato della conversazione per trasmettere entità pertinenti e frasi di addestramento come suggerimenti per il contesto vocale per tutte le richieste di rilevamento dell'intenzione. Questa funzionalità è disattivata per impostazione predefinita.

Attiva o disattiva l'adattamento automatico del parlato

Per attivare o disattivare l'adattamento vocale automatico:

Console

Apri la console Dialogflow CX.
Scegli il tuo progetto Google Cloud.
Seleziona il tuo agente.
Fai clic su Impostazioni agente.
Fai clic sulla scheda Voce e IVR.
Attiva o disattiva l'opzione Attiva l'adattamento automatico del parlato.
Fai clic su Salva.

API

Consulta i metodi get e patch/update per il tipo Agent.

Seleziona un protocollo e una versione per il riferimento all'agente:

Protocollo	V3	V3beta1
REST	Risorsa agente	Risorsa agente
RPC	Interfaccia dell'agente	Interfaccia dell'agente
C++	AgentsClient	Non disponibile
C#	AgentsClient	Non disponibile
Vai	AgentsClient	Non disponibile
Java	AgentsClient	AgentsClient
Node.js	AgentsClient	AgentsClient
PHP	Non disponibile	Non disponibile
Python	AgentsClient	AgentsClient
Ruby	Non disponibile	Non disponibile

Progettazione di agenti per i miglioramenti del riconoscimento vocale

Con l'adattamento automatico della voce abilitato, puoi creare il tuo agente in modo da sfruttarlo al meglio. Le sezioni seguenti spiegano come migliorare il riconoscimento vocale con alcune modifiche alle frasi di addestramento e alle entità dell'agente.

Frasi di addestramento

Se definisci frasi di addestramento con una frase come "naso chiuso", un'espressione dell'utente finale simile viene riconosciuta in modo affidabile come "naso chiuso" e non come "cose che sa".

Quando hai un parametro obbligatorio che forza Dialogflow a inserire richieste di compilazione del modulo, l'adattamento automatico del parlato tende fortemente verso l'entità da compilare.

In tutti i casi, l'adattamento automatico del parlato influisce solo sul riconoscimento vocale, non lo limita. Ad esempio, anche se Dialogflow chiede all'utente un parametro obbligatorio, gli utenti potranno comunque attivare altri intent, ad esempio un intent di primo livello "parla con un agente".

Entità di sistema

Se definisci una frase di addestramento che utilizza l'@sys.number entità di sistema e l'utente finale dice "Voglio due", la frase potrebbe essere riconosciuta come "a", "anche", "2" o "due".

Con l'adattamento automatico del parlato abilitato, Dialogflow utilizza l'entità @sys.number come indicazione durante il riconoscimento vocale e il parametro è più probabile che venga estratto come "2".

Entità personalizzate

Se definisci una entità personalizzata per i nomi di prodotti o servizi offerti dalla tua azienda, e l'utente finale menziona questi termini in un'espressione, è più probabile che vengano riconosciuti. Una frase di addestramento "Adoro Dialogflow", in cui "Dialogflow" è annotata come entità @product, indica all'adattamento automatico del parlato di avere un bias per "Adoro Dialogflow", "Adoro Cloud Speech" e tutte le altre voci nell'entità @product.
È particolarmente importante definire sinonimi di entità puliti quando utilizzi Dialogflow per rilevare il parlato. Immagina di avere due voci di entità @product, "Dialogflow" e "Dataflow". I sinonimi di "Dialogflow" potrebbero essere "Dialogflow", "dialogue flow", "dialogue builder", "Speaktoit", "speak to it", "API.ai", "API dot AI". Si tratta di buoni sinonimi perché coprono le varianti più comuni. Non è necessario aggiungere "lo strumento per la creazione di flussi di dialogo" perché "flusso di dialogo" lo copre già.

Nota: perché è importante? Supponiamo di avere due entità "Dialogflow" e "Dataflow" e due sinonimi "strumento per la creazione di flussi di dialogo" e "Google Cloud Dataflow". Un utente finale potrebbe benissimo dire "Google Cloud Dialogflow", ma poiché non esiste un sinonimo di "Google Cloud Dialogflow", è probabile che il riconoscimento vocale ascolti "Google Cloud Dataflow" perché le definizioni delle entità sono orientate a questa frase. Allo stesso modo, se qualcuno dice "il generatore di flussi di dati", è molto probabile che l'assistente vocale senta "il generatore di flussi di dialogo" perché è l'unica entità definita con "generatore". Per ottenere un rendimento migliore, definisci solo le frasi chiave elencate nell'elenco puntato sopra. In sintesi, fai attenzione a non aggiungere dati generici alle definizioni delle entità, in quanto è per questo che sono progettate le frasi di addestramento dell'intento. Una frase di addestramento "Google Cloud Dataflow", in cui "Dataflow" è annotato come entità @product, consente all'adattamento automatico del parlato di ascoltare "Google Cloud Dataflow" e "Google Cloud Dialogflow" con lo stesso peso. Per altre best practice, consulta Progettazione dell'agente.

Le frasi dell'utente con entità numeriche consecutive, ma distinte, possono essere ambigue. Ad esempio, "Voglio due confezioni da 16" potrebbe significare 2 quantità di 16 confezioni o 216 quantità di confezioni. L'adattamento del parlato può aiutarti a distinguere questi casi se configuri entità con valori scritti per esteso:
- Definisci un'entità quantity con voci:
  zero
  one
  ...
  twenty
- Definisci un'entità product o size con le voci:
  sixteen pack
  two ounce
  ...
  five liter
- Nell'adattamento del parlato vengono utilizzati solo i sinonimi delle entità, quindi puoi definire un'entità con valore di riferimento 1 e un singolo sinonimo one per semplificare la logica di adempimento.

Entità Regexp

Le entità regexp possono attivare l'adattamento automatico della voce per sequenze alfanumeriche e di cifre come "ABC123" o "12345" se configurate e testate correttamente.

Per riconoscere queste sequenze tramite comandi vocali, implementa tutti e quattro i requisiti riportati di seguito:

1. Requisito per l'inserimento di Regexp

Sebbene qualsiasi espressione regolare possa essere utilizzata per estrarre entità dagli input di testo, solo determinate espressioni indicano all'adattamento automatico della voce di dare la priorità alle sequenze alfanumeriche o di cifre scritte durante il riconoscimento vocale.

Nell'entità regexp, almeno una voce deve rispettare tutte queste regole:

Deve corrispondere ad alcuni caratteri alfanumerici, ad esempio: \d, \w, [a-zA-Z0-9]
Non deve contenere spazi vuoti o \s, anche se \s* e \s? sono consentiti
Non deve contenere gruppi di acquisizione o non acquisizione ()
Non deve cercare di trovare corrispondenze per caratteri speciali o di punteggiatura come: ` ~ ! @ # $ % ^ & * ( ) - _ = + , . < > / ? ; ' : " [ ] { } \ |

Questa voce può avere set di caratteri [] e quantificatori di ripetizione come *, ?, +, {3,5}.

Consulta la sezione Esempi.

2. Requisito di definizione del parametro

Contrassegna l'entità regexp come parametro obbligatorio del modulo, in modo che possa essere raccolta durante la compilazione del modulo. In questo modo, l'adattamento automatico del parlato è fortemente orientato al riconoscimento della sequenza anziché cercare di riconoscere contemporaneamente un'intenzione e una sequenza. In caso contrario, la frase "Dov'è il mio pacco per ABC123" potrebbe essere riconosciuta erroneamente come "Dov'è il mio pacco 4ABC123".

3. Requisito di annotazione delle frasi di addestramento

Non utilizzare l'entità regexp per un'annotazione della frase di addestramento dell'intenzione. In questo modo, il parametro viene risolto nell'ambito del compilamento del modulo.

4. Requisito di test

Consulta Eseguire test sull'adattamento vocale.

Esempi

Ad esempio, un'entità regexp con una singola voce ([a-zA-Z0-9]\s?){5,9} non attiverà il riconoscitore di sequenze vocali perché contiene un gruppo di cattura. Per risolvere il problema, aggiungi un'altra voce per [a-zA-Z0-9]{5,9}. Ora potrai beneficiare del riconoscitore di sequenze per l'associazione di "ABC123", ma la NLU continuerà ad associare input come "ABC 123" grazie alla regola originale che consente gli spazi.

I seguenti esempi di espressioni regolari si adattano alle sequenze alfanumeriche:

^[A-Za-z0-9]{1,10}$
WAC\d+
215[2-8]{3}[A-Z]+
[a-zA-Z]\s?[a-zA-Z]\s?[0-9]\s?[0-9]\s?[0-9]\s?[a-zA-Z]\s?[a-zA-Z]

I seguenti esempi di espressioni regolari si adattano alle sequenze di cifre:

\d{2,8}
^[0-9]+$
2[0-9]{7}
[2-9]\d{2}[0-8]{3}\d{4}

Soluzione alternativa per le espressioni regolari

Il supporto integrato dell'adattamento vocale automatico per le entità regexp varia in base alla lingua. Controlla i token di classe di Speech per le lingue supportate da $OOV_CLASS_ALPHANUMERIC_SEQUENCE e $OOV_CLASS_DIGIT_SEQUENCE.

Se la tua lingua non è presente nell'elenco, puoi aggirare questa limitazione. Ad esempio, se vuoi che un ID dipendente costituito da tre lettere seguite da tre cifre venga riconosciuto con precisione, puoi creare il tuo agente con le seguenti entità e parametri:

Definisci un'entità digit contenente 10 voci di entità (con sinonimi):
0, 0
1, 1
...
9, 9
Definisci un'entità letter contenente 26 voci di entità (con sinonimi):
A, A
B, B
...
Z, Z
Definisci un'entità employee-id contenente una singola voce di entità (senza sinonimi):
@letter @letter @letter @digit @digit @digit
Utilizza @employee-id come parametro in una frase di addestramento.

Adattamento vocale manuale

L'adattamento vocale manuale ti consente di configurare manualmente le frasi di adattamento vocale per un flusso o una pagina. Sostituisce inoltre i contesti di parlato impliciti generati dall'adattamento automatico del parlato, se quest'ultimo è attivo.

Le impostazioni di adattamento vocale a livello di flusso e di pagina hanno una relazione gerarchica, il che significa che una pagina eredita le impostazioni di adattamento vocale dal livello di flusso per impostazione predefinita e il livello di pagina più granulare ha sempre la priorità sul livello di flusso se la pagina ha un'impostazione personalizzata.

Per l'impostazione di adattamento del parlato, l'impostazione a livello di flusso e l'impostazione a livello di pagina possono essere attivate in modo indipendente. Se l'impostazione di adattamento a livello di flusso non è attivata, puoi comunque scegliere Personalizza a livello di pagina per attivare l'adattamento vocale manuale per quella pagina specifica. Analogamente, se disattivi l'adattamento vocale manuale nell'impostazione a livello di flusso, le pagine del flusso con Personalizza selezionato non saranno interessate.

Tuttavia, l'impostazione a livello di flusso e l'impostazione a livello di pagina non possono essere disattivate in modo indipendente. Se in un flusso è attivata l'adattamento vocale manuale, non puoi disattivarla per una pagina del flusso tramite l'opzione Personalizza. Pertanto, se vuoi avere un utilizzo misto dell'adattamento vocale manuale e dell'adattamento vocale automatico per le pagine all'interno di un flusso, non devi attivare l'adattamento vocale manuale a livello di flusso e devi utilizzare solo le impostazioni di adattamento a livello di pagina. Puoi fare riferimento alla tabella riportata di seguito per capire quale combinazione di flusso e impostazione della pagina utilizzare per il tuo caso di adattamento.

Effetto target	Utilizzo consigliato delle impostazioni di adattamento
Disattivare l'adattamento automatico per un flusso	Flusso attivato senza insiemi di frasi (per impostazione predefinita, le pagine all'interno del flusso utilizzano l'impostazione del flusso).
Disattivare l'adattamento automatico per una pagina	Flusso disattivato e pagina attivata (opzione Personalizza scelta) senza insiemi di frasi.
Utilizza l'adattamento vocale manuale solo per tutte le pagine all'interno di un flusso	Flusso abilitato. Personalizza le pagine che devono utilizzare insiemi di frasi diversi dal flusso.
Combinare l'utilizzo dell'adattamento automatico e manuale all'interno di un flusso	Flusso disattivato. Personalizza le pagine a cui vuoi applicare l'adattamento manuale.
Utilizza l'adattamento vocale automatico solo per tutte le pagine di un flusso	Flusso disattivato.

Attiva o disattiva l'adattamento vocale manuale

Per attivare o disattivare l'adattamento vocale manuale a livello di flusso o pagina:

Impostazioni flusso

Apri la console Dialogflow CX.
Scegli il tuo progetto Google Cloud.
Passa il mouse sopra il flusso nella sezione Fluidi.
Fai clic sul pulsante delle opzioni .
Seleziona Impostazioni flusso nel menu a discesa.
Seleziona o deseleziona la casella di controllo Attiva l'adattamento vocale manuale.
Modificare, aggiungere o eliminare insiemi di frasi nella tabella degli insiemi di frasi
Fai clic su Salva.

Impostazioni della pagina

Apri la console Dialogflow CX.
Scegli il tuo progetto Google Cloud.
Passa il mouse sopra la pagina nella sezione Pagine.
Fai clic sul pulsante delle opzioni .
Seleziona Impostazioni pagina nel menu a discesa.
L'opzione Utilizza il livello di flusso è selezionata per impostazione predefinita e, se scelta, le frasi di adattamento a livello di flusso verranno riutilizzate per questa pagina. Puoi scegliere Personalizza per configurare frasi di adattamento diverse rispetto alle impostazioni a livello di flusso. Anche se l'adattamento vocale manuale è disattivato a livello di flusso, puoi comunque attivarlo e configurarlo per una pagina del flusso tramite l'opzione Personalizza.
Modificare, aggiungere o eliminare l'insieme di frasi nella tabella degli insiemi di frasi di adattamento
Fai clic su Salva.

Configurazione manuale del set di frasi per i miglioramenti del riconoscimento vocale

1. Parole e frasi

In un insieme di frasi di adattamento, puoi definire frasi di una o più parole con riferimenti facoltativi ai token della classe di parlato. Ad esempio, puoi aggiungere frasi come "ottima tariffa", "il numero di tracciamento è $OOV_CLASS_ALPHANUMERIC_SEQUENCE" o "$FULLPHONENUM". Queste frasi fornite aumentano la probabilità che vengano trascritte rispetto ad altre frasi simili dal punto di vista fonetico. Quando aggiungi una frase di più parole senza alcun potenziamento, il bias viene applicato sia all'intera frase sia alle parti continue all'interno della frase. In generale, il numero di frasi deve essere ridotto e devi aggiungere solo frasi che il riconoscimento vocale ha difficoltà a comprendere senza l'adattamento vocale. Se Speech-to-Text vocale è già in grado di riconoscere correttamente una frase, non è necessario aggiungerla alle impostazioni di adattamento vocale. Se in una pagina o in un flusso noti alcune frasi che spesso Text-to-Speech non riconosce correttamente, puoi aggiungere le frasi corrette alle impostazioni di adattamento corrispondenti.

Esempio di correzione degli errori di riconoscimento

Ecco un esempio di come puoi utilizzare l'adattamento vocale per correggere i problemi di riconoscimento. Supponiamo che tu stia progettando un agente di vendita di telefoni e che l'utente possa dire qualcosa che includa le frasi "vendi telefoni" o "cellulare" dopo che l'agente ha posto la prima domanda "di che cosa hai bisogno?". Come possiamo utilizzare l'adattamento vocale per migliorare la precisione del riconoscimento in entrambe le frasi?

Se includi entrambe le frasi nelle impostazioni di adattamento, la funzionalità di sintesi vocale potrebbe comunque essere confusa, poiché hanno un suono simile. Se fornisci solo una delle due frasi, Speech-to-Text potrebbe riconoscere erroneamente una frase come l'altra. Per migliorare la precisione del riconoscimento vocale per entrambe le frasi, devi fornire a Speech-to-Text più indizi di contesto per distinguere quando deve sentire "vendo cellulari" e quando deve sentire "cellulare". Ad esempio, potresti notare che le persone usano spesso "vendi telefoni" in frasi come "come vendere telefoni", "voglio vendere telefoni" o "vendi telefoni", mentre utilizzano "cellulare" in frasi come "acquistare cellulare", "bolletta del cellulare" e "servizio di telefonia cellulare". Se fornisci al modello queste frasi più precise instead of the short original phrases "cell phone" and "sell phones", Speech-to-Text will learn that "sell phone" as a verb phrase is more likely to follow after words like "how to", "want to" and "do you", while "cell phone" as a noun phrase is more likely to follow after words like "purchase" or be followed by words like "bill" or "service". Pertanto, come regola generale per la configurazione delle frasi di adattamento, in genere è meglio fornire frasi più precise come "come vendere telefoni" o "vendi telefoni" anziché includere solo "vendi telefono".

2. Token di classe vocale

Oltre alle parole in linguaggio naturale, puoi anche incorporare riferimenti ai token della classe di parlato in una frase. I token di classe di parlato rappresentano concetti comuni che in genere seguono un determinato formato nella scrittura. Ad esempio, per il numero civico di un indirizzo come "Via Principale 123", in genere le persone si aspettano di vedere il formato numerico "123" anziché la versione scritta "centoventitré". Se prevedi una determinata formattazione nei risultati della trascrizione, in particolare per le sequenze alfanumeriche, consulta l'elenco dei token di classe supportati per scoprire quali token sono disponibili per la tua lingua e il tuo caso d'uso.

Se la pagina contiene già route o parametri di intent con riferimenti alle entità di sistema, ecco una tabella di riferimento per le mappature tra entità di sistema comuni e token di classe vocale:

Entità di sistema	Token di classe vocale
`@sys.date`	`$MONTH $DAY $YEAR`
`@sys.date-time`	`$MONTH $DAY $YEAR`
`@sys.date-period`	`$MONTH $DAY $YEAR`
`@sys.time`	`$TIME`
`@sys.time-period`	`$TIME`
`@sys.age`	`$OPERAND`
`@sys.number`	`$OPERAND`
`@sys.number-integer`	`$OPERAND`
`@sys.cardinal`	`$OPERAND`
`@sys.ordinal`	`$OPERAND`
`@sys.percentage`	`$OPERAND`
`@sys.duration`	`$OPERAND`
`@sys.currency-name`	`$MONEY`
`@sys.unit-currency`	`$MONEY`
`@sys.phone-number`	`$FULLPHONENUM`
`@sys.zip-code`	`$POSTALCODE` o `$OOV_CLASS_POSTALCODE`
`@sys.address`	`$ADDRESSNUM $STREET $POSTALCODE`
`@sys.street-address`	`$ADDRESSNUM $STREET $POSTALCODE`
`@sys.temperature`	`$OOV_CLASS_TEMPERATURE`
`@sys.number-sequence`	`$OOV_CLASS_DIGIT_SEQUENCE`
`@sys.flight-number`	`$OOV_CLASS_ALPHANUMERIC_SEQUENCE`

3. Valore boost

Se l'aggiunta di frasi senza il valore di boost non fornisce un effetto di bias sufficientemente elevato, puoi utilizzare il valore di boost per rafforzare ulteriormente l'effetto di bias di adattamento del parlato.

Il boost applica un bias aggiuntivo se impostato su valori maggiori di 0 e non superiori a 20. Quando il valore di boost è vuoto o 0, l'effetto di bias predefinito consente di riconoscere la frase intera e le parti continue al suo interno. Ad esempio, una frase non potenziata come "Sei aperto per vendere telefoni" aiuta a riconoscere questa frase e anche frasi simili come "Io vendo telefoni" e "Ciao sei aperto".

Quando viene applicato il potenziamento positivo, l'effetto di sfasamento è più forte, ma si applica solo alla frase esatta. Ad esempio, una frase migliorata "vendi telefoni" aiuta a riconoscere "puoi vendi telefoni", ma non "vendi telefoni".

Per questi motivi, otterrai i risultati migliori se fornisci frasi sia con sia senza boost.

Valori di boost più elevati possono comportare un numero inferiore di falsi negativi, ovvero casi in cui la parola o la frase si è verificata nell'audio, ma non è stata riconosciuta correttamente da Speech-to-Text (sottostima). Tuttavia, l'aumento può anche aumentare la probabilità di falsi positivi, ovvero i casi in cui la parola o la frase compare nella trascrizione anche se non è presente nell'audio (overbiasing). In genere, devi perfezionare le frasi di bias per trovare un buon punto di compromesso tra i due problemi di bias.

Puoi scoprire di più su come perfezionare il valore dell'incremento per le frasi nella documentazione di Cloud Speech sull'incremento.

Quando utilizzare l'adattamento vocale automatico o manuale

In generale, se non sai con certezza se l'adattamento vocale migliorerà la qualità del riconoscimento vocale per il tuo agente (non sono presenti modelli di errori di trascrizione chiari), ti invitiamo a provare prima l'adattamento vocale automatico prima di ricorrere all'adattamento vocale manuale. Per decisioni più sfumate, prendi in considerazione i seguenti fattori per scegliere tra l'adattamento automatico del parlato o l'adattamento manuale del parlato:

1. Compilazione dei moduli

L'adattamento automatico del parlato funziona molto bene con il completamento dei moduli poiché utilizza il contesto della grammatica ABNF per i parametri del modulo e applica le regole grammaticali in base ai tipi di entità. Poiché l'adattamento vocale manuale non supporta ancora le grammatiche ABNF, in genere è preferibile l'adattamento vocale automatico rispetto all'adattamento vocale manuale per una pagina di compilazione del modulo. Tuttavia, per le pagine con solo parametri di entità di sistema ed entità regexp semplici supportate dai token di classe vocale, puoi anche utilizzare l'adattamento vocale manuale per ottenere un effetto di bias simile all'adattamento vocale automatico senza dover ottimizzare le entità regexp.

2. Complessità della transizione di pagina o flusso

Per una pagina o un flusso semplici con pochi percorsi di intent, l'adattamento automatico del parlato genererà probabilmente frasi di bias rappresentative e avrà un rendimento ragionevolmente buono.

Tuttavia, se una pagina o un flusso ha una grande quantità di percorsi di intenti (per una pagina, considera anche il numero di percorsi a livello di flusso), o se uno degli intenti ha frasi di addestramento non importanti troppo lunghe o brevi (ad esempio, un'intera frase o una singola parola con una o due sillabe), è molto probabile che il modello di adattamento vocale non funzioni bene con queste frasi. Innanzitutto, prova a disattivare l'adattamento vocale per le pagine aperte con elevata complessità attivando l'adattamento vocale manuale con insiemi di frasi vuote (sostituzione dell'adattamento vuoto). Dopodiché, valuta se esistono frasi speciali non ambigue che devono ancora essere fornite a Speech-to-Text per migliorare la qualità del riconoscimento.

Un altro sintomo di questo problema di complessità è la presenza di una vasta gamma di problemi di sottostima o sovrastima quando è attivata l'adattamento automatico del parlato. Come nel caso precedente, devi anche eseguire il test con l'adattamento vocale disabilitato per la pagina specifica. Se i comportamenti errati persistono dopo la disattivazione dell'adattamento vocale, puoi aggiungere le frasi che vuoi correggere alle impostazioni di adattamento vocale e persino aggiungere valori di amplificazione per rafforzare ulteriormente gli effetti di bias, se necessario.

Testare l'adattamento vocale

Quando testi le funzionalità di adattamento vocale dell'agente per una determinata frase di addestramento o corrispondenza di entità, non dovresti passare direttamente al test della corrispondenza con la prima frase vocale di una conversazione. Devi utilizzare solo input vocali o di evento per l'intera conversazione precedente alla corrispondenza che vuoi testare. Il comportamento dell'agente quando testato in questo modo sarà simile a quello nelle conversazioni di produzione effettive.

Limitazioni

Si applicano le seguenti limitazioni:

L'adattamento del parlato non è disponibile per tutti i modelli vocali e le combinazioni di lingue. Consulta la pagina di supporto delle lingue di Cloud Speech per verificare se l'opzione "adattamento del modello" è disponibile per la combinazione di modello vocale e lingua.

Al momento, l'adattamento vocale manuale non supporta ancora classi personalizzate o grammatica ABNF. Puoi attivare l'adattamento automatico della voce o utilizzare la richiesta di rilevamento dell'intenzione in fase di runtime per utilizzare queste funzionalità di adattamento.
Lo stesso valore di boost può funzionare in modo diverso per modelli vocali e lingue diversi, quindi fai attenzione quando li configuri manualmente per gli agenti che utilizzano più lingue o modelli vocali. Attualmente, l'adattamento vocale manuale si applica a tutte le lingue di un agente, pertanto gli agenti multilingue devono utilizzare solo frasi indipendenti dalla lingua o suddividere ogni lingua in un agente distinto. Poiché il comportamento di sbiasamento predefinito (nessun boost o boost pari a 0) solitamente funziona abbastanza bene per tutte le lingue e i modelli, non è necessario configurare valori di boost specifici per la lingua, a meno che non sia necessario un sbiasamento più marcato per il tuo caso d'uso di riconoscimento. Scopri di più su come perfezionare il valore dell'incremento in questa guida a Cloud Speech-to-Text.

Riconoscere sequenze di caratteri lunghe è difficile. Il numero di caratteri acquisiti in un singolo turno è direttamente correlato alla qualità dell'audio di input. Se hai seguito tutte le linee guida per le entità regexp e hai provato a utilizzare token di classe vocale pertinenti nelle impostazioni di adattamento vocale manuale e continui a riscontrare difficoltà a acquisire l'intera sequenza in un unico turno, puoi prendere in considerazione alcune alternative più conversazionali:
- Quando convalidi la sequenza rispetto a un database, valuta la possibilità di eseguire un controllo incrociato con altri parametri raccolti, come date, nomi o numeri di telefono, per consentire corrispondenze incomplete. Ad esempio, anziché chiedere solo all'utente il numero dell'ordine, chiedigli anche il numero di telefono. Ora, quando l'webhook esegue query sul database per lo stato dell'ordine, può fare affidamento innanzitutto sul numero di telefono, quindi restituire l'ordine corrispondente più simile per quell'account. In questo modo, Dialogflow potrebbe sentire erroneamente "ABC" come "AVC", ma comunque restituire lo stato dell'ordine corretto per l'utente.
- Per sequenze molto lunghe, ti consigliamo di progettare un flusso che incoraggi gli utenti finali a mettere in pausa nel mezzo in modo che il bot possa confermare man mano.

Indietro

Modelli vocali

Avanti

Impostazioni avanzate per il parlato