Este guia oferece configurações adicionais e avançadas para recursos de fala. Para ativar e desativar essas configurações avançadas, acesse Configurações do agente > Fala e URA > Speech-to-Text > Configurações de fala avançadas.
Essas configurações estão disponíveis nas configurações do agente (se aplicam a todo o agente), configurações do fluxo (se aplicam a todo o fluxo e substituem as configurações do agente), configurações da página (se aplicam à página e substituem as configurações do fluxo e do agente) e configurações de fulfillment (se aplicam ao fulfillment e substituem as configurações da página, do fluxo e do agente). Um subconjunto dessas configurações está disponível em cada nível, dependendo da relevância da configuração para o nível. *Antes de configurar essas configurações em qualquer nível inferior, marque a caixa Ativar configurações de fala avançadas no nível do agente (Configurações do agente > Fala e IVR > Speech-to-Text > Configurações de fala avançadas).
As configurações atualizadas no nível do agente não são propagadas para o fluxo, a página e o nível de preenchimento quando a opção Personalizar está selecionada nesses níveis mais baixos. Se a opção Personalizar abranger várias configurações e você quiser atualizar apenas algumas delas, talvez seja necessário atualizar outras se quiser que elas sejam iguais às configurações do agente.
Disponibilidade das configurações por nível
A tabela a seguir indica quais configurações avançadas de fala estão disponíveis em cada nível:
Nome da configuração | Agente | Fluxo | Página | Fulfillment |
---|---|---|---|---|
Seleção de modelo (conversão Speech-to-Text) | ✔ | ✔ | ✔ | |
Sensibilidade ao fim da fala | ✔ | ✔ | ✔ | |
Fim da sensibilidade à fala com tempo limite avançado | ✔ | ✔ | ✔ | |
Ativar o endpoint inteligente | ✔ | |||
Sem tempo limite de fala | ✔ | ✔ | ✔ | |
Interrupção | ✔ | ✔ | ||
Permitir o cancelamento da reprodução parcial da resposta | ✔ | |||
Bucket de exportação de áudio | ✔ | ✔ | ||
DTMF | ✔ | ✔ | ✔ |
Seleção de modelo (conversão Speech-to-Text)
Pode ser definido nos níveis de agente, fluxo e página.
Define o modelo de fala usado para reconhecimento de fala. Essa configuração é específica para cada idioma, então você pode selecionar modelos diferentes para idiomas diferentes. Você também pode marcar Substituir modelo de fala no nível da solicitação, o que vai fazer com que o modelo selecionado seja usado mesmo que uma chamada de API no ambiente de execução especifique um modelo diferente.
Para o gateway telefônico de agentes de conversação (Dialogflow CX), consulte as limitações. Para mais informações, consulte Modelos de fala.
Sensibilidade ao fim da fala
Pode ser definido nos níveis de agente, fluxo e página.
Controla a sensibilidade do reconhecimento do final da fala na entrada de áudio do usuário final. O valor varia de 0 (baixa sensibilidade, menos provável de terminar a fala) a 100 (alta sensibilidade, mais provável de terminar a fala).
Fim da sensibilidade à fala com tempo limite avançado
Pode ser definido no nível do agente e desativado no nível do fluxo e da página.
Se essa configuração estiver ativada, o valor da configuração Sensibilidade ao fim da fala será usado como um indicador para estabelecer um tempo limite relativo de silêncio de áudio para determinar o fim da fala. Se essa configuração estiver desativada (padrão), o valor de configuração Sensibilidade do fim da fala será usado para determinar o fim da fala pelo modelo de ML fornecido pelo Google Cloud Speech-to-Text.
Embora a configuração Sensibilidade ao fim da fala ofereça suporte apenas ao modelo de fala phone_call
para a tag language
en-US
por padrão, a configuração Ativar a sensibilidade ao fim da fala avançado com base no tempo limite
permite configurar a sensibilidade ao fim da fala para todos os idiomas e
modelos de fala aceitos pelo Dialogflow.
Ativar o endpoint inteligente
Só pode ser definido no nível do agente.
Se essa configuração estiver ativada, os agentes de conversação (Dialogflow CX) vão analisar a entrada parcial do usuário para determinar o fim da fala. Por exemplo, se o usuário disser "Eu gostaria de" e pausar, os agentes de conversação (Dialogflow CX) vão esperar que o usuário continue a frase.
Isso é útil principalmente para a coleta de parâmetros numéricos, em que o usuário pode dizer "1234" e fazer uma pausa antes de dizer "5678". Para aplicar essa configuração a um parâmetro específico, configure Endpointing inteligente no formulário do parâmetro.
Essa configuração está disponível apenas para a tag de idioma en-US
e é desativada por
padrão.
Sem tempo limite de fala
Pode ser definido nos níveis de agente, fluxo e página.
O tempo em segundos que os agentes de conversação (Dialogflow CX) vão deixar de aguardar a entrada de áudio do usuário final. O padrão é 5 segundos, e o valor máximo é 60 segundos. Para esse tempo limite, os agentes de conversação (Dialogflow CX) invocam um evento sem entrada.
Interrupção
Pode ser definido nos níveis de agente, fluxo e fulfillment.
Quando ativado, um usuário final pode interromper o áudio da resposta dos agentes de conversação (Dialogflow CX). Quando interrompido, os agentes de conversação (Dialogflow CX) param de enviar áudio e processam a próxima entrada do usuário final.
Se houver várias mensagens na fila de mensagens e uma mensagem foi enfileirada por um fulfillment associado a uma página, um fluxo ou um agente com o carregamento ativado, todas as mensagens seguintes na fila também terão o carregamento ativado. Nesse caso, a integração vai parar de reproduzir áudio para todas as mensagens na fila com a ativação ativada.
Permitir o cancelamento da reprodução parcial da resposta
Só pode ser definido no nível de atendimento.
É possível ativar essa configuração quando a caixa Ativar configurações avançadas de fala estiver marcada em Configurações do agente > Fala e URA e a resposta parcial estiver ativada no nível de fulfillment. Essa configuração permite o cancelamento da reprodução de uma resposta parcial.
Se uma mensagem na fila de mensagens for criada por um fulfillment que permite o cancelamento, a reprodução da mensagem será cancelada se outra mensagem for adicionada à fila. Isso é útil quando você quer que uma mensagem inicial inicie a reprodução, mas que essa reprodução seja cancelada se um webhook em funcionamento produzir outra mensagem antes que a reprodução da mensagem inicial seja concluída.
Bucket de exportação de áudio
Pode ser definido nos níveis de agente e fluxo.
Se fornecidos, todos os dados de áudio associados a uma solicitação serão salvos no bucket do Cloud Storage:
Áudio salvo | Solicitações aplicáveis |
---|---|
Entrada de áudio do usuário final | DetectIntent, StreamingDetectIntent, AnalyzeContent, StreamingAnalyzeContent |
Áudio de conversão da Text-to-Speech (TTS) sintetizado para uma resposta | AnalyzeContent, StreamingAnalyzeContent |
Conceda o papel Criador de objetos do Storage às seguintes contas de serviço no seu projeto:
Para a conta de serviço no formato
one-click@df-cx-ALPHANUMERIC_VALUE-ALPHANUMERIC_VALUE.iam.gserviceaccount.com
, se você usar uma integração de telefonia integrada por parceiro.Para a conta de serviço no formato
service-PROJECT_NUMBER@gcp-sa-dialogflow.iam.gserviceaccount.com
, se você usar a integração do Dialogflow CX Phone Gateway. Para encontrar essa conta de serviço no IAM, marque a opção Incluir concessões de papel fornecidas pelo Google.
DTMF
Consulte a documentação sobre DTMF (sinalização de frequência dupla e tom) para mais informações sobre esse recurso.