Este guia fornece definições adicionais e avançadas para as funcionalidades de voz. Pode ativar e desativar estas definições avançadas navegando para Definições do agente > Voz e IVR > Conversão de voz em texto > Definições avançadas de voz.
Estas definições estão disponíveis nas definições do agente (aplicam-se a todo o agente), nas definições do fluxo (aplicam-se a todo o fluxo e substituem as definições do agente), nas definições da página (aplicam-se à página e substituem as definições do fluxo e do agente) e nas definições de processamento de pedidos (aplicam-se ao processamento de pedidos e substituem as definições da página, do fluxo e do agente). Um subconjunto destas definições está disponível em cada nível, consoante a relevância da definição para o nível. *Antes de poder configurar estas definições a qualquer nível inferior, tem de selecionar primeiro a caixa Ativar definições de voz avançadas ao nível do agente (Definições do agente > Voz e IVR > Conversão de voz em texto > Definições de voz avançadas)*.
As definições atualizadas ao nível do agente não são propagadas ao nível do fluxo, da página e do processamento quando a opção Personalizar é selecionada nestes níveis inferiores. Se a opção Personalizar abranger várias definições e quiser atualizar apenas algumas delas, também pode ter de atualizar outras definições se quiser que sejam iguais às definições ao nível do agente.
Disponibilidade das definições por nível
A tabela seguinte indica que definições de voz avançadas estão disponíveis em cada nível:
Nome da definição | Agente | Flow | Página | Fulfillment |
---|---|---|---|---|
Seleção de modelo (conversão de voz em texto) | ✔ | ✔ | ✔ | |
Fim da sensibilidade da voz | ✔ | ✔ | ✔ | |
Sensibilidade avançada de fim de voz baseada em tempo limite | ✔ | ✔ | ✔ | |
Ative a deteção de fim inteligente | ✔ | |||
Nenhum limite de tempo de voz | ✔ | ✔ | ✔ | |
Interrupção | ✔ | ✔ | ✔ | |
Permitir o cancelamento da reprodução de respostas parciais | ✔ | |||
Recipiente de exportação de áudio | ✔ | ✔ | ||
DTMF | ✔ | ✔ | ✔ |
Seleção de modelo (conversão de voz em texto)
Pode ser definido ao nível do agente, do fluxo e da página.
Define o modelo de voz usado para o reconhecimento de voz. Esta definição é específica do idioma, pelo que pode selecionar modelos diferentes para idiomas diferentes. Também pode selecionar a opção Substituir modelo de voz ao nível do pedido, o que fará com que o modelo selecionado seja usado mesmo que uma chamada da API de tempo de execução especifique um modelo diferente.
Para o Dialogflow CX Phone Gateway de agentes conversacionais, consulte as limitações. Para mais informações, consulte o artigo Modelos de voz.
Fim da sensibilidade da voz
Pode ser definido ao nível do agente, do fluxo e da página.
Controla a sensibilidade para reconhecer o fim da fala na entrada de áudio do utilizador final. O valor varia entre 0 (sensibilidade baixa, menor probabilidade de terminar a fala) e 100 (sensibilidade alta, maior probabilidade de terminar a fala).
Sensibilidade avançada de fim de voz baseada em tempo limite
Pode ser definido ao nível do agente e desativado ao nível do fluxo e da página.
Se esta definição estiver ativada, o valor da definição Sensibilidade ao fim da fala é usado como um indicador para estabelecer um tempo limite de silêncio de áudio relativo para determinar o fim da fala. Se esta definição estiver desativada (predefinição), o valor da definição Sensibilidade ao fim da fala é usado para determinar o fim da fala pelo modelo de ML fornecido pelo Google Cloud Speech-to-Text.
Embora a definição Sensibilidade ao fim da fala suporte apenas o phone_call
modelo de voz para a etiqueta en-US
language por predefinição, a definição Ativar sensibilidade avançada ao fim da fala baseada em tempo limite permite configurar a sensibilidade ao fim da fala para todos os idiomas e modelos de voz suportados pelo Dialogflow.
Ative a deteção de fim inteligente
Só pode ser definido ao nível do agente.
Se esta definição estiver ativada, os agentes conversacionais (Dialogflow CX) analisam a entrada parcial do utilizador para determinar o fim da fala. Por exemplo, se o utilizador disser "Quero" e fizer uma pausa, os agentes conversacionais (Dialogflow CX) aguardam que o utilizador continue a frase.
Isto é particularmente útil para a recolha de parâmetros numéricos, em que o utilizador pode dizer "1234" e fazer uma pausa antes de dizer "5678". Para aplicar esta definição a um parâmetro específico, tem de configurar o encaminhamento inteligente no formulário do parâmetro.
Esta definição só está disponível para a etiqueta de idioma en-US
e está desativada por predefinição.
Nenhum limite de tempo de voz
Pode ser definido ao nível do agente, do fluxo e da página.
A duração em segundos durante a qual os agentes conversacionais (Dialogflow CX) vão parar de aguardar a entrada de áudio do utilizador final. A predefinição é 5 segundos e o valor máximo é 60 segundos. Para este limite de tempo, os agentes conversacionais (Dialogflow CX) invocam um evento no-input.
Interrupção
Pode ser definido ao nível do agente, do fluxo e do processamento de pedidos.
Quando ativada, um utilizador final pode interromper o áudio de resposta dos agentes conversacionais (Dialogflow CX). Quando interrompidos, os agentes conversacionais (Dialogflow CX) deixam de enviar áudio e processam a entrada do utilizador final seguinte.
Se existirem várias mensagens na fila de mensagens e uma mensagem tiver sido colocada em fila por um preenchimento associado a uma página, um fluxo ou um agente com a funcionalidade de interrupção ativada, todas as mensagens seguintes na fila também vão ter a funcionalidade de interrupção ativada. Neste caso, a integração vai parar de reproduzir áudio para todas as mensagens em fila com a funcionalidade de interrupção ativada.
Permitir o cancelamento da reprodução de respostas parciais
Só pode ser definido ao nível do processamento.
Pode ativar esta definição quando a caixa Ativar definições de voz avançadas estiver selecionada em Definições do agente > Voz e IVR e a resposta parcial estiver ativada ao nível do processamento de pedidos. Esta definição permite o cancelamento de uma reprodução de resposta parcial.
Se uma mensagem na fila de mensagens for criada por um preenchimento que permita o cancelamento, a reprodução da mensagem é cancelada se for adicionada outra mensagem à fila. Isto é útil quando quer que uma mensagem inicial inicie a reprodução, mas que essa reprodução seja cancelada se um webhook funcional produzir outra mensagem antes de a reprodução da mensagem inicial ser concluída.
Recipiente de exportação de áudio
Podem ser definidas ao nível do agente e do fluxo.
Se forem fornecidos, todos os dados de áudio associados a um pedido são guardados no contentor do Cloud Storage:
Áudio guardado | Pedidos aplicáveis |
---|---|
Entrada de áudio do utilizador final | DetectIntent, StreamingDetectIntent, AnalyzeContent, StreamingAnalyzeContent |
Áudio de conversão de texto em voz (TTS) sintetizado para uma resposta | AnalyzeContent, StreamingAnalyzeContent |
Conceda a função Criador de objetos de armazenamento às seguintes contas de serviço no seu projeto:
À conta de serviço do formato
one-click@df-cx-ALPHANUMERIC_VALUE-ALPHANUMERIC_VALUE.iam.gserviceaccount.com
se usar uma integração de telefonia incorporada de parceiros.Para a conta de serviço do formato
service-PROJECT_NUMBER@gcp-sa-dialogflow.iam.gserviceaccount.com
se usar a integração do Dialogflow CX Phone Gateway. Para encontrar esta conta de serviço no IAM, selecione a opção Incluir concessões de funções fornecidas pela Google.
DTMF
Consulte a documentação sobre DTMF (sinalização multifrequencial de dois tons) para mais informações sobre esta funcionalidade.