Definições de voz avançadas

Este guia fornece definições adicionais e avançadas para as funcionalidades de voz. Pode ativar e desativar estas definições avançadas navegando para Definições do agente > Voz e IVR > Conversão de voz em texto > Definições avançadas de voz.

Estas definições estão disponíveis nas definições do agente (aplicam-se a todo o agente), nas definições do fluxo (aplicam-se a todo o fluxo e substituem as definições do agente), nas definições da página (aplicam-se à página e substituem as definições do fluxo e do agente) e nas definições de processamento de pedidos (aplicam-se ao processamento de pedidos e substituem as definições da página, do fluxo e do agente). Um subconjunto destas definições está disponível em cada nível, consoante a relevância da definição para o nível. *Antes de poder configurar estas definições a qualquer nível inferior, tem de selecionar primeiro a caixa Ativar definições de voz avançadas ao nível do agente (Definições do agente > Voz e IVR > Conversão de voz em texto > Definições de voz avançadas)*.

As definições atualizadas ao nível do agente não são propagadas ao nível do fluxo, da página e do processamento quando a opção Personalizar é selecionada nestes níveis inferiores. Se a opção Personalizar abranger várias definições e quiser atualizar apenas algumas delas, também pode ter de atualizar outras definições se quiser que sejam iguais às definições ao nível do agente.

Disponibilidade das definições por nível

A tabela seguinte indica que definições de voz avançadas estão disponíveis em cada nível:

Nome da definição Agente Flow Página Fulfillment
Seleção de modelo (conversão de voz em texto)
Fim da sensibilidade da voz
Sensibilidade avançada de fim de voz baseada em tempo limite
Ative a deteção de fim inteligente
Nenhum limite de tempo de voz
Interrupção
Permitir o cancelamento da reprodução de respostas parciais
Recipiente de exportação de áudio
DTMF

Seleção de modelo (conversão de voz em texto)

Pode ser definido ao nível do agente, do fluxo e da página.

Define o modelo de voz usado para o reconhecimento de voz. Esta definição é específica do idioma, pelo que pode selecionar modelos diferentes para idiomas diferentes. Também pode selecionar a opção Substituir modelo de voz ao nível do pedido, o que fará com que o modelo selecionado seja usado mesmo que uma chamada da API de tempo de execução especifique um modelo diferente.

Para o Dialogflow CX Phone Gateway de agentes conversacionais, consulte as limitações. Para mais informações, consulte o artigo Modelos de voz.

Fim da sensibilidade da voz

Pode ser definido ao nível do agente, do fluxo e da página.

Controla a sensibilidade para reconhecer o fim da fala na entrada de áudio do utilizador final. O valor varia entre 0 (sensibilidade baixa, menor probabilidade de terminar a fala) e 100 (sensibilidade alta, maior probabilidade de terminar a fala).

Sensibilidade avançada de fim de voz baseada em tempo limite

Pode ser definido ao nível do agente e desativado ao nível do fluxo e da página.

Se esta definição estiver ativada, o valor da definição Sensibilidade ao fim da fala é usado como um indicador para estabelecer um tempo limite de silêncio de áudio relativo para determinar o fim da fala. Se esta definição estiver desativada (predefinição), o valor da definição Sensibilidade ao fim da fala é usado para determinar o fim da fala pelo modelo de ML fornecido pelo Google Cloud Speech-to-Text.

Embora a definição Sensibilidade ao fim da fala suporte apenas o phone_callmodelo de voz para a etiqueta en-US language por predefinição, a definição Ativar sensibilidade avançada ao fim da fala baseada em tempo limite permite configurar a sensibilidade ao fim da fala para todos os idiomas e modelos de voz suportados pelo Dialogflow.

Ative a deteção de fim inteligente

Só pode ser definido ao nível do agente.

Se esta definição estiver ativada, os agentes conversacionais (Dialogflow CX) analisam a entrada parcial do utilizador para determinar o fim da fala. Por exemplo, se o utilizador disser "Quero" e fizer uma pausa, os agentes conversacionais (Dialogflow CX) aguardam que o utilizador continue a frase.

Isto é particularmente útil para a recolha de parâmetros numéricos, em que o utilizador pode dizer "1234" e fazer uma pausa antes de dizer "5678". Para aplicar esta definição a um parâmetro específico, tem de configurar o encaminhamento inteligente no formulário do parâmetro.

Esta definição só está disponível para a etiqueta de idioma en-US e está desativada por predefinição.

Nenhum limite de tempo de voz

Pode ser definido ao nível do agente, do fluxo e da página.

A duração em segundos durante a qual os agentes conversacionais (Dialogflow CX) vão parar de aguardar a entrada de áudio do utilizador final. A predefinição é 5 segundos e o valor máximo é 60 segundos. Para este limite de tempo, os agentes conversacionais (Dialogflow CX) invocam um evento no-input.

Interrupção

Pode ser definido ao nível do agente, do fluxo e do processamento de pedidos.

Quando ativada, um utilizador final pode interromper o áudio de resposta dos agentes conversacionais (Dialogflow CX). Quando interrompidos, os agentes conversacionais (Dialogflow CX) deixam de enviar áudio e processam a entrada do utilizador final seguinte.

Se existirem várias mensagens na fila de mensagens e uma mensagem tiver sido colocada em fila por um preenchimento associado a uma página, um fluxo ou um agente com a funcionalidade de interrupção ativada, todas as mensagens seguintes na fila também vão ter a funcionalidade de interrupção ativada. Neste caso, a integração vai parar de reproduzir áudio para todas as mensagens em fila com a funcionalidade de interrupção ativada.

Permitir o cancelamento da reprodução de respostas parciais

Só pode ser definido ao nível do processamento.

Pode ativar esta definição quando a caixa Ativar definições de voz avançadas estiver selecionada em Definições do agente > Voz e IVR e a resposta parcial estiver ativada ao nível do processamento de pedidos. Esta definição permite o cancelamento de uma reprodução de resposta parcial.

Se uma mensagem na fila de mensagens for criada por um preenchimento que permita o cancelamento, a reprodução da mensagem é cancelada se for adicionada outra mensagem à fila. Isto é útil quando quer que uma mensagem inicial inicie a reprodução, mas que essa reprodução seja cancelada se um webhook funcional produzir outra mensagem antes de a reprodução da mensagem inicial ser concluída.

Recipiente de exportação de áudio

Podem ser definidas ao nível do agente e do fluxo.

Se forem fornecidos, todos os dados de áudio associados a um pedido são guardados no contentor do Cloud Storage:

Áudio guardado Pedidos aplicáveis
Entrada de áudio do utilizador final DetectIntent, StreamingDetectIntent, AnalyzeContent, StreamingAnalyzeContent
Áudio de conversão de texto em voz (TTS) sintetizado para uma resposta AnalyzeContent, StreamingAnalyzeContent

Conceda a função Criador de objetos de armazenamento às seguintes contas de serviço no seu projeto:

  • À conta de serviço do formato one-click@df-cx-ALPHANUMERIC_VALUE-ALPHANUMERIC_VALUE.iam.gserviceaccount.com se usar uma integração de telefonia incorporada de parceiros.

  • Para a conta de serviço do formato service-PROJECT_NUMBER@gcp-sa-dialogflow.iam.gserviceaccount.com se usar a integração do Dialogflow CX Phone Gateway. Para encontrar esta conta de serviço no IAM, selecione a opção Incluir concessões de funções fornecidas pela Google.

DTMF

Consulte a documentação sobre DTMF (sinalização multifrequencial de dois tons) para mais informações sobre esta funcionalidade.