Configurações avançadas de fala

Este guia oferece configurações adicionais e avançadas para recursos de fala. Você pode Desative e ative essas configurações avançadas acessando Configurações do agente > Fala e URA > Speech-to-Text > Configurações avançadas de fala.

Essas configurações estão disponíveis nas configurações do agente (se aplicam a todo o agente), de fluxo (se aplica a todo o fluxo e substitui as configurações do agente), configurações de página (aplica-se a configurações de página e substitui as configurações de fluxo e agente), e configurações de fulfillment (se aplica ao fulfillment e substitui as páginas, o fluxo e as configurações do agente). Um subconjunto dessas configurações está disponível em cada nível, dependendo da relevância da configuração para o nível. *Antes de definir essas configurações abaixo marque a caixa Ativar configurações avançadas de fala no Nível do agente (Configurações do agente > Speech e URA > Speech-to-Text > Fala avançada configurações)*.

As configurações atualizadas no nível do agente não são propagadas para o fluxo, a página e o nível de preenchimento quando a opção Personalizar está selecionada nesses níveis mais baixos. Se a opção Personalizar abranger várias configurações e você quiser atualizar apenas algumas delas, talvez seja necessário atualizar outras se quiser que elas sejam iguais às configurações do agente.

Disponibilidade de configurações por nível

A tabela a seguir indica quais configurações avançadas de fala estão disponíveis em cada nível:

Nome da configuração Agente Fluxo Página Fulfillment
Seleção de modelo (Speech-to-Text)
Sensibilidade ao fim da fala
Sensibilidade de fim de fala avançada com base em tempo limite
Ativar endpoints inteligentes
Sem tempo limite de fala
Interrupção
Permitir o cancelamento da reprodução de resposta parcial
Bucket de exportação de áudio
DTMF

Seleção de modelo (Speech-to-Text)

Pode ser definido nos níveis do agente, do fluxo e da página.

Define o modelo de fala usado para reconhecimento de fala. Essa configuração é específica do idioma, então você pode selecionar modelos diferentes para idiomas diferentes. Você também pode verificar a opção Override speech model at request level, que faz com que o modelo selecionado seja usado mesmo que uma chamada de API no ambiente de execução especifique um modelo diferente.

Para o gateway de telefone dos agentes de conversação (Dialogflow CX), consulte limitações. Para mais informações, consulte Modelos de fala.

Sensibilidade ao fim da fala

Pode ser definido nos níveis do agente, do fluxo e da página.

Controla a sensibilidade do reconhecimento do final da fala na entrada de áudio do usuário final. O valor varia de 0 (baixa sensibilidade, menor probabilidade de terminar a fala) a 100 (alta sensibilidade, mais provável de terminar a fala).

Fim da sensibilidade à fala com tempo limite avançado

Pode ser definido no nível do agente e desativado no nível do fluxo e da página.

Se essa configuração estiver ativada, o valor da configuração Sensibilidade do fim da fala será usado como um indicador para estabelecer um tempo limite relativo de silêncio de áudio para determinar o fim da fala. Se essa configuração estiver desativada (padrão), os O valor da configuração Sensibilidade de fim de fala é usado para determinar o fim do fala pelo modelo de ML fornecido pelo Google Cloud Speech-to-Text.

Embora a configuração Sensibilidade de fim de fala seja compatível apenas com phone_call modelo de fala para o idioma en-US a tag Ativar sensitividade avançada de fim de fala com base em tempo limite permite configurar a sensibilidade de fim de fala para todos os idiomas e de fala compatíveis com o Dialogflow.

Ativar endpoints inteligentes

Só pode ser definido no nível do agente.

Se essa configuração estiver ativada, os agentes de conversação (Dialogflow CX) analisarão a entrada parcial do usuário para determinar o fim da fala. Por exemplo, se o usuário disser "Eu gostaria de" e pausar, os agentes de conversação (Dialogflow CX) vão esperar que o usuário continue a frase.

Isso é particularmente útil para a coleta de parâmetros numéricos, em que o usuário pode dizer "1234" e fazer uma pausa antes de dizer "5678". Para aplicar essa configuração a um parâmetro específico, configure Endpoint inteligente no formulário do parâmetro.

Essa configuração está disponível apenas para a tag do idioma en-US e foi desativada por padrão.

Sem tempo limite de fala

Pode ser definido nos níveis do agente, do fluxo e da página.

A duração em segundos que os agentes de conversa (Dialogflow CX) vão parar de esperar pelo usuário final entrada de áudio. O padrão é 5 segundos, e o valor máximo é 60 segundos. Para tempo limite, os agentes de conversa (Dialogflow CX) invocam um evento sem entrada.

Interrupção

Pode ser definido nos níveis de agente, fluxo e atendimento.

Quando ativada, um usuário final pode interromper o áudio de resposta dos Agentes de conversa (Dialogflow CX). Quando interrompidos, os agentes de conversação (Dialogflow CX) param de enviar áudio e processam a próxima entrada do usuário final.

Se houver várias mensagens na fila de mensagens: e uma mensagem tiver sido enfileirada por um fulfillment associado a uma página, fluxo ou agente estiver com a permissão barge-in ativada, todas as mensagens seguintes na fila também serão estão com a barge ativada. Nesse caso, a integração vai parar de reproduzir áudio para todas as mensagens na fila com a ativação ativada.

Permitir o cancelamento da reprodução de resposta parcial

Só pode ser definido no nível de atendimento.

Você poderá ativar essa configuração quando a caixa Ativar configurações avançadas de fala estiver marque Configurações do agente > Fala e URA e resposta parcial é ativada no nível do atendimento. Essa configuração permite o cancelamento a reprodução de resposta parcial.

Se uma mensagem na fila de mensagens for criada por um fulfillment que permite o cancelamento, a reprodução da mensagem será cancelada se outra mensagem for adicionada à fila. Isso é útil quando você deseja uma mensagem inicial para iniciar a reprodução, mas para que a reprodução seja cancelada se uma o webhook em funcionamento produz outra mensagem antes da reprodução da mensagem inicial é concluída.

Bucket de exportação de áudio

Pode ser definido nos níveis de agente e fluxo.

Se fornecidos, todos os dados de áudio associados a uma solicitação serão salvos no Bucket do Cloud Storage:

Áudio salvo Solicitações aplicáveis
Entrada de áudio do usuário final DetectIntent, StreamingDetectIntent, AnalyzeContent, StreamingAnalyzeContent
Áudio de conversão de texto em voz (TTS) sintetizado para uma resposta AnalyzeContent e StreamingAnalyzeContent

Conceda o papel Criador de objetos do Storage às seguintes contas de serviço no projeto:

  • Para a conta de serviço no formato one-click@df-cx-ALPHANUMERIC_VALUE-ALPHANUMERIC_VALUE.iam.gserviceaccount.com, se você usar uma integração de telefonia integrada por parceiro.

  • Para a conta de serviço no formato service-PROJECT_NUMBER@gcp-sa-dialogflow.iam.gserviceaccount.com, se você usar a integração do Dialogflow CX Phone Gateway. Para encontrar essa conta de serviço no IAM, marque a caixa Incluir a opção de concessões de papéis fornecida pelo Google.

DTMF

Consulte a Documentação da sinalização de multifrequência de dois tons (DTMF, na sigla em inglês) para mais informações sobre esse recurso.