Alguns produtos e recursos estão sendo renomeados. Os recursos de playbook generativo e de fluxo também estão sendo migrados para um único console consolidado. Confira os detalhes.

Esta página foi traduzida pela API Cloud Translation.

Configurações avançadas de fala

Este guia oferece configurações adicionais e avançadas para recursos de fala. É possível ativar e desativar essas configurações avançadas em Configurações do agente > Fala e URA > Speech-to-Text > Configurações de fala avançadas.

Essas configurações estão disponíveis nas configurações do agente (se aplicam a todo o agente), configurações do fluxo (se aplicam a todo o fluxo e substituem as configurações do agente), configurações da página (se aplicam à página e substituem as configurações do fluxo e do agente) e configurações de fulfillment (se aplicam ao fulfillment e substituem as configurações da página, do fluxo e do agente). Um subconjunto dessas configurações está disponível em cada nível, dependendo da relevância da configuração para o nível. *Antes de configurar essas configurações em qualquer nível inferior, marque a caixa Ativar configurações de voz avançadas no nível do agente (Configurações do agente > Voz e IVR > Speech-to-Text > Configurações de voz avançadas)*.

As configurações atualizadas no nível do agente não são propagadas para o fluxo, a página e o nível de preenchimento quando a opção Personalizar está selecionada nesses níveis mais baixos. Se a opção Personalizar abranger várias configurações e você quiser atualizar apenas algumas delas, talvez seja necessário atualizar outras se quiser que elas sejam iguais às configurações do agente.

Disponibilidade das configurações por nível

A tabela a seguir indica quais configurações avançadas de fala estão disponíveis em cada nível:

Nome da configuração	Agente	Fluxo	Página	Fulfillment
Seleção de modelo (conversão Speech-to-Text)	✔	✔	✔
Sensibilidade ao fim da fala	✔	✔	✔
Sensibilidade ao fim da fala com tempo limite avançado	✔	✔	✔
Ativar o endpoint inteligente	✔
Sem tempo limite de fala	✔	✔	✔
Interrupção	✔	✔
Permitir o cancelamento da reprodução de respostas parciais				✔
Bucket de exportação de áudio	✔	✔
DTMF	✔	✔	✔

Seleção de modelo (conversão Speech-to-Text)

Pode ser definido nos níveis de agente, fluxo e página.

Define o modelo de fala usado para reconhecimento de fala. Essa configuração é específica para cada idioma, então você pode selecionar modelos diferentes para idiomas diferentes. Você também pode marcar Substituir modelo de fala no nível da solicitação, o que fará com que o modelo selecionado seja usado mesmo que uma chamada de API no ambiente de execução especifique um modelo diferente.

Para o gateway telefônico de agentes de conversação (Dialogflow CX), consulte as limitações. Para mais informações, consulte Modelos de fala.

Sensibilidade ao fim da fala

Pode ser definido nos níveis de agente, fluxo e página.

Controla a sensibilidade do reconhecimento do final da fala na entrada de áudio do usuário final. O valor varia de 0 (baixa sensibilidade, menor probabilidade de terminar a fala) a 100 (alta sensibilidade, mais provável de terminar a fala).

Sensibilidade ao fim da fala com tempo limite avançado

Pode ser definido no nível do agente e desativado no nível do fluxo e da página.

Se essa configuração estiver ativada, o valor da configuração Sensibilidade ao fim da fala será usado como um indicador para estabelecer um tempo limite relativo de silêncio de áudio para determinar o fim da fala. Se essa configuração estiver desativada (padrão), o valor da configuração Sensibilidade do fim da fala será usado para determinar o fim da fala pelo modelo de ML fornecido pelo Google Cloud Texto para fala.

Embora a configuração Sensibilidade ao fim da fala ofereça suporte apenas ao modelo de fala phone_call para a tag language en-US por padrão, a configuração Ativar a sensibilidade ao fim da fala avançado com base no tempo limite permite configurar a sensibilidade ao fim da fala para todos os idiomas e modelos de fala aceitos pelo Dialogflow.

Ativar o endpoint inteligente

Só pode ser definido no nível do agente.

Se essa configuração estiver ativada, os agentes de conversação (Dialogflow CX) vão analisar a entrada parcial do usuário para determinar o fim da fala. Por exemplo, se o usuário disser "Eu gostaria de" e pausar, os agentes de conversação (Dialogflow CX) vão esperar que o usuário continue a frase.

Isso é útil principalmente para a coleta de parâmetros numéricos, em que o usuário pode dizer "1234" e fazer uma pausa antes de dizer "5678". Para aplicar essa configuração a um parâmetro específico, configure Endpoint inteligente no formulário do parâmetro.

Essa configuração está disponível apenas para a tag de idioma en-US e é desativada por padrão.

Sem tempo limite de fala

Pode ser definido nos níveis de agente, fluxo e página.

O tempo em segundos que os agentes de conversação (Dialogflow CX) deixam de aguardar a entrada de áudio do usuário final. O padrão é 5 segundos, e o valor máximo é 60 segundos. Para esse tempo limite, os agentes de conversação (Dialogflow CX) invocam um evento sem entrada.

Interrupção

Pode ser definido nos níveis de agente, fluxo e fulfillment.

Quando ativado, um usuário final pode interromper o áudio da resposta dos agentes de conversação (Dialogflow CX). Quando interrompido, o agente de conversação (Dialogflow CX) vai interromper o envio de áudio e processar a próxima entrada do usuário final.

Se houver várias mensagens na fila de mensagens e uma mensagem foi enfileirada por um fulfillment associado a uma página, um fluxo ou um agente com o carregamento ativado, todas as mensagens seguintes na fila também terão o carregamento ativado. Nesse caso, a integração vai parar de reproduzir áudio para todas as mensagens na fila com a ativação ativada.

Permitir o cancelamento da reprodução de respostas parciais

Só pode ser definido no nível de atendimento.

É possível ativar essa configuração quando a caixa Ativar configurações avançadas de fala estiver marcada em Configurações do agente > Fala e URA e a resposta parcial estiver ativada no nível de fulfillment. Essa configuração permite o cancelamento de uma reprodução de resposta parcial.

Se uma mensagem na fila de mensagens for criada por um fulfillment que permite o cancelamento, a reprodução da mensagem será cancelada se outra mensagem for adicionada à fila. Isso é útil quando você quer que uma mensagem inicial inicie a reprodução, mas que essa reprodução seja cancelada se um webhook em funcionamento produzir outra mensagem antes que a reprodução da mensagem inicial seja concluída.

Bucket de exportação de áudio

Pode ser definido nos níveis de agente e fluxo.

Se fornecidos, todos os dados de áudio associados a uma solicitação serão salvos no bucket do Cloud Storage:

Áudio salvo	Solicitações aplicáveis
Entrada de áudio do usuário final	DetectIntent, StreamingDetectIntent, AnalyzeContent, StreamingAnalyzeContent
Áudio de conversão da Text-to-Speech (TTS) sintetizado para uma resposta	AnalyzeContent, StreamingAnalyzeContent

Conceda o papel Criador de objetos do Storage às seguintes contas de serviço no seu projeto:

Para a conta de serviço no formato one-click@df-cx-ALPHANUMERIC_VALUE-ALPHANUMERIC_VALUE.iam.gserviceaccount.com, se você usar uma integração de telefonia integrada por parceiro.
Para a conta de serviço no formato service-PROJECT_NUMBER@gcp-sa-dialogflow.iam.gserviceaccount.com, se você usar a integração do Dialogflow CX Phone Gateway. Para encontrar essa conta de serviço no IAM, marque a opção Incluir concessões de papel fornecidas pelo Google.

DTMF

Consulte a documentação sobre DTMF (sinalização de frequência dupla e tom) para mais informações sobre esse recurso.

Adaptação de fala

Avançar

Migração do speech model no 1º trimestre de 2024

Configurações avançadas de fala Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Disponibilidade das configurações por nível

Seleção de modelo (conversão Speech-to-Text)

Sensibilidade ao fim da fala

Sensibilidade ao fim da fala com tempo limite avançado

Ativar o endpoint inteligente

Sem tempo limite de fala

Interrupção

Permitir o cancelamento da reprodução de respostas parciais

Bucket de exportação de áudio

DTMF

Configurações avançadas de fala