Configuración avanzada de voz

En esta guía, se proporciona una configuración avanzada y adicional para las funciones de voz. Puedes activa o desactiva esta configuración avanzada en Configuración del agente > IVR y voz > Speech-to-Text > Configuración de voz avanzada.

Estos parámetros de configuración están disponibles en la configuración del agente (se aplica a todo el agente), la configuración del flujo (se aplica a todo el flujo y anula la configuración del agente), la configuración de la página (se aplica a la página y anula la configuración del flujo y del agente) y la configuración de entrega (se aplica a la entrega y anula la configuración de la página, el flujo y el agente). Un subconjunto de esta configuración está disponible en cada nivel, según la relevancia de la configuración del nivel. *Antes de configurar estos ajustes en cualquier nivel primero debes marcar la casilla Habilitar configuración de voz avanzada en A nivel del agente (Configuración del agente > IVR y voz > Speech-to-Text > Voz avanzada ).*

La configuración actualizada a nivel del agente no se propaga al nivel del flujo, la página ni la entrega cuando se selecciona la opción Personalizar en estos niveles inferiores. Si la opción Personalizar abarca varios parámetros de configuración y solo quieres actualizar algunos de ellos, es posible que también debas actualizar otros si quieres que sean iguales a los parámetros de configuración a nivel del agente.

Disponibilidad de la configuración por nivel

La siguiente tabla indica en qué configuración de voz avanzada están disponibles cada nivel:

Nombre del parámetro de configuración Agente Flujo Página Fulfillment
Selección del modelo (Speech-to-Text)
Sensibilidad al final de la voz
Sensibilidad avanzada al final de voz basada en tiempo de espera
Habilita la asignación de extremos inteligente
Sin tiempo de espera de voz
Interrupción
Permite cancelar la reproducción de respuestas parciales
Bucket de exportación de audio
DTMF

Selección del modelo (Voz a texto)

Se puede establecer a nivel del agente, del flujo y de la página.

Establece el modelo de voz que se usa para el reconocimiento de voz. Este parámetro de configuración es específicos para cada idioma, de modo que puedas seleccionar modelos diferentes para distintos idiomas. También puedes marcar Anular el modelo de voz a nivel de la solicitud, lo que hará que se muestre un modelo seleccionado para usarlo incluso si una llamada a la API del entorno de ejecución especifica un valor un modelo de responsabilidad compartida.

Para la puerta de enlace telefónica de agentes conversacionales (Dialogflow CX), consulta las limitaciones. Para obtener más información, consulta Modelos de voz.

Sensibilidad de fin de voz

Se puede establecer a nivel del agente, del flujo y de la página.

Controla la sensibilidad para reconocer el final de la voz en el audio del usuario final entrada. El valor varía de 0 (sensibilidad baja, menor probabilidad de finalizar la voz) a 100 (sensibilidad alta, más probable que finalice la voz).

Sensibilidad avanzada al final de voz basada en tiempo de espera

Se puede configurar a nivel del agente y se puede inhabilitar a nivel del flujo y de la página.

Si se habilita este parámetro de configuración, Sensibilidad de fin de voz El valor de configuración se usa como indicador para establecer un tiempo de espera de silencio relativo de audio. para determinar el final del discurso. Si este parámetro de configuración está inhabilitado (la configuración predeterminada), el valor de configuración de Sensibilidad al final de la voz se usa para determinar el final de la voz por parte del modelo de IA que proporciona Google Cloud Speech-to-Text.

El parámetro de configuración Sensibilidad del final de voz solo admite el parámetro phone_call modelo de voz para el idioma en-US etiqueta de forma predeterminada, la opción Habilitar la sensibilidad avanzada del fin de la voz basada en tiempo de espera permite configurar la sensibilidad de fin de la voz para todos los idiomas y modelos de voz compatibles con Dialogflow.

Habilitar el extremo inteligente

Solo se puede configurar a nivel del agente.

Si se habilita este parámetro de configuración, los agentes de conversación (Dialogflow CX) analizarán la entrada parcial del usuario para lo siguiente: determinar el final del discurso. Por ejemplo, si el usuario dice: “Me gustaría” y pausa, los agentes de conversación (Dialogflow CX) esperarán a que el usuario continúe con la oración.

Esto es particularmente útil para la recopilación de parámetros numéricos, en la que el usuario podría decir "1234" y hacer una pausa antes de decir "5678". Para aplicar este parámetro de configuración, para un parámetro específico, debes configurar Extremos inteligentes en el formulario del parámetro.

Este parámetro de configuración solo está disponible para la etiqueta de idioma en-US y lo inhabilita en de forma predeterminada.

Sin tiempo de espera de voz

Se puede configurar a nivel del agente, el flujo y la página.

Es la duración en segundos durante la cual los agentes conversacionales (Dialogflow CX) dejarán de esperar la entrada de audio del usuario final. El valor predeterminado es 5 segundos y el valor máximo es 60 segundos. Para este tiempo de espera, los agentes de conversación (Dialogflow CX) invocan un evento sin entrada.

Embarcación

Se puede establecer a nivel del agente, el flujo y la entrega.

Cuando está habilitado, un usuario final puede interrumpir el audio de respuesta de los agentes conversacionales (Dialogflow CX). Cuándo interrumpida, los agentes de conversación (Dialogflow CX) dejarán de enviar audio y procesarán los siguientes la entrada del usuario final.

Si hay varios mensajes en la fila de mensajes: y un mensaje se puso en cola por una entrega asociada a una página, un flujo o un agente que tenga habilitada la interrupción, todos los siguientes mensajes de la cola también tienen habilitadas las interrupciones. En este caso, la integración dejará de reproducir audio para todos los mensajes en cola con la opción habilitada.

Permite cancelar la reproducción de respuestas parciales

Solo se puede configurar a nivel de la entrega.

Puedes habilitar este parámetro de configuración cuando la casilla Habilitar configuración de voz avanzada está marcada en Configuración del agente > IVR y voz, y la respuesta parcial está habilitada a nivel de la entrega. Este parámetro de configuración permite cancelar la reproducción de una respuesta parcial.

Si un mensaje de la cola de mensajes se crea a través de una entrega que permite la cancelación, se cancela la reproducción del mensaje si se agrega otro mensaje a la cola. Esto es útil cuando deseas que un mensaje inicial inicie la reproducción, pero que esta se cancele si un webhook que funciona produce otro mensaje antes de que se complete la reproducción del mensaje inicial.

Bucket de exportación de audio

Se puede configurar a nivel de agente y flujo.

Si se proporcionan, los datos de audio asociados con una solicitud se guardarán en el bucket de Cloud Storage:

Se guardó el audio Solicitudes aplicables
Entrada de audio del usuario final DetectIntent, StreamingDetectIntent, AnalyzeContent y StreamingAnalyzeContent
Audio de Text-to-Speech (TTS) sintetizado para una respuesta AnalyzeContent y StreamingAnalyzeContent

Otorga el rol de creador de objetos de almacenamiento a las siguientes cuentas de servicio de tu proyecto:

  • A la cuenta de servicio con el formato one-click@df-cx-ALPHANUMERIC_VALUE-ALPHANUMERIC_VALUE.iam.gserviceaccount.com si usas una integración de telefonía incorporada para socios.

  • A la cuenta de servicio con el formato service-PROJECT_NUMBER@gcp-sa-dialogflow.iam.gserviceaccount.com si usas la integración de la Puerta de enlace telefónica de Dialogflow CX. Para encontrar esta cuenta de servicio en IAM, marca la opción Incluir asignaciones de roles proporcionadas por Google.

DTMF

Consulta la Documentación de DTMF (señalización de multifrecuencia de doble tono) para obtener más información sobre esta función.