Configuración avanzada de voz

En esta guía, se proporciona una configuración avanzada y adicional para las funciones de voz. Para activar o desactivar esta configuración avanzada, navega a Configuración del agente > Agente de voz y IVR > Speech-to-Text > Configuración avanzada de voz.

Estos parámetros de configuración están disponibles en la configuración del agente (se aplica a todo el agente), la configuración del flujo (se aplica a todo el flujo y anula la configuración del agente), la configuración de la página (se aplica a la página y anula la configuración del flujo y del agente) y la configuración de entrega (se aplica a la entrega y anula la configuración de la página, el flujo y el agente). Un subconjunto de esta configuración está disponible en cada nivel, según la relevancia de la configuración del nivel. *Antes de poder configurar estos parámetros en un nivel inferior, primero debes marcar la casilla Habilitar configuración de voz avanzada a nivel del agente (Configuración del agente > Voz y IVR > Speech-to-Text > Configuración de voz avanzada)*.

La configuración actualizada a nivel del agente no se propaga al nivel del flujo, la página ni la entrega cuando se selecciona la opción Personalizar en estos niveles inferiores. Si la opción Personalizar abarca varios parámetros de configuración y deseas actualizar solo algunos de ellos, es posible que también debas actualizar otros parámetros si quieres que sean iguales a los parámetros de configuración a nivel del agente.

Disponibilidad de la configuración por nivel

En la siguiente tabla, se indica qué parámetros de configuración de voz avanzados están disponibles en cada nivel:

Nombre del parámetro de configuración Agente Flujo Página Fulfillment
Selección del modelo (Speech-to-Text)
Sensibilidad al final de la voz
Sensibilidad al final de la voz avanzada basada en el tiempo de espera
Habilita la asignación de extremos inteligente
Sin tiempo de espera de voz
Interrupción
Permite cancelar la reproducción de respuestas parciales
Bucket de exportación de audio
DTMF

Selección del modelo (Speech-to-Text)

Se puede establecer a nivel del agente, el flujo y la página.

Establece el modelo de voz que se usa para el reconocimiento de voz. Este parámetro de configuración es específico para cada idioma, por lo que puedes seleccionar diferentes modelos para diferentes idiomas. También puedes marcar Override request-level speech model, lo que hará que se use el modelo seleccionado, incluso si una llamada a la API del entorno de ejecución especifica un modelo diferente.

Para la puerta de enlace telefónica de agentes conversacionales (Dialogflow CX), consulta las limitaciones. Para obtener más información, consulta Modelos de voz.

Sensibilidad al final de la voz

Se puede establecer a nivel del agente, el flujo y la página.

Controla la sensibilidad para reconocer el final de la voz en la entrada de audio del usuario final. El valor varía de 0 (sensibilidad baja, menor probabilidad de finalizar la voz) a 100 (sensibilidad alta, más probable que finalice la voz).

Sensibilidad avanzada al final de la voz basada en el tiempo de espera

Se puede establecer a nivel del agente y se puede inhabilitar a nivel del flujo y de la página.

Si este parámetro de configuración está habilitado, el valor de configuración de Sensibilidad al final de la voz se usa como un indicador para establecer un tiempo de espera de silencio de audio relativo para determinar el final de la voz. Si este parámetro de configuración está inhabilitado (la configuración predeterminada), el valor de configuración de Sensibilidad al final de la voz se usa para determinar el final de la voz por parte del modelo de IA que proporciona Google Cloud Speech-to-Text.

Si bien el parámetro de configuración Sensibilidad al final de la voz solo admite el modelo de voz phone_call para la etiqueta language en-US de forma predeterminada, el parámetro de configuración Habilitar sensibilidad avanzada al final de la voz basada en el tiempo de espera permite configurar la sensibilidad al final de la voz para todos los idiomas y modelos de voz compatibles con Dialogflow.

Habilita la asignación de extremos inteligente

Solo se puede establecer a nivel del agente.

Si se habilita este parámetro de configuración, los agentes conversacionales (Dialogflow CX) analizarán la entrada parcial del usuario para determinar el final de la voz. Por ejemplo, si el usuario dice “Me gustaría” y hace una pausa, los agentes conversacionales (Dialogflow CX) esperarán a que el usuario continúe la oración.

Esto es particularmente útil para la recopilación de parámetros numéricos, en la que el usuario podría decir "1234" y hacer una pausa antes de decir "5678". Para aplicar este parámetro de configuración para un parámetro específico, debes configurar la dirección de extremo inteligente en el formulario del parámetro.

Este parámetro de configuración solo está disponible para la etiqueta de idioma en-US y está inhabilitado de forma predeterminada.

Sin tiempo de espera de voz

Se puede establecer a nivel del agente, el flujo y la página.

Es la duración en segundos durante la cual los agentes conversacionales (Dialogflow CX) dejarán de esperar la entrada de audio del usuario final. El valor predeterminado es de 5 segundos y el máximo es de 60 segundos. Para este tiempo de espera, los agentes conversacionales (Dialogflow CX) invocan un evento de no entrada.

Interrupción

Se puede establecer a nivel del agente, el flujo y la entrega.

Cuando está habilitado, un usuario final puede interrumpir el audio de respuesta de los agentes conversacionales (Dialogflow CX). Cuando se interrumpe, Agentes conversacionales (Dialogflow CX) dejará de enviar audio y procesará la siguiente entrada del usuario final.

Si hay varios mensajes en la cola de mensajes y un mensaje se puso en cola mediante una entrega asociada con una página, un flujo o un agente que tiene habilitada la interrupción, todos los mensajes siguientes de la cola también tendrán habilitada la interrupción. En este caso, la integración dejará de reproducir audio para todos los mensajes en cola con la opción habilitada.

Permite cancelar la reproducción de respuestas parciales

Solo se puede configurar a nivel de la entrega.

Puedes habilitar este parámetro de configuración cuando la casilla Habilitar configuración de voz avanzada está marcada en Configuración del agente > Voz y IVR y la respuesta parcial está habilitada a nivel de la entrega. Este parámetro de configuración permite cancelar la reproducción de una respuesta parcial.

Si un mensaje de la cola de mensajes se crea a través de una entrega que permite la cancelación, se cancela la reproducción del mensaje si se agrega otro mensaje a la cola. Esto es útil cuando deseas que un mensaje inicial inicie la reproducción, pero que esta se cancele si un webhook en funcionamiento produce otro mensaje antes de que se complete la reproducción del mensaje inicial.

Bucket de exportación de audio

Se puede establecer a nivel del agente y del flujo.

Si se proporcionan, los datos de audio asociados con una solicitud se guardarán en el bucket de Cloud Storage:

Audio guardado Solicitudes aplicables
Entrada de audio del usuario final DetectIntent, StreamingDetectIntent, AnalyzeContent y StreamingAnalyzeContent
Audio de Text-to-Speech (TTS) sintetizado para una respuesta AnalyzeContent y StreamingAnalyzeContent

Otorga el rol Creador de objetos de almacenamiento a las siguientes cuentas de servicio de tu proyecto:

  • A la cuenta de servicio con el formato one-click@df-cx-ALPHANUMERIC_VALUE-ALPHANUMERIC_VALUE.iam.gserviceaccount.com si usas una integración de telefonía incorporada para socios.

  • A la cuenta de servicio con el formato service-PROJECT_NUMBER@gcp-sa-dialogflow.iam.gserviceaccount.com si usas la integración de la Puerta de enlace telefónica de Dialogflow CX. Para encontrar esta cuenta de servicio en IAM, marca la opción Incluir asignaciones de roles proporcionadas por Google.

DTMF

Consulta la documentación de DTMF (señalización de doble tono y multifrecuencia) para obtener más información sobre esta función.