En esta guía, se proporcionan parámetros de configuración avanzados y adicionales para las funciones de voz. Puedes activar o desactivar estos parámetros de configuración avanzados. Para ello, navega a Configuración del agente > Voz y IVR > Speech-to-Text > Configuración avanzada de voz.
Estos parámetros de configuración están disponibles en la configuración del agente (se aplica a todo el agente), la configuración del flujo (se aplica a todo el flujo y anula la configuración del agente), la configuración de la página (se aplica a la página y anula la configuración del flujo y del agente) y la configuración de la entrega (se aplica a la entrega y anula la configuración de la página, el flujo y el agente). Un subconjunto de estos parámetros de configuración está disponible en cada nivel, según la relevancia del parámetro de configuración para el nivel. *Antes de configurar estos parámetros en cualquier nivel inferior, primero debes marcar la casilla Habilitar parámetros de configuración avanzados de voz a nivel del agente (Configuración del agente > Voz y IVR > Speech-to-Text > Parámetros de configuración avanzados de voz)*.
La configuración actualizada a nivel del agente no se propaga al flujo, la página ni el nivel de cumplimiento cuando se selecciona la opción Personalizar en estos niveles inferiores. Si la opción Personalizar abarca varios parámetros de configuración y solo quieres actualizar algunos de ellos, es posible que también debas actualizar otros parámetros si quieres que sean iguales a los de la configuración a nivel del agente.
Disponibilidad de la configuración por nivel
En la siguiente tabla, se indica qué parámetros de configuración de voz avanzados están disponibles en cada nivel:
Nombre del parámetro de configuración | Agente | Flujo | Página | Entrega |
---|---|---|---|---|
Selección del modelo (Speech-to-Text) | ✔ | ✔ | ✔ | |
Sensibilidad cuando se deja de escuchar una voz | ✔ | ✔ | ✔ | |
Sensibilidad avanzada al final de la voz basada en el tiempo de espera | ✔ | ✔ | ✔ | |
Cómo habilitar el recorte inteligente | ✔ | |||
Sin tiempo de espera de voz | ✔ | ✔ | ✔ | |
Interrupción | ✔ | ✔ | ✔ | |
Permite cancelar la reproducción de la respuesta parcial | ✔ | |||
Bucket de exportación de audio | ✔ | ✔ | ||
DTMF | ✔ | ✔ | ✔ |
Selección del modelo (Speech-to-Text)
Se puede configurar a nivel del agente, el flujo y la página.
Establece el modelo de voz que se usa para el reconocimiento de voz. Este parámetro de configuración es específico del idioma, por lo que puedes seleccionar diferentes modelos para diferentes idiomas. También puedes marcar la opción Anular el modelo de voz a nivel de la solicitud, lo que hará que se use el modelo seleccionado incluso si una llamada a la API en tiempo de ejecución especifica un modelo diferente.
Para la puerta de enlace telefónica de Conversational Agents (Dialogflow CX), consulta las limitaciones. Para obtener más información, consulta Modelos de voz.
Sensibilidad cuando se deja de escuchar una voz
Se puede configurar a nivel del agente, el flujo y la página.
Controla la sensibilidad para reconocer el final de la voz en la entrada de audio del usuario final. El valor varía de 0 (sensibilidad baja, menor probabilidad de finalizar la voz) a 100 (sensibilidad alta, más probable que finalice la voz).
Sensibilidad avanzada al final de la voz basada en el tiempo de espera
Se puede establecer a nivel del agente y se puede inhabilitar a nivel del flujo y de la página.
Si este parámetro de configuración está habilitado, el valor del parámetro de configuración Sensibilidad del final del habla se usa como indicador para establecer un tiempo de espera relativo de silencio de audio y determinar el final del habla. Si este parámetro de configuración está inhabilitado (opción predeterminada), se usa el valor del parámetro de configuración Sensibilidad del final del discurso para determinar el final del discurso con el modelo de AA proporcionado por Google Cloud Speech-to-Text.
Si bien el parámetro de configuración Sensibilidad cuando se deja de escuchar una voz solo admite el modelo de voz phone_call
para la etiqueta de idioma en-US
de forma predeterminada, el parámetro de configuración Habilitar la sensibilidad avanzada cuando se deja de escuchar una voz basada en el tiempo de espera permite configurar la sensibilidad cuando se deja de escuchar una voz para todos los idiomas y modelos de voz admitidos por Dialogflow.
Cómo habilitar el recorte inteligente
Solo se puede configurar a nivel del agente.
Si se habilita este parámetro de configuración, Conversational Agents (Dialogflow CX) analizará la entrada parcial del usuario para determinar el final del discurso. Por ejemplo, si el usuario dice "Me gustaría" y hace una pausa, los agentes conversacionales (Dialogflow CX) esperarán a que el usuario continúe la oración.
Esto es particularmente útil para la recopilación de parámetros numéricos, en la que el usuario podría decir "1234" y hacer una pausa antes de decir "5678". Para aplicar este parámetro de configuración a un parámetro específico, debes configurar el ajuste inteligente de extremos en el formulario del parámetro.
Este parámetro de configuración solo está disponible para la etiqueta de idioma en-US
y está inhabilitado de forma predeterminada.
Sin tiempo de espera de voz
Se puede configurar a nivel del agente, el flujo y la página.
Es la duración en segundos durante la cual los agentes conversacionales (Dialogflow CX) dejarán de esperar la entrada de audio del usuario final. El valor predeterminado es de 5 segundos y el valor máximo es de 60 segundos. Para este tiempo de espera, Conversational Agents (Dialogflow CX) invoca un evento de no entrada.
Interrupción
Se puede establecer a nivel del agente, el flujo y el cumplimiento.
Cuando está habilitado, un usuario final puede interrumpir el audio de respuesta de los agentes conversacionales (Dialogflow CX). Cuando se interrumpe, Conversational Agents (Dialogflow CX) dejará de enviar audio y procesará la siguiente entrada del usuario final.
Si hay varios mensajes en la cola de mensajes y un mensaje se puso en cola mediante una entrega asociada con una página, un flujo o un agente que tiene habilitada la interrupción, todos los mensajes siguientes de la cola también tendrán habilitada la interrupción. En este caso, la integración dejará de reproducir audio para todos los mensajes en cola con la opción habilitada.
Permite cancelar la reproducción de la respuesta parcial
Solo se puede configurar a nivel del cumplimiento.
Puedes habilitar este parámetro de configuración cuando la casilla de verificación Habilitar la configuración avanzada de voz esté marcada en Configuración del agente > Voz y IVR y la respuesta parcial esté habilitada a nivel del cumplimiento. Este parámetro de configuración permite cancelar la reproducción de una respuesta parcial.
Si un mensaje de la cola de mensajes se crea a partir de un cumplimiento que permite la cancelación, se cancela la reproducción del mensaje si se agrega otro mensaje a la cola. Esto es útil cuando quieres que un mensaje inicial inicie la reproducción, pero que se cancele si un webhook en funcionamiento produce otro mensaje antes de que se complete la reproducción del mensaje inicial.
Bucket de exportación de audio
Se puede establecer a nivel del agente y del flujo.
Si se proporciona, los datos de audio asociados a una solicitud se guardarán en el bucket de Cloud Storage:
Audio guardado | Solicitudes aplicables |
---|---|
Entrada de audio del usuario final | DetectIntent, StreamingDetectIntent, AnalyzeContent y StreamingAnalyzeContent |
Audio de Text-to-Speech (TTS) sintetizado para una respuesta | AnalyzeContent y StreamingAnalyzeContent |
Otorga el rol de creador de objetos de almacenamiento a las siguientes cuentas de servicio del proyecto:
A la cuenta de servicio con el formato
one-click@df-cx-ALPHANUMERIC_VALUE-ALPHANUMERIC_VALUE.iam.gserviceaccount.com
si usas una integración de telefonía incorporada para socios.A la cuenta de servicio con el formato
service-PROJECT_NUMBER@gcp-sa-dialogflow.iam.gserviceaccount.com
si usas la integración de la Puerta de enlace telefónica de Dialogflow CX. Para encontrar esta cuenta de servicio en IAM, marca la opción Incluir asignaciones de roles proporcionadas por Google.
DTMF
Consulta la documentación sobre la señalización multifrecuencia de doble tono (DTMF) para obtener más información sobre esta función.