Estamos cambiando el nombre de algunos productos y funciones. Las funciones de guía y flujo generativos también se están migrando a una única consola consolidada. Consulta los detalles.

Esta página se ha traducido con Cloud Translation API.

Ajustes de voz avanzados

En esta guía se incluyen ajustes avanzados adicionales para las funciones de voz. Puedes activar y desactivar estos ajustes avanzados en Ajustes del agente > Voz e IVR > Conversión de voz a texto > Ajustes avanzados de voz.

Estos ajustes están disponibles en la configuración del agente (se aplica a todo el agente), en la configuración del flujo (se aplica a todo el flujo y anula la configuración del agente), en la configuración de la página (se aplica a la página y anula la configuración del flujo y del agente) y en la configuración del cumplimiento (se aplica al cumplimiento y anula la configuración de la página, del flujo y del agente). En cada nivel hay disponible un subconjunto de estos ajustes, en función de la relevancia del ajuste para ese nivel. *Para poder configurar estos ajustes en cualquier nivel inferior, primero debe marcar la casilla Habilitar ajustes avanzados de voz en el nivel de agente (Configuración del agente > Voz y IVR > Conversión de voz a texto > Ajustes avanzados de voz)*.

Los ajustes actualizados a nivel de agente no se propagan al flujo, la página y el nivel de respuesta cuando se selecciona la opción Personalizar en estos niveles inferiores. Si la opción Personalizar abarca varios ajustes y solo quieres actualizar algunos de ellos, es posible que también tengas que actualizar otros ajustes si quieres que sean los mismos que los de nivel de agente.

Disponibilidad de los ajustes por nivel

En la siguiente tabla se indica qué ajustes avanzados de voz están disponibles en cada nivel:

Nombre del ajuste	Agente	Flow	Página	Fulfillment
Selección de modelos (Speech-to-Text)	✔	✔	✔
Sensibilidad de fin de la voz	✔	✔	✔
Sensibilidad avanzada de finalización de la voz basada en el tiempo de espera	✔	✔	✔
Habilitar la finalización inteligente	✔
Tiempo de espera sin voz	✔	✔	✔
Interrupción	✔	✔		✔
Permitir la cancelación de la reproducción de respuestas parciales				✔
Contenedor de exportación de audio	✔	✔
DTMF	✔	✔	✔

Selección de modelos (Speech-to-Text)

Se puede definir a nivel de agente, flujo y página.

Define el modelo de voz que se usa para el reconocimiento de voz. Este ajuste es específico de cada idioma, por lo que puedes seleccionar diferentes modelos para distintos idiomas. También puedes marcar la opción Anular el modelo de voz a nivel de solicitud, lo que hará que se use el modelo seleccionado aunque una llamada a la API de tiempo de ejecución especifique otro modelo.

Para obtener información sobre las limitaciones de la pasarela de telefonía de Conversational Agents (Dialogflow CX), consulta este artículo. Para obtener más información, consulta Modelos de voz.

Sensibilidad de fin de la voz

Se puede definir a nivel de agente, flujo y página.

Controla la sensibilidad para reconocer el final del discurso en la entrada de audio del usuario final. El valor va de 0 (sensibilidad baja, menos probabilidades de finalizar la conversación) a 100 (sensibilidad alta, más probabilidades de finalizar la conversación).

Sensibilidad avanzada de finalización de la voz basada en el tiempo de espera

Se puede definir a nivel de agente y se puede inhabilitar a nivel de flujo y de página.

Si este ajuste está habilitado, el valor del ajuste Sensibilidad de fin de la conversación se usa como indicador para establecer un tiempo de espera relativo de silencio de audio con el fin de determinar el final de la conversación. Si este ajuste está inhabilitado (opción predeterminada), se usará el valor del ajuste Sensibilidad de fin de la conversación para determinar el final de la conversación mediante el modelo de aprendizaje automático proporcionado por Google Cloud Transcripción de voz.

Aunque el ajuste Sensibilidad de fin de voz solo admite el modelo de voz phone_call para la etiqueta de en-US idioma de forma predeterminada, el ajuste Habilitar la sensibilidad avanzada de fin de voz basada en el tiempo de espera permite configurar la sensibilidad de fin de voz para todos los idiomas y modelos de voz compatibles con Dialogflow.

Habilitar la finalización inteligente

Solo se puede definir a nivel de agente.

Si se habilita esta opción, Conversational Agents (Dialogflow CX) analizará la entrada parcial del usuario para determinar el final de la conversación. Por ejemplo, si el usuario dice "Me gustaría" y hace una pausa, Conversational Agents (Dialogflow CX) esperará a que el usuario continúe la frase.

Esto es especialmente útil para la recogida de parámetros numéricos, en la que el usuario puede decir "1234" y hacer una pausa antes de decir "5678". Para aplicar este ajuste a un parámetro específico, debe configurar Smart endpointing en el formulario del parámetro.

Este ajuste solo está disponible para la etiqueta de idioma en-US y está inhabilitado de forma predeterminada.

Tiempo de espera sin voz

Se puede definir a nivel de agente, flujo y página.

Duración en segundos durante la que Conversational Agents (Dialogflow CX) dejará de esperar la entrada de audio del usuario final. El valor predeterminado es de 5 segundos y el máximo es de 60 segundos. Cuando se agota el tiempo de espera, Conversational Agents (Dialogflow CX) invoca un evento de falta de entrada.

Interrupción

Se puede definir en los niveles de agente, flujo y respuesta.

Si esta opción está habilitada, los usuarios finales pueden interrumpir el audio de respuesta de los agentes conversacionales (Dialogflow CX). Cuando se interrumpe, Conversational Agents (Dialogflow CX) deja de enviar audio y procesa la siguiente entrada del usuario final.

Si hay varios mensajes en la cola de mensajes y un mensaje se ha puesto en cola por una respuesta asociada a una página, un flujo o un agente que tiene habilitada la función de interrupción, todos los mensajes siguientes de la cola también tendrán habilitada la función de interrupción. En este caso, la integración dejará de reproducir el audio de todos los mensajes en cola con la función de interrupción habilitada.

Permitir la cancelación de la reproducción de respuestas parciales

Solo se puede definir a nivel de cumplimiento.

Puedes habilitar este ajuste si la casilla Habilitar ajustes avanzados de voz está marcada en Ajustes del agente > Voz e IVR y si la respuesta parcial está habilitada en el nivel de la respuesta. Este ajuste permite cancelar la reproducción de una respuesta parcial.

Si un mensaje de la cola de mensajes se crea mediante una respuesta que permite la cancelación, la reproducción del mensaje se cancela si se añade otro mensaje a la cola. Esto resulta útil cuando quieres que un mensaje inicial inicie la reproducción, pero que se cancele si un webhook que funciona genera otro mensaje antes de que se complete la reproducción del mensaje inicial.

Contenedor de exportación de audio

Se puede definir a nivel de agente y de flujo.

Si se proporcionan, los datos de audio asociados a una solicitud se guardarán en el segmento de Cloud Storage:

Audio guardado	Solicitudes aplicables
Entrada de audio del usuario final	DetectIntent, StreamingDetectIntent, AnalyzeContent y StreamingAnalyzeContent
Audio de conversión de texto a voz sintetizado para una respuesta	AnalyzeContent, StreamingAnalyzeContent

Asigna el rol Creador de objetos de Storage a las siguientes cuentas de servicio de tu proyecto:

A la cuenta de servicio del formato one-click@df-cx-ALPHANUMERIC_VALUE-ALPHANUMERIC_VALUE.iam.gserviceaccount.com si usas una integración de telefonía integrada de partner.
A la cuenta de servicio con el formato service-PROJECT_NUMBER@gcp-sa-dialogflow.iam.gserviceaccount.com si usas la integración de la pasarela de telefonía de Dialogflow CX. Para encontrar esta cuenta de servicio en Gestión de identidades y accesos, marca la opción Incluir asignaciones de roles proporcionadas por Google.

DTMF

Consulta la documentación sobre DTMF (señalización multifrecuencia de doble tono) para obtener más información sobre esta función.

Adaptación de voz

Migración del modelo de voz (primer trimestre del 2024)