Algunos productos y funciones están en proceso de cambiar de nombre. Las funciones de flujo y de la guía generativa también se migrarán a una sola consola consolidada. Consulta los detalles.

Se usó la API de Cloud Translation para traducir esta página.

Configuración avanzada de voz

En esta guía, se proporciona una configuración avanzada y adicional para las funciones de voz. Para activar o desactivar esta configuración avanzada, navega a Configuración del agente > Agente de voz y IVR > Speech-to-Text > Configuración avanzada de voz.

Estos parámetros de configuración están disponibles en la configuración del agente (se aplica a todo el agente), la configuración del flujo (se aplica a todo el flujo y anula la configuración del agente), la configuración de la página (se aplica a la página y anula la configuración del flujo y del agente) y la configuración de entrega (se aplica a la entrega y anula la configuración de la página, el flujo y el agente). Un subconjunto de esta configuración está disponible en cada nivel, según la relevancia de la configuración del nivel. *Antes de poder configurar estos parámetros en un nivel inferior, primero debes marcar la casilla Habilitar configuración de voz avanzada a nivel del agente (Configuración del agente > Voz y IVR > Speech-to-Text > Configuración de voz avanzada).*

La configuración actualizada a nivel del agente no se propaga al nivel del flujo, la página y la entrega cuando se selecciona la opción Personalizar en estos niveles inferiores. Si la opción Personalizar abarca varios parámetros de configuración y deseas actualizar solo algunos de ellos, es posible que también debas actualizar otros parámetros si quieres que sean iguales a los parámetros de configuración a nivel del agente.

Disponibilidad de la configuración por nivel

En la siguiente tabla, se indica qué parámetros de configuración de voz avanzados están disponibles en cada nivel:

Nombre del parámetro de configuración	Agente	Flujo	Página	Entrega
Selección del modelo (Speech-to-Text)	✔	✔	✔
Sensibilidad cuando se deja de escuchar una voz	✔	✔	✔
Sensibilidad avanzada al final de la voz basada en el tiempo de espera	✔	✔	✔
Habilita la asignación de extremos inteligente	✔
Sin tiempo de espera de voz	✔	✔	✔
Interrupción	✔	✔
Permite cancelar la reproducción de respuestas parciales				✔
Bucket de exportación de audio	✔	✔
DTMF	✔	✔	✔

Selección del modelo (Speech-to-Text)

Se puede establecer a nivel del agente, el flujo y la página.

Establece el modelo de voz que se usa para el reconocimiento de voz. Este parámetro de configuración es específico de cada idioma, por lo que puedes seleccionar diferentes modelos para diferentes idiomas. También puedes marcar Anular el modelo de voz a nivel de la solicitud, lo que hará que se use el modelo seleccionado, incluso si una llamada a la API del entorno de ejecución especifica un modelo diferente.

Para la puerta de enlace telefónica de Conversational Agents (Dialogflow CX), consulta las limitaciones. Para obtener más información, consulta Modelos de voz.

Sensibilidad cuando se deja de escuchar una voz

Se puede establecer a nivel del agente, el flujo y la página.

Controla la sensibilidad para reconocer el final de la voz en la entrada de audio del usuario final. El valor varía de 0 (sensibilidad baja, menor probabilidad de finalizar la voz) a 100 (sensibilidad alta, más probable que finalice la voz).

Sensibilidad avanzada al final de la voz basada en el tiempo de espera

Se puede establecer a nivel del agente y se puede inhabilitar a nivel del flujo y de la página.

Si este parámetro de configuración está habilitado, el valor de configuración de Sensibilidad al final de la voz se usa como un indicador para establecer un tiempo de espera de silencio de audio relativo para determinar el final de la voz. Si este parámetro de configuración está inhabilitado (la configuración predeterminada), el valor de configuración de Sensibilidad al final de la voz se usa para determinar el final de la voz por parte del modelo de IA que proporciona Google Cloud Texto a voz.

Si bien el parámetro de configuración Sensibilidad cuando se deja de escuchar una voz solo admite el modelo de voz phone_call para la etiqueta language en-US de forma predeterminada, el parámetro de configuración Habilitar sensibilidad avanzada cuando se deja de escuchar una voz basada en el tiempo de espera permite configurar la sensibilidad cuando se deja de escuchar una voz para todos los idiomas y modelos de voz compatibles con Dialogflow.

Habilita la asignación de extremos inteligente

Solo se puede establecer a nivel del agente.

Si se habilita este parámetro de configuración, Conversational Agents (Dialogflow CX) analizará la entrada parcial del usuario para determinar el final de la voz. Por ejemplo, si el usuario dice “Me gustaría” y hace una pausa, los agentes conversacionales (Dialogflow CX) esperarán a que el usuario continúe la oración.

Esto es particularmente útil para la recopilación de parámetros numéricos, en la que el usuario podría decir "1234" y hacer una pausa antes de decir "5678". Para aplicar este parámetro de configuración para un parámetro específico, debes configurar la dirección de extremo inteligente en el formulario del parámetro.

Este parámetro de configuración solo está disponible para la etiqueta de idioma en-US y está inhabilitado de forma predeterminada.

Sin tiempo de espera de voz

Se puede establecer a nivel del agente, el flujo y la página.

Es la duración en segundos durante la cual Conversational Agents (Dialogflow CX) dejará de esperar la entrada de audio del usuario final. El valor predeterminado es de 5 segundos y el máximo es de 60 segundos. Para este tiempo de espera, Conversational Agents (Dialogflow CX) invoca un evento de no entrada.

Interrupción

Se puede establecer a nivel del agente, del flujo y de la entrega.

Cuando está habilitado, un usuario final puede interrumpir el audio de respuesta de Conversational Agents (Dialogflow CX). Cuando se interrumpe, Conversational Agents (Dialogflow CX) deja de enviar audio y procesa la siguiente entrada del usuario final.

Si hay varios mensajes en la cola de mensajes y un mensaje se puso en cola mediante una entrega asociada con una página, un flujo o un agente que tiene habilitada la interrupción, todos los mensajes siguientes de la cola también tendrán habilitada la interrupción. En este caso, la integración dejará de reproducir audio para todos los mensajes en cola con la opción habilitada.

Permite cancelar la reproducción de respuestas parciales

Solo se puede configurar a nivel de la entrega.

Puedes habilitar este parámetro de configuración cuando la casilla Habilitar configuración de voz avanzada está marcada en Configuración del agente > IVR y voz, y la respuesta parcial está habilitada a nivel de la entrega. Este parámetro de configuración permite cancelar la reproducción de una respuesta parcial.

Si un mensaje de la cola de mensajes se crea a través de una entrega que permite la cancelación, se cancela la reproducción del mensaje si se agrega otro mensaje a la cola. Esto es útil cuando deseas que un mensaje inicial inicie la reproducción, pero que esta se cancele si un webhook en funcionamiento produce otro mensaje antes de que se complete la reproducción del mensaje inicial.

Bucket de exportación de audio

Se puede establecer a nivel del agente y del flujo.

Si se proporcionan, los datos de audio asociados con una solicitud se guardarán en el bucket de Cloud Storage:

Audio guardado	Solicitudes aplicables
Entrada de audio del usuario final	DetectIntent, StreamingDetectIntent, AnalyzeContent y StreamingAnalyzeContent
Audio de Text-to-Speech (TTS) sintetizado para una respuesta	AnalyzeContent y StreamingAnalyzeContent

Otorga el rol de creador de objetos de almacenamiento a las siguientes cuentas de servicio de tu proyecto:

A la cuenta de servicio con el formato one-click@df-cx-ALPHANUMERIC_VALUE-ALPHANUMERIC_VALUE.iam.gserviceaccount.com si usas una integración de telefonía incorporada para socios.
A la cuenta de servicio con el formato service-PROJECT_NUMBER@gcp-sa-dialogflow.iam.gserviceaccount.com si usas la integración de la Puerta de enlace telefónica de Dialogflow CX. Para encontrar esta cuenta de servicio en IAM, marca la opción Incluir asignaciones de roles proporcionadas por Google.

DTMF

Consulta la documentación de DTMF (señalización de doble tono y multifrecuencia) para obtener más información sobre esta función.

Adaptación de voz

Migración de modelos de voz en el 1ᵉʳ trim. de 2024

Configuración avanzada de voz Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Disponibilidad de la configuración por nivel

Selección del modelo (Speech-to-Text)

Sensibilidad cuando se deja de escuchar una voz

Sensibilidad avanzada al final de la voz basada en el tiempo de espera

Habilita la asignación de extremos inteligente

Sin tiempo de espera de voz

Interrupción

Permite cancelar la reproducción de respuestas parciales

Bucket de exportación de audio

DTMF

Configuración avanzada de voz