Algunos productos y funciones están en proceso de cambiar de nombre. Las funciones de flujo y de la guía generativa también se migrarán a una sola consola consolidada. Consulta los detalles.

Se usó la API de Cloud Translation para traducir esta página.

Configuración avanzada de voz

En esta guía, se proporcionan parámetros de configuración avanzados y adicionales para las funciones de voz. Puedes activar o desactivar estos parámetros de configuración avanzados. Para ello, navega a Configuración del agente > Voz y IVR > Speech-to-Text > Configuración avanzada de voz.

Estos parámetros de configuración están disponibles en la configuración del agente (se aplica a todo el agente), la configuración del flujo (se aplica a todo el flujo y anula la configuración del agente), la configuración de la página (se aplica a la página y anula la configuración del flujo y del agente) y la configuración de la entrega (se aplica a la entrega y anula la configuración de la página, el flujo y el agente). Un subconjunto de estos parámetros de configuración está disponible en cada nivel, según la relevancia del parámetro de configuración para el nivel. *Antes de configurar estos parámetros en cualquier nivel inferior, primero debes marcar la casilla Habilitar parámetros de configuración avanzados de voz a nivel del agente (Configuración del agente > Voz y IVR > Speech-to-Text > Parámetros de configuración avanzados de voz)*.

La configuración actualizada a nivel del agente no se propaga al flujo, la página ni el nivel de cumplimiento cuando se selecciona la opción Personalizar en estos niveles inferiores. Si la opción Personalizar abarca varios parámetros de configuración y solo quieres actualizar algunos de ellos, es posible que también debas actualizar otros parámetros si quieres que sean iguales a los de la configuración a nivel del agente.

Disponibilidad de la configuración por nivel

En la siguiente tabla, se indica qué parámetros de configuración de voz avanzados están disponibles en cada nivel:

Nombre del parámetro de configuración	Agente	Flujo	Página	Entrega
Selección del modelo (Speech-to-Text)	✔	✔	✔
Sensibilidad cuando se deja de escuchar una voz	✔	✔	✔
Sensibilidad avanzada al final de la voz basada en el tiempo de espera	✔	✔	✔
Cómo habilitar el recorte inteligente	✔
Sin tiempo de espera de voz	✔	✔	✔
Interrupción	✔	✔		✔
Permite cancelar la reproducción de la respuesta parcial				✔
Bucket de exportación de audio	✔	✔
DTMF	✔	✔	✔

Selección del modelo (Speech-to-Text)

Se puede configurar a nivel del agente, el flujo y la página.

Establece el modelo de voz que se usa para el reconocimiento de voz. Este parámetro de configuración es específico del idioma, por lo que puedes seleccionar diferentes modelos para diferentes idiomas. También puedes marcar la opción Anular el modelo de voz a nivel de la solicitud, lo que hará que se use el modelo seleccionado incluso si una llamada a la API en tiempo de ejecución especifica un modelo diferente.

Para la puerta de enlace telefónica de Conversational Agents (Dialogflow CX), consulta las limitaciones. Para obtener más información, consulta Modelos de voz.

Sensibilidad cuando se deja de escuchar una voz

Se puede configurar a nivel del agente, el flujo y la página.

Controla la sensibilidad para reconocer el final de la voz en la entrada de audio del usuario final. El valor varía de 0 (sensibilidad baja, menor probabilidad de finalizar la voz) a 100 (sensibilidad alta, más probable que finalice la voz).

Sensibilidad avanzada al final de la voz basada en el tiempo de espera

Se puede establecer a nivel del agente y se puede inhabilitar a nivel del flujo y de la página.

Si este parámetro de configuración está habilitado, el valor del parámetro de configuración Sensibilidad del final del habla se usa como indicador para establecer un tiempo de espera relativo de silencio de audio y determinar el final del habla. Si este parámetro de configuración está inhabilitado (opción predeterminada), se usa el valor del parámetro de configuración Sensibilidad del final del discurso para determinar el final del discurso con el modelo de AA proporcionado por Google Cloud Speech-to-Text.

Si bien el parámetro de configuración Sensibilidad cuando se deja de escuchar una voz solo admite el modelo de voz phone_call para la etiqueta de idioma en-US de forma predeterminada, el parámetro de configuración Habilitar la sensibilidad avanzada cuando se deja de escuchar una voz basada en el tiempo de espera permite configurar la sensibilidad cuando se deja de escuchar una voz para todos los idiomas y modelos de voz admitidos por Dialogflow.

Cómo habilitar el recorte inteligente

Solo se puede configurar a nivel del agente.

Si se habilita este parámetro de configuración, Conversational Agents (Dialogflow CX) analizará la entrada parcial del usuario para determinar el final del discurso. Por ejemplo, si el usuario dice "Me gustaría" y hace una pausa, los agentes conversacionales (Dialogflow CX) esperarán a que el usuario continúe la oración.

Esto es particularmente útil para la recopilación de parámetros numéricos, en la que el usuario podría decir "1234" y hacer una pausa antes de decir "5678". Para aplicar este parámetro de configuración a un parámetro específico, debes configurar el ajuste inteligente de extremos en el formulario del parámetro.

Este parámetro de configuración solo está disponible para la etiqueta de idioma en-US y está inhabilitado de forma predeterminada.

Sin tiempo de espera de voz

Se puede configurar a nivel del agente, el flujo y la página.

Es la duración en segundos durante la cual los agentes conversacionales (Dialogflow CX) dejarán de esperar la entrada de audio del usuario final. El valor predeterminado es de 5 segundos y el valor máximo es de 60 segundos. Para este tiempo de espera, Conversational Agents (Dialogflow CX) invoca un evento de no entrada.

Interrupción

Se puede establecer a nivel del agente, el flujo y el cumplimiento.

Cuando está habilitado, un usuario final puede interrumpir el audio de respuesta de los agentes conversacionales (Dialogflow CX). Cuando se interrumpe, Conversational Agents (Dialogflow CX) dejará de enviar audio y procesará la siguiente entrada del usuario final.

Si hay varios mensajes en la cola de mensajes y un mensaje se puso en cola mediante una entrega asociada con una página, un flujo o un agente que tiene habilitada la interrupción, todos los mensajes siguientes de la cola también tendrán habilitada la interrupción. En este caso, la integración dejará de reproducir audio para todos los mensajes en cola con la opción habilitada.

Permite cancelar la reproducción de la respuesta parcial

Solo se puede configurar a nivel del cumplimiento.

Puedes habilitar este parámetro de configuración cuando la casilla de verificación Habilitar la configuración avanzada de voz esté marcada en Configuración del agente > Voz y IVR y la respuesta parcial esté habilitada a nivel del cumplimiento. Este parámetro de configuración permite cancelar la reproducción de una respuesta parcial.

Si un mensaje de la cola de mensajes se crea a partir de un cumplimiento que permite la cancelación, se cancela la reproducción del mensaje si se agrega otro mensaje a la cola. Esto es útil cuando quieres que un mensaje inicial inicie la reproducción, pero que se cancele si un webhook en funcionamiento produce otro mensaje antes de que se complete la reproducción del mensaje inicial.

Bucket de exportación de audio

Se puede establecer a nivel del agente y del flujo.

Si se proporciona, los datos de audio asociados a una solicitud se guardarán en el bucket de Cloud Storage:

Audio guardado	Solicitudes aplicables
Entrada de audio del usuario final	DetectIntent, StreamingDetectIntent, AnalyzeContent y StreamingAnalyzeContent
Audio de Text-to-Speech (TTS) sintetizado para una respuesta	AnalyzeContent y StreamingAnalyzeContent

Otorga el rol de creador de objetos de almacenamiento a las siguientes cuentas de servicio del proyecto:

A la cuenta de servicio con el formato one-click@df-cx-ALPHANUMERIC_VALUE-ALPHANUMERIC_VALUE.iam.gserviceaccount.com si usas una integración de telefonía incorporada para socios.
A la cuenta de servicio con el formato service-PROJECT_NUMBER@gcp-sa-dialogflow.iam.gserviceaccount.com si usas la integración de la Puerta de enlace telefónica de Dialogflow CX. Para encontrar esta cuenta de servicio en IAM, marca la opción Incluir asignaciones de roles proporcionadas por Google.

DTMF

Consulta la documentación sobre la señalización multifrecuencia de doble tono (DTMF) para obtener más información sobre esta función.

Adaptación de voz

Migración de modelos de voz en el 1ᵉʳ trim. de 2024

Configuración avanzada de voz Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Disponibilidad de la configuración por nivel

Selección del modelo (Speech-to-Text)

Sensibilidad cuando se deja de escuchar una voz

Sensibilidad avanzada al final de la voz basada en el tiempo de espera

Cómo habilitar el recorte inteligente

Sin tiempo de espera de voz

Interrupción

Permite cancelar la reproducción de la respuesta parcial

Bucket de exportación de audio

DTMF

Configuración avanzada de voz