En esta guía, se proporcionan prácticas recomendadas específicamente para diseñar agentes de voz. Cuando diseñas un agente de voz, el objetivo es ayudar a los usuarios (usuarios finales) a realizar una tarea sin derivar a un agente humano. Los usuarios deben sentir que tienen una conversación natural, interactiva y cooperativa con el agente de voz.
Deberías ver también la guía general del diseño general de agentes de todos los tipos de agentes y la guía de prácticas recomendadas para usar el servicio de Dialogflow.
Mide la calidad del agente
Para medir la calidad de la experiencia del usuario de tu agente, considera hacer un seguimiento de las siguientes métricas:
Ruta incorrecta: cuántos emisores terminaron en el lugar equivocado.
Resolución de primera llamada: cantidad de llamadas que se resuelven en la primera llamada o contacto.
Tiempo de preparación promedio: cuánto tiempo se tarda en resolver el problema del usuario.
Satisfacción del cliente: qué tan alto es el puntaje de tu agente de voz en una encuesta de usuarios.
Cantidad de turnos: cuántos intercambios se necesitan para realizar la tarea del usuario.
Deserción de usuarios: indica la frecuencia con la que los usuarios desconectan la conversación.
Reconocimiento de voz
Las siguientes sugerencias pueden ayudar a tu agente a reconocer la voz del usuario final:
- El agente debe alentar al usuario final a usar frases largas o usar oraciones completas. Esto mejora la calidad del reconocimiento.
- Considera usar un webhook para verificar la entrada del usuario final que puede no reconocerse con precisión o debe validarse.
- Usa eventos sin coincidencias para pedirle al usuario final que pronuncie de forma más lenta y clara.
Estructura de la conversación
Por lo general, una conversación con un agente de voz se organiza en la siguiente secuencia:
Actividad | Ejemplo | Notas |
---|---|---|
Abre la actividad | El usuario accede o llama a tu centro de contacto. Agente de voz: Hola, Viajes, SA ¿Cómo puedo ayudarlo? |
El agente de voz inicia la conversación con un mensaje de bienvenida. |
Secuencia principal | Usuario: Quiero reservar un vuelo. Agente de voz: De acuerdo, ¿a dónde quiere ir? Usuario: Guatemala el 19 de mayo, a las 21:00. Agente de voz: De acuerdo, le reservamos una entrada para Guatemala el 19 de mayo a las 21:00. |
El usuario define la tarea, y el agente de voz la completa. La tarea puede demorar varios turnos para que el agente de voz recopile toda la información necesaria. |
Cerrar actividad | Agente de voz: ¿Hay algo más con lo que pueda ayudarlo? Usuario: No Agente de voz: De acuerdo, gracias por chatear contigo. |
El usuario está listo para finalizar la conversación cuando se complete su solicitud. |
Mensaje de bienvenida
Cuando diseñes tu mensaje de apertura al usuario, piensa en cómo llegar al primer tema lo antes posible. El mensaje de bienvenida debe ser corto y directo. Estas son algunas sugerencias:
- Responde la llamada con frases como “Hola”.
- Identifica el agente de voz con frases como “Este es el agente o asistente de voz de la empresa XYZ”.
- Muestra la disponibilidad con frases como “¿En qué puedo ayudarlo hoy?”
Cualquier información adicional puede frustrar a los usuarios y hacer que los deriven a un agente humano. Sin embargo, es posible que debas extender el mensaje de bienvenida por razones legales, como informar al usuario que es posible que se grabe la conversación.
Evita la información que haga que la conversación parezca poco natural o desequilibrada. Por ejemplo:
Sí | No |
---|---|
Modela el lenguaje que deseas que usen tus usuarios. Por ejemplo, si quieres que el usuario explique elementos en una o dos oraciones, limita tu agente de voz a una o dos oraciones por turno. | No indiques a los usuarios cómo hablar con frases como “en una o dos oraciones”, dígame… o “puede decir cosas como…”. |
Céntrate en la tarea que el usuario desea realizar y diseña estrategias de manejo de errores en caso de que la conversación falle. | No digas a los usuarios qué puede hacer el agente de voz con frases como "Puedo ayudarlo a resolver problemas complejos". |
Pares de turno de conversación
Una conversación típica consta de pares de turnos, como los siguientes tipos de intercambios:
- pregunta-respuesta, que es la más común para un agente de voz.
- invitación-aceptación/rechazo
- saludos-saludos
A veces, un par de turnos puede incluir intercambios adicionales, como una explicación sobre por qué necesitamos hacer una pregunta, información general relacionada con la pregunta que queremos hacer o una respuesta a la respuesta del usuario. Por ejemplo, considera el siguiente par de turnos de preguntas y respuestas:
Agente de voz: esto le costará $10 al día. (Información general y explicación) ¿Desea seguir agregando este servicio? (pregunta)
Usuario: Sí. (answer)
Agente de voz: de acuerdo. (reacción)
Consulta también la sección Entrega de la guía de prácticas recomendadas generales sobre el diseño de agentes para obtener lineamientos sobre la colocación de entregas.
Reparación de conversación
La reparación de conversaciones es la práctica de corregir malentendidos y errores de ortografía para reanudar una conversación. Reparar una conversación puede ayudar a ganar la confianza de un usuario, ya que muestra que el agente de voz escucha su solicitud.
Estas son algunas prácticas recomendadas:
Sé específico y usa el contexto que el usuario ya ofreció en turnos anteriores. Evita hacer preguntas obvias y redundantes, como “No entendí”, “No lo comprendo” o “Tengo problemas”.
Brinda a los usuarios la oportunidad de reparación automática, lo que significa que pueden reparar su turno de la manera que consideren más segura para asegurarse de que tengan agencia en la conversación. Evita usar frases como “intenta reformular” o “puedes decir x, y o z”.
Usa la estructura “¿Quiere decir x?” para verificar la comprensión.
En la siguiente tabla, se describen varios ejemplos de qué hacer y qué no hacer:
Sí | No |
---|---|
Usuario: Viajo a Italia. Agente de voz: Perdón, ¿qué país? |
Usuario: Viajo a Italia. Agente de voz: Lo siento, no entiendo. ¿Puedes reformularla? ¿A dónde viajas? |
Usuario: Quiero pagar $80. Agente de voz: ¿Quieres decir $80? (Solo repite la información que necesita confirmación) |
Usuario: Quiero pagar $80. Agente de voz: ¿Desea pagar $80? (Repite la información redundante que "quiere pagar"). |
Manejo de errores
En la siguiente sección, se describe cómo manejar situaciones donde una conversación falla.
Sin coincidencias
Se invoca un evento sin coincidencias cuando el agente de voz no puede encontrar un intent que coincida con lo que dijo el usuario.
En la primera instancia del evento sin coincidencias, intenta lo siguiente:
Repite la pregunta al usuario, pero reformula la frase de una manera más corta para indicar la información que falta. Si te enfocas solo en la información faltante, el agente de voz transmite de forma implícita que escuchaste el resto de la declaración del usuario.
Puedes agregar “lo sentimos” antes de la pregunta rectificada para indicar que hubo un problema.
En la segunda instancia del evento sin coincidencias, muestra con mayor claridad que el agente de voz está trabajando para escucharlo. Por ejemplo, considera el siguiente intercambio:
Usuario: Viajo a Italia
Agente de voz: Perdón, ¿qué país?
Usuario: Italia
Agente de voz: Disculpa, ¿a dónde viajas?
Sin entrada
Si tu agente de voz no recibió respuesta verbal del usuario, repite la pregunta de la misma manera que la primera vez. En la segunda instancia del evento de no entrada, puedes reformular la pregunta original, pero asegurarte de que todos los componentes originales de la pregunta estén presentes.
Limita las repeticiones sin entrada y coincidencia
A fin de evitar interceptar a los usuarios en un bucle de eventos de manejo de errores, implementa un máximo de 3 sin coincidencias/entradas para cada página. Derivar a los usuarios a un agente humano en el tercer evento sin coincidencias o sin entrada
Sin tiempo de espera de voz
En situaciones en las que los usuarios necesitan revisar información o tomar decisiones antes de continuar, aumenta la configuración de no-speech-timeout para que los usuarios tengan tiempo suficiente de responder.
En el siguiente ejemplo, la configuración de 2 segundos sin tiempo de espera de voz es demasiado corta para que el usuario lea un mensaje SMS y tome una decisión:
Agente de voz: Le envié un mensaje de texto al dispositivo. Haz clic en el vínculo para obtener información sobre el pase de viaje. Reproduciré música para que tengas tiempo de leer el texto y responderme. <2 second pause l10n-attrs-original-order="second,pause"> ¿Deseas continuar?
Usuario: Aún estoy leyendo.
Agente de voz: ¿Deseas agregar el pase de viaje a tu plan?
Técnicas de conversación
En esta sección, se describen técnicas para ayudar al agente de voz a generar confianza con los usuarios y hacer que las conversaciones se ejecuten sin problemas.
Diseña preguntas prácticas
Diseña preguntas explícitas y accionables para que tu agente de voz le haga al usuario. Por ejemplo, considera las siguientes sugerencias para hacer:
Sí | No |
---|---|
Haz preguntas abiertas, como “¿Cuándo viaja?”, que le pide al usuario que proporcione fechas si las conoce o que digan “No lo sé” de lo contrario. | No preguntes “¿Conoces tus fechas de viaje?”. que solo solicita una respuesta sí o no, y es menos práctica. |
Pregunta: “¿Desea verificar el estado del pedido de otro paquete?” | No preguntes “¿Te gustaría continuar con el estado del pedido de otro paquete?” |
También debes preparar tu agente de voz para situaciones en las que el usuario pueda responder una pregunta de forma implícita, como suelen hacerlo las conversaciones naturales. Por ejemplo, considera la siguiente interacción:
Agente de voz: Ve a Cuenta, haz clic en Uso y, luego, en Uso por línea. Avísame cuando llegues.
Usuario: Dice que no puedo ver los datos de hace 3 meses o más.
La respuesta del usuario implica que llegó de forma correcta a la pantalla de destino, pero que aún necesitaba más ayuda. Tu agente de voz debe anticipar esas implicaciones, en lugar de esperar que el usuario solo diga “Llegué allí” o “No llegaré allí”.
Obtén la confianza de los usuarios
Los agentes de voz pueden mostrar a los usuarios que están escuchando a través de confirmaciones y detalles específicos. Si el agente de voz proporciona respuestas genéricas, es posible que los usuarios sientan que el agente de voz parece poco natural.
Usa confirmaciones de recepción. Por ejemplo, considera el siguiente intercambio, en el que se usa “Sin problema” como confirmación de recepción:
Usuario: Quiero establecer un acuerdo de pago para el lunes.
Agente de voz: No hay problema. ¿Cuánto deseas pagar el lunes?
Agrega detalles específicos para mostrar que el agente de voz escucha de forma activa al usuario. Por ejemplo, en el intercambio anterior, la frase “el lunes” es un detalle específico que indica que el agente de voz escuchó lo que dijo el usuario.
Responde a la solicitud del usuario lo más rápido posible y excluye los pasos innecesarios. En el siguiente ejemplo, la información innecesaria puede causar frustración del usuario:
Usuario: ¿Hay una interrupción en mi área?
Agente de voz: Sabemos lo importante que es para usted mantenerse conectado. Averigüemos la causa de este problema. Indícanos los últimos 4 dígitos de la línea con la que tienes problemas. Si el problema ocurre en varias líneas, proporciona una por ahora.
Usuario: 1234
Agente de voz: Gracias. Analicemos los próximos pasos para esta línea. Comencemos. Inhabilitar temporalmente y, luego, volver a habilitar la voz en HD puede hacer el truco… ¿Funcionó?
Asegúrate de que la conversación entre el usuario y el agente de voz esté equilibrada. Es posible que los usuarios sientan una falta de incomodidad en la conversación si el agente de voz domina la conversación. Prioriza las preguntas quién, dónde, qué, cuándo y cómo, en lugar de las preguntas sí o no.
Asegúrate de que la conversación del usuario se transfiere sin problemas cuando se quiera derivar a agentes humanos.
Información adicional
Consulta la guía de diseño de conversación proporcionada por el equipo de Actions on Google.
Consulta la Guía de voz para Next Billion Users.
Consulta la guía de SSML de Cloud Text-to-Speech.
Lee sobre acciones de voz para obtener más información sobre el diseño de preguntas prácticas.