Adaptación de voz automática

Cuando realizas una solicitud de detección de intent, puedes suministrar un contexto de voz de forma opcional para proporcionar sugerencias al reconocedor de voz. Estas sugerencias pueden ayudarte con el reconocimiento en una situación de conversación específica.

La función de adaptación de voz automática mejora la precisión del reconocimiento de voz de tu agente mediante el uso automático del estado de la conversación para pasar entidades relevantes y frases de entrenamiento como sugerencias de contexto de voz en todas las solicitudes de detección de intent. Esta función está habilitada de forma predeterminada.

Habilita o inhabilita la adaptación automática de voz

Para habilitar o inhabilitar la adaptación automática de voz, haz lo siguiente:

  1. Ve a la consola de Dialogflow ES.
  2. Selecciona tu agente cerca de la parte superior del menú de la barra lateral izquierda.
  3. Haz clic en el botón de configuración  ubicado junto al nombre del agente.
  4. Selecciona la pestaña Voz.
  5. Desplázate hacia la sección Mejorar la calidad del reconocimiento de voz.
  6. Activa o desactiva Habilitar la adaptación de voz automática.

Ejemplos de mejoras en el reconocimiento de voz

Si habilitas la adaptación automática de voz, puedes compilar tu agente para aprovecharla. En las siguientes secciones, se explica cómo se puede mejorar el reconocimiento de voz con ciertos cambios en las frases de entrenamiento, los contextos y las entidades de tu agente.

Frases y contextos de entrenamiento

  • Si defines frases de entrenamiento con una frase como “es 3 de diciembre”, un enunciado del usuario que suene similar se reconoce de manera correcta como “es 3 de diciembre” y no “estrés de diciembre”.

  • Cuando una sesión tiene contextos activos, la adaptación de voz automática restringirá las frases de entrenamiento de los intents en los que todos los contextos de entrada estén activos. Por ejemplo, con dos contextos activos "pago-factura" y "confirmación", todos los siguientes intents influirán en la adaptación de voz automática: intents con un solo contexto de entrada "pay-bill", intents con un solo contexto en el contexto de entrada “confirmación” y los intents con dos contextos de entrada “pay-bill” y “confirmation”.

  • Cuando una sesión no tiene contextos activos, la adaptación de voz automática restringirá las frases de entrenamiento de los intents sin contextos de entrada.

  • Cuando tienes un parámetro obligatorio que obliga a Dialogflow a recibir mensajes de relleno de ranuras, la adaptación de voz automática fuertemente sesgará hacia la entidad que se va a completar.

En todos los casos, la adaptación de voz automática solo restringe el reconocimiento de voz, no la limita. Por ejemplo, aunque Dialogflow le solicite a un usuario un parámetro obligatorio, los usuarios aún podrán activar otros intents, como un intent "hablar con un agente".

Entidades del sistema

Si defines una frase de entrenamiento que usa la entidad del sistema @sys.number y el usuario final dice “cien”, este enunciado puede reconocerse como “sien”, “cien” o “100”.

Cuando la adaptación de voz automática está habilitada, Dialogflow usa la entidad @sys.number como pista durante el reconocimiento de voz, y es más probable que el parámetro se extraiga como "100".

Entidades personalizadas

  • Si defines entidades para los nombres de productos o servicios que ofrece tu empresa, y el usuario final menciona estos términos en un enunciado, es más probable que se reconozcan. Una frase de entrenamiento “Me encanta Dialogflow”, en la que “Dialogflow” se anota como la entidad @product, le indicará una adaptación de voz automática a la biografía para “Me encanta Dialogflow”, “Me encanta Cloud Speech” y otras entradas en la entidad @product.

  • Es especialmente importante definir sinónimos de entidad limpia cuando se usa Dialogflow para detectar la voz. Imagina que tienes dos entradas de entidad @product: "Dialogflow" y "Dataflow". Tus sinónimos de "Dialogflow" pueden ser "Dialogflow", "flujo de diálogo", "compilador de diálogo", "Speakoit", "hablar con él", "API.ai", "API de punto de API". Estos son buenos sinónimos porque abarcan las variaciones más comunes. No es necesario que agregues "el generador de flujo de diálogo" porque el "flujo de diálogo" ya lo cubre.

  • Las declaraciones de usuario con entidades numéricas consecutivas, pero distintas pueden ser ambiguas. Por ejemplo, “Quiero dos dieciséis paquetes” podría significar 2 cantidades de 16 paquetes o 216 cantidades de paquetes. La Adaptación de voz puede ayudar a evitar la ambigüedad de estos casos si configuras las entidades con valores deletreados:
    • Define una entidad quantity con entradas:
      zero
      one
      ...
      twenty
    • Define una entidad product o size con entradas:
      sixteen pack
      two ounce
      ...
      five liter
    • Solo se usan los sinónimos de entidad en la adaptación de voz, por lo que puedes definir una entidad con valor de referencia 1 y sinónimo único one para simplificar tu lógica de entrega.

Entidades de expresión regular

Las entidades de expresión regular pueden activar la adaptación de voz automática para secuencias alfanuméricas y de dígitos, como "ABC123" o "12345", cuando se configuran de forma correcta. Si bien se puede usar cualquier expresión regular para extraer entidades en la NLP, solo ciertas expresiones le indicarán la adaptación de voz automática a sesgos para secuencias alfanuméricas o dígitos descartadas al reconocer la voz.

Asegúrate de seguir todos los siguientes requisitos si deseas reconocer estas secuencias por voz:

  1. Al menos una de las entradas de tu entidad de expresión regular sigue todas estas reglas:

    • Pueden usar grupos de caracteres []
    • Puede usar cuantizadores de repetición, como *, ?, +, {3,5}
    • No contiene espacios en blanco ni \s, aunque se permiten \s* y \s?
    • No contiene los grupos de captura ().
    • No coincide con ningún carácter especial ni puntuación como la siguiente: ` ~ ! @ # $ % ^ & * ( ) - _ = + , . < > / ? ; ' : " [ ] { } \ |
  2. En el intent, marca la entidad de expresión regular como parámetro obligatorio para que pueda recopilarse durante el llenado de ranuras. Esto permite que la adaptación de voz automática establezca un sesgo fuerte para el reconocimiento de secuencias en lugar de intentar reconocer una intención y una secuencia al mismo tiempo. De lo contrario, "¿Dónde está mi paquete para ABC123" podría reconocerse incorrectamente como "¿Dónde está mi paquete 4ABC123"?

  3. Si tu audio entrante es de calidad de llamada telefónica de 8 kHz, debes habilitar modelos de voz mejorados para reconocer de forma confiable las secuencias alfanuméricas de más de cuatro o cinco caracteres, o secuencias de dígitos más largas. de 10 caracteres. O bien, considera recopilar subsecuencias más pequeñas y agruparlas con intents de seguimiento o operación avanzada de webhook.

Por ejemplo, una entidad de expresión regular con una sola entrada ([a-zA-Z0-9]\s?){5,9} no activará el reconocedor de la secuencia de voz porque contiene un grupo de captura. Para solucionar este problema, agrega otra entrada para [a-zA-Z0-9]{5,9}. Ahora podrás alejarte del reconocedor de secuencia cuando se llene la ranura por voz para “ABC123”, pero la NLP seguirá comparando entradas como “ABC 123” gracias a la regla original que permite espacios.

Los siguientes ejemplos de expresiones regulares se adaptan a secuencias alfanuméricas:

^[A-Za-z0-9]{1,10}$
WAC\d+
215[2-8]{3}[A-Z]+
[a-zA-Z]\s?[a-zA-Z]\s?[0-9]\s?[0-9]\s?[0-9]\s?[a-zA-Z]\s?[a-zA-Z]

Los siguientes ejemplos de expresiones regulares se adaptan a las secuencias de dígitos:

\d{2,8}
^[0-9]+$
2[0-9]{7}
[2-9]\d{2}[0-8]{3}\d{4}

También considera usar @sys.number-sequence a fin de aceptar cualquier secuencia de dígitos y @sys.phone-number para un reconocedor de número de teléfono localizado. Las entidades del sistema y las entidades personalizadas que no son de regex tienen un buen funcionamiento con la adaptación de voz automática, incluso fuera de los mensajes de relleno de ranuras requeridos.

Limitaciones

Se aplican las siguientes limitaciones:

  1. La adaptación de voz automática no funciona para Actions on Google (Asistente de Google), ya que Actions on Google realiza el reconocimiento de voz antes de enviar los datos a Dialogflow.

  2. Reconocer secuencias de personajes largos es un desafío. Por ejemplo, en los canales de teléfonos con audio de 8 kHz, es posible que no reconozcas de manera coherente las secuencias que tengan más de 16 dígitos o 10 alfanuméricas, incluso cuando se usan modelos de voz mejorados. Considera otras alternativas de conversación, como las siguientes:

    • Cuando valides la secuencia en una base de datos, considera hacer una referencia cruzada de otros parámetros recopilados, como las fechas, los nombres o los números de teléfono, a fin de permitir coincidencias incompletas. Por ejemplo, en lugar de pedir un usuario a su número de pedido, pídelo también. Ahora, cuando tu webhook consulta a tu base de datos por el estado del pedido, primero puede aparecer en el número de teléfono y, luego, mostrar el orden coincidente más cercano para esa cuenta. Esto podría permitir que Dialogflow escuche incorrectamente "ABC" como "AVC" y aún muestra el estado correcto del pedido para el usuario.
    • Para secuencias más largas, considera diseñar un flujo que aliente a los usuarios finales a pausarse en el medio para que el bot pueda confirmarse a medida que avanzas. Lee este instructivo para obtener más detalles.
  3. La compatibilidad integrada de la adaptación de voz automática para entidades del sistema y la expresión regular varía según el idioma. VerificaciónTokens de clase Speech para los idiomas admitidos $OOV_CLASS_ALPHANUMERIC_SEQUENCE y $OOV_CLASS_DIGIT_SEQUENCE. Si tu idioma no aparece en la lista, puedes solucionar esta limitación. Por ejemplo, si deseas que se reconozca con precisión un ID de empleado que tenga tres letras seguidas de tres dígitos, podrías compilar el agente con estos parámetros y entidades:

    • Define una entidad digit que contenga 10 entradas de entidad (con sinónimos):
      0, 0
      1, 1
      ...
      9, 9
    • Define una entidad letter que contenga 26 entradas de entidad (con sinónimos):
      A, A
      B, B
      ...
      Z, Z
    • Define una entidad employee-id que contenga una sola entrada de entidad (sin sinónimos):
      @letter @letter @letter @digit @digit @digit
    • Usa @employee-id como parámetro en una frase de entrenamiento.