Estamos cambiando el nombre de algunos productos y funciones. Las funciones de guía y flujo generativos también se están migrando a una única consola consolidada. Consulta los detalles.

Esta página se ha traducido con Cloud Translation API.

Adaptación de voz

Cuando realices una solicitud de detección de intención, puedes proporcionar de forma opcional phrase_hints para dar pistas al reconocedor de voz. Estas pistas pueden ayudar a reconocer el estado de una conversación específica.

Adaptación de voz automática

La función de adaptación automática del habla mejora la precisión del reconocimiento de voz de tu agente. Para ello, usa automáticamente el estado de la conversación para enviar entidades y frases de entrenamiento relevantes como sugerencias de contexto de voz en todas las solicitudes de detección de intención. Esta función está inhabilitada de forma predeterminada.

Habilitar o inhabilitar la adaptación automática del habla

Para habilitar o inhabilitar la adaptación de voz automática, sigue estos pasos:

Consola

Abre la consola de Dialogflow CX.
Elige tu proyecto de GCP.
Selecciona tu agente.
Haz clic en Configuración del agente.
Haga clic en la pestaña Voz y IVR.
Activa o desactiva Habilitar adaptación automática de la voz.
Haz clic en Guardar.

API

Consulta los métodos get y patch/update del tipo Agent.

Selecciona un protocolo y una versión para la referencia del agente:

Protocolo	V3	V3beta1
REST	Recurso de agente	Recurso de agente
RPC	Interfaz de agente	Interfaz de agente
C++	AgentsClient	No disponible
C#	AgentsClient	No disponible
Go	AgentsClient	No disponible
Java	AgentsClient	AgentsClient
Node.js	AgentsClient	AgentsClient
PHP	No disponible	No disponible
Python	AgentsClient	AgentsClient
Ruby	No disponible	No disponible

Diseño de agentes para mejorar el reconocimiento de voz

Si la adaptación automática del habla está habilitada, puedes crear tu agente de forma que aproveche esta función. En las siguientes secciones se explica cómo se puede mejorar el reconocimiento de voz haciendo ciertos cambios en las frases de entrenamiento y las entidades de tu agente.

Frases de preparación

Si defines frases de entrenamiento con una frase como "nariz taponada", una expresión del usuario final con un sonido similar se reconocerá de forma fiable como "nariz taponada" y no como "nariz taponada".

Cuando tienes un parámetro obligatorio que obliga a Dialogflow a mostrar peticiones para rellenar formularios, la adaptación automática del habla se centrará en la entidad que se esté rellenando.

En todos los casos, la adaptación automática del habla solo influye en el reconocimiento de voz, no lo limita. Por ejemplo, aunque Dialogflow pida a un usuario un parámetro obligatorio, los usuarios podrán activar otras intenciones, como una intención de nivel superior para hablar con un agente.

Entidades del sistema

Si defines una frase de entrenamiento que usa la @sys.number entidad de sistema , y el usuario final dice "Quiero dos", puede reconocerse como "to", "too", "2" o "two".

Si la adaptación automática del habla está habilitada, Dialogflow usa la entidad @sys.number como sugerencia durante el reconocimiento de voz y es más probable que el parámetro se extraiga como "2".

Entidades personalizadas

Si defines una entidad personalizada para los nombres de los productos o servicios que ofrece tu empresa y el usuario final menciona estos términos en una petición, es más probable que se reconozcan. Si la frase de entrenamiento es "Me encanta Dialogflow", donde "Dialogflow" se anota como la entidad @product, la adaptación automática del habla se centrará en "Me encanta Dialogflow", "Me encanta Cloud Speech" y todas las demás entradas de la entidad @product.
Es especialmente importante definir sinónimos de entidades claros cuando se usa Dialogflow para detectar el habla. Supongamos que tiene dos entradas de la entidad @product: "Dialogflow" y "Dataflow". Los sinónimos de "Dialogflow" pueden ser "Dialogflow", "dialogue flow", "dialogue builder", "Speaktoit", "speak to it", "API.ai" y "API dot AI". Son buenos sinónimos porque abarcan las variaciones más habituales. No es necesario que añadas "el creador de flujo de diálogo" porque "flujo de diálogo" ya lo incluye.

Nota: ¿Por qué es importante? Supongamos que tienes dos entidades, "Dialogflow" y "Dataflow", y dos sinónimos, "el creador de flujo de diálogo" y "Google Cloud Dataflow". Un usuario final podría decir "Google Cloud Dialogflow", pero como no hay ningún sinónimo de "Google Cloud Dialogflow", es probable que el reconocimiento de voz entienda "Google Cloud Dataflow" porque las definiciones de entidades están sesgadas hacia esa frase. Del mismo modo, si alguien dice "the dataflow builder", lo más probable es que se entienda "the dialogue flow builder", ya que es la única entidad definida con "builder". En su lugar, obtendrá mejores resultados si define solo las frases clave que se indican en la viñeta anterior. En resumen, no añadas datos genéricos a las definiciones de entidades, ya que para eso están diseñadas las frases de entrenamiento de las intenciones. Una frase de entrenamiento "Google Cloud Dataflow", donde "Dataflow" se anota como la entidad @product, permite que la adaptación automática del habla escuche "Google Cloud Dataflow" y "Google Cloud Dialogflow" con el mismo peso. Consulta más prácticas recomendadas en Diseño de agentes.

Las peticiones de los usuarios con entidades numéricas consecutivas pero distintas pueden ser ambiguas. Por ejemplo, "Quiero dos paquetes de 16" puede significar 2 cantidades de paquetes de 16 o 216 cantidades de paquetes. La adaptación del habla puede ayudar a distinguir estos casos si configuras entidades con valores escritos:
- Define una entidad quantity con entradas:
  zero
  one
  ...
  twenty
- Define una entidad product o size con las siguientes entradas:
  sixteen pack
  two ounce
  ...
  five liter
- En la adaptación de voz solo se usan sinónimos de entidades, por lo que puedes definir una entidad con el valor de referencia 1 y el sinónimo one para simplificar la lógica de la respuesta.

Entidades de expresión regular

Las entidades de expresión regular pueden activar la adaptación automática del habla para secuencias alfanuméricas y de dígitos, como "ABC123" o "12345", cuando se configuran y se prueban correctamente.

Para reconocer estas secuencias por voz, debes implementar los cuatro requisitos que se indican a continuación:

1. Requisito de entrada de expresión regular

Aunque se puede usar cualquier expresión regular para extraer entidades de entradas de texto, solo determinadas expresiones indicarán a la adaptación automática del habla que se centre en secuencias alfanuméricas o de dígitos deletreadas al reconocer el habla.

En la entidad de expresión regular, al menos una entrada debe cumplir todas estas reglas:

Debe coincidir con algunos caracteres alfanuméricos, como \d, \w o [a-zA-Z0-9].
No debe contener espacios en blanco ni \s, aunque sí se permiten \s* y \s?.
¿No debe contener grupos de captura o que no sean de captura? ()
No debe intentar coincidir con ningún carácter especial ni signo de puntuación, como los siguientes: ` ~ ! @ # $ % ^ & * ( ) - _ = + , . < > / ? ; ' : " [ ] { } \ |

Esta entrada puede tener conjuntos de caracteres [] y cuantificadores de repetición, como *, ?, + y {3,5}.

Consulta los ejemplos.

2. Requisitos de definición de parámetros

Marca la entidad de expresión regular como un parámetro de formulario obligatorio para que se pueda recoger durante el proceso de rellenado del formulario. De esta forma, la adaptación automática de voz se centra en el reconocimiento de secuencias en lugar de intentar reconocer una intención y una secuencia al mismo tiempo. De lo contrario, "¿Dónde está mi paquete para ABC123?" podría interpretarse erróneamente como "¿Dónde está mi paquete 4ABC123?".

3. Requisito de anotación de frases de preparación

No utilice la entidad de expresión regular para una anotación de frase de entrenamiento de intención. De esta forma, el parámetro se resuelve como parte del proceso de rellenado del formulario.

4. Requisito de prueba

Consulta Probar la adaptación de voz.

Ejemplos

Por ejemplo, una entidad de expresión regular con una sola entrada ([a-zA-Z0-9]\s?){5,9} no activará el reconocedor de secuencias de voz porque contiene un grupo de captura. Para solucionarlo, solo tiene que añadir otra entrada para [a-zA-Z0-9]{5,9}. Ahora podrás beneficiarte del reconocedor de secuencias al buscar "ABC123", pero la NLU seguirá encontrando coincidencias con entradas como "ABC 123" gracias a la regla original que permite espacios.

Los siguientes ejemplos de expresiones regulares se adaptan a secuencias alfanuméricas:

^[A-Za-z0-9]{1,10}$
WAC\d+
215[2-8]{3}[A-Z]+
[a-zA-Z]\s?[a-zA-Z]\s?[0-9]\s?[0-9]\s?[0-9]\s?[a-zA-Z]\s?[a-zA-Z]

Los siguientes ejemplos de expresiones regulares se adaptan a secuencias de dígitos:

\d{2,8}
^[0-9]+$
2[0-9]{7}
[2-9]\d{2}[0-8]{3}\d{4}

Solución alternativa con expresiones regulares

La compatibilidad integrada de la adaptación de voz automática con las entidades de expresiones regulares varía según el idioma. Consulta los tokens de clase de Speech para ver los idiomas admitidos de $OOV_CLASS_ALPHANUMERIC_SEQUENCE y $OOV_CLASS_DIGIT_SEQUENCE.

Si tu idioma no aparece en la lista, puedes solucionar esta limitación. Por ejemplo, si quieres que se reconozca correctamente un ID de empleado que tenga tres letras seguidas de tres dígitos, puedes crear tu agente con las siguientes entidades y parámetros:

Define una entidad digit que contenga 10 entradas de entidad (con sinónimos):
0, 0
1, 1
...
9, 9
Define una entidad letter que contenga 26 entradas de entidad (con sinónimos):
A, A
B, B
...
Z, Z
Define una entidad employee-id que contenga una sola entrada de entidad (sin sinónimos):
@letter @letter @letter @digit @digit @digit
Usa @employee-id como parámetro en una frase de entrenamiento.

Adaptación de voz manual

La adaptación de voz manual te permite configurar manualmente las frases de adaptación de voz de un flujo o una página. También anula los contextos de voz implícitos generados por la adaptación automática de voz cuando esta última está habilitada.

Los ajustes de adaptación del habla a nivel de flujo y de página tienen una relación jerárquica, lo que significa que una página hereda los ajustes de adaptación del habla del nivel de flujo de forma predeterminada y que el nivel de página, que es más específico, siempre anula el nivel de flujo si la página tiene un ajuste personalizado.

Los ajustes de adaptación de voz, de nivel de flujo y de nivel de página se pueden habilitar de forma independiente. Si el ajuste de adaptación a nivel de flujo no está habilitado, puedes elegir Personalizar a nivel de página para habilitar la adaptación manual del habla en esa página concreta. Del mismo modo, si inhabilitas la adaptación manual del habla en la configuración a nivel de flujo, las páginas del flujo en las que se haya seleccionado Personalizar no se verán afectadas.

Sin embargo, los ajustes a nivel de flujo y de página no se pueden inhabilitar por separado. Si un flujo tiene habilitada la adaptación manual del habla, no puedes inhabilitarla en una página del flujo mediante la opción Personalizar. Por lo tanto, si quieres combinar el uso de la adaptación de voz manual y automática en las páginas de un flujo, no debes habilitar la adaptación de voz manual a nivel de flujo, sino que solo debes usar los ajustes de adaptación a nivel de página. En la tabla de abajo se indica qué combinación de ajustes de flujo y de página debe usar en su caso.

Efecto objetivo	Uso recomendado de los ajustes de adaptación
Inhabilitar la adaptación automática de un flujo	Flujo habilitado sin conjuntos de frases (las páginas del flujo usan el ajuste del flujo de forma predeterminada).
Inhabilitar la adaptación automática de una página	El flujo está inhabilitado y la página está habilitada (se ha elegido Personalizar) sin conjuntos de frases.
Usar la adaptación de voz manual solo en todas las páginas de un flujo	Flujo habilitado. Personalizar las páginas que necesiten usar conjuntos de frases diferentes a las del flujo.
Combinar el uso de la adaptación automática y manual en un flujo	Flow inhabilitado. Personaliza las páginas a las que quieras aplicar la adaptación manual.
Usar la adaptación de voz automática solo en todas las páginas de un flujo	Flow inhabilitado.

Habilitar o inhabilitar la adaptación manual de la voz

Para habilitar o inhabilitar la adaptación manual de la voz a nivel de flujo o de página, sigue estos pasos:

Configuración del flujo

Abre la consola de Dialogflow CX.
Elige tu proyecto de GCP.
Coloca el cursor sobre el flujo en la sección Flujos.
Haz clic en el botón de opciones .
Selecciona Configuración del flujo de trabajo en el menú desplegable.
Selecciona o desmarca la casilla Habilitar adaptación manual del habla.
Editar, añadir o eliminar conjuntos de frases en la tabla de conjuntos de frases
Haz clic en Guardar.

Configuración de la página

Abre la consola de Dialogflow CX.
Elige tu proyecto de GCP.
Coloca el cursor sobre la página en la sección Páginas.
Haz clic en el botón de opciones .
En el menú desplegable, selecciona Configuración de la página.
La opción Usar nivel de flujo está seleccionada de forma predeterminada. Cuando se elige, las frases de adaptación a nivel de flujo se reutilizarán en esta página. Puedes elegir Personalizar para configurar frases de adaptación diferentes a los ajustes de nivel de flujo. Aunque la adaptación manual del habla esté inhabilitada a nivel de flujo, puedes habilitarla y configurarla para una página de ese flujo mediante la opción Personalizar.
Editar, añadir o eliminar un conjunto de frases en la tabla de conjuntos de frases de adaptación
Haz clic en Guardar.

Configuración manual de conjuntos de frases para mejorar el reconocimiento de voz

1. Palabras y frases

En un conjunto de frases de adaptación, puedes definir frases de una o varias palabras con referencias opcionales a tokens de clase de voz. Por ejemplo, puedes añadir frases como "great rate", "tracking number is $OOV_CLASS_ALPHANUMERIC_SEQUENCE" o "$FULLPHONENUM". Estas frases aumentan la probabilidad de que se transcriban en lugar de otras frases fonéticamente similares. Si añades una frase de varias palabras sin ningún refuerzo, el sesgo se aplicará tanto a la frase completa como a las partes continuas de la frase. En general, el número de frases debe ser reducido y solo debes añadir frases que el reconocimiento de voz tenga dificultades para reconocer correctamente sin adaptación de voz. Si Speech-to-Text ya puede reconocer una frase correctamente, no es necesario que la añadas a los ajustes de adaptación del habla. Si ves algunas frases que Speech-to-Text suele reconocer mal en una página o un flujo, puedes añadir las frases correctas a los ajustes de adaptación correspondientes.

Ejemplo de corrección de errores de reconocimiento

Aquí tienes un ejemplo de cómo puedes usar la adaptación del habla para corregir problemas de reconocimiento. Supongamos que estás diseñando un agente de intercambio de teléfonos y que el usuario puede decir algo que incluya las frases "vender teléfonos" o "teléfono móvil" después de que el agente le haga la primera pregunta: "¿En qué puedo ayudarte?". Entonces, ¿cómo podemos usar la adaptación de voz para mejorar la precisión del reconocimiento en ambas frases?

Si incluyes ambas frases en los ajustes de adaptación, es posible que la función de conversión de voz a texto siga confundiéndose, ya que suenan de forma similar. Si solo proporcionas una de las dos frases, es posible que Speech-to-Text no reconozca una de las frases y la confunda con la otra. Para mejorar la precisión del reconocimiento de voz de ambas frases, debes proporcionar a Speech-to-Text más pistas de contexto para distinguir cuándo debe escuchar "sell phones" y cuándo "cell phone". Por ejemplo, puede que observes que los usuarios suelen usar "vender teléfonos" en expresiones como "cómo vender teléfonos", "quiero vender teléfonos" o "¿vendéis teléfonos?", mientras que usan "teléfono móvil" en expresiones como "comprar teléfono móvil", "factura del teléfono móvil" y "servicio de telefonía móvil". Si proporcionas al modelo estas frases más precisas en lugar de las frases originales cortas "cell phone" y "sell phones", Speech-to-Text aprenderá que es más probable que "sell phone" como frase verbal siga a palabras como "how to", "want to" y "do you", mientras que "cell phone" como frase nominal es más probable que siga a palabras como "purchase" o que vaya seguida de palabras como "bill" o "service". Por lo tanto, como regla general para configurar frases de adaptación, suele ser mejor proporcionar frases más precisas, como "cómo vender teléfonos" o "¿vendes teléfonos?", que incluir solo "vender teléfono".

2. Tokens de clase de voz

Además de palabras en lenguaje natural, también puedes insertar referencias a tokens de clase de voz en una frase. Los tokens de clase de voz representan conceptos comunes que suelen seguir un formato determinado por escrito. Por ejemplo, en la dirección "123 Main Street", los usuarios suelen esperar ver el formato numérico "123" en lugar de la versión escrita "one-hundred twenty-three". Si esperas que la transcripción tenga un formato concreto, sobre todo en el caso de las secuencias alfanuméricas, consulta la lista de tokens de clase admitidos para ver qué tokens están disponibles en tu idioma y en tu caso práctico.

Si la página ya tiene rutas de intenciones o parámetros con referencias a entidades del sistema, aquí tienes una tabla de referencia para las asignaciones entre entidades del sistema comunes y tokens de clase de voz:

Entidades del sistema	Tokens de clase de voz
`@sys.date`	`$MONTH $DAY $YEAR`
`@sys.date-time`	`$MONTH $DAY $YEAR`
`@sys.date-period`	`$MONTH $DAY $YEAR`
`@sys.time`	`$TIME`
`@sys.time-period`	`$TIME`
`@sys.age`	`$OPERAND`
`@sys.number`	`$OPERAND`
`@sys.number-integer`	`$OPERAND`
`@sys.cardinal`	`$OPERAND`
`@sys.ordinal`	`$OPERAND`
`@sys.percentage`	`$OPERAND`
`@sys.duration`	`$OPERAND`
`@sys.currency-name`	`$MONEY`
`@sys.unit-currency`	`$MONEY`
`@sys.phone-number`	`$FULLPHONENUM`
`@sys.zip-code`	`$POSTALCODE` o `$OOV_CLASS_POSTALCODE`
`@sys.address`	`$ADDRESSNUM $STREET $POSTALCODE`
`@sys.street-address`	`$ADDRESSNUM $STREET $POSTALCODE`
`@sys.temperature`	`$OOV_CLASS_TEMPERATURE`
`@sys.number-sequence`	`$OOV_CLASS_DIGIT_SEQUENCE`
`@sys.flight-number`	`$OOV_CLASS_ALPHANUMERIC_SEQUENCE`

3. Aumentar el valor

Si añadir frases sin el valor de refuerzo no proporciona un efecto de sesgo lo suficientemente fuerte, puedes usar el valor de refuerzo para reforzar aún más el efecto de sesgo de la adaptación del habla.

El aumento aplica un sesgo adicional cuando se le asignan valores superiores a 0 y no superiores a 20. Cuando el impulso está vacío o es 0, el efecto de sesgo predeterminado ayuda a reconocer toda la frase y las partes continuas de la frase. Por ejemplo, la frase "¿estás abierto a vender teléfonos?" sin potenciar ayuda a reconocer esa frase y otras similares, como "Vendo teléfonos" y "Hola, ¿estás abierto?".

Cuando se aplica un aumento positivo, el efecto de sesgo es mayor, pero solo se aplica a la frase exacta. Por ejemplo, la frase potenciada "vender teléfonos" ayuda a reconocer "¿puedes vender teléfonos?", pero no "¿vendes teléfonos?".

Por estos motivos, obtendrás los mejores resultados si proporcionas frases con y sin refuerzo.

Si los valores de refuerzo son más altos, se pueden producir menos falsos negativos, que son los casos en los que la palabra o la frase se han producido en el audio, pero Speech-to-Text no las ha reconocido correctamente (sesgo por defecto). Sin embargo, la función de refuerzo también puede aumentar la probabilidad de que se produzcan falsos positivos, es decir, casos en los que la palabra o la frase aparezcan en la transcripción aunque no se hayan pronunciado en el audio (sesgo excesivo). Normalmente, tienes que ajustar las frases de sesgo para encontrar un punto de equilibrio entre los dos problemas de sesgo.

Puedes consultar más información sobre cómo ajustar el valor de refuerzo de las frases en la documentación de Cloud Speech sobre el refuerzo.

Cuándo usar la adaptación de voz automática o manual

Por lo general, si no sabes con certeza si la adaptación del habla mejorará la calidad del reconocimiento de voz de tu agente (no tienes en mente patrones de errores de transcripción claros), te recomendamos que pruebes primero la adaptación automática del habla antes de recurrir a la adaptación manual. Para tomar decisiones más matizadas, ten en cuenta los siguientes factores para decidir entre la adaptación automática del habla o la manual:

1. Rellenar formularios

La adaptación automática del habla funciona muy bien con el relleno de formularios, ya que usa el contexto de la gramática ABNF para los parámetros del formulario y aplica reglas gramaticales basadas en sus tipos de entidad. Como la adaptación manual de voz aún no admite gramáticas ABNF, se suele preferir la adaptación automática de voz a la adaptación manual de voz en una página de relleno de formularios. Sin embargo, en las páginas que solo tienen parámetros de entidad del sistema y entidades de expresiones regulares sencillas compatibles con tokens de clase de voz, también puedes usar la adaptación manual de voz para conseguir un efecto de sesgo similar al de la adaptación automática de voz sin tener que ajustar las entidades de expresiones regulares.

2. Complejidad de la transición de página o flujo

En una página o un flujo sencillos con pocas rutas de intención, es probable que la adaptación automática del habla genere frases de sesgo representativas y funcione razonablemente bien.

Sin embargo, si una página o un flujo tiene una gran cantidad de rutas de intención (en el caso de una página, también debe tener en cuenta el número de rutas a nivel de flujo) o si alguna de las intenciones tiene frases de entrenamiento poco importantes demasiado largas o cortas (por ejemplo, una frase completa o una sola palabra con solo una o dos sílabas), es muy probable que el modelo de adaptación de voz no funcione bien con estas frases. Primero, prueba a inhabilitar la adaptación de voz en las páginas de respuesta abierta con una complejidad alta habilitando la adaptación de voz manual con conjuntos de frases vacíos (sustitución de adaptación vacía). Después, evalúa si hay frases especiales inequívocas que aún deban proporcionarse a Speech-to-Text para mejorar la calidad del reconocimiento.

Otro síntoma de este problema de complejidad es que se produzcan problemas de sesgo por defecto o por exceso cuando la adaptación automática del habla está habilitada. Al igual que en el caso anterior, primero debes hacer pruebas con la adaptación del habla inhabilitada en la página específica. Si los comportamientos erróneos persisten después de inhabilitar la adaptación del habla, puedes añadir las frases que quieras corregir a los ajustes de adaptación del habla e incluso añadir valores de refuerzo para reforzar aún más los efectos de sesgo cuando sea necesario.

Probar la adaptación de voz

Cuando pruebes las funciones de adaptación del habla de tu agente para una frase de entrenamiento o una coincidencia de entidad concretas, no debes pasar directamente a probar la coincidencia con la primera expresión de voz de una conversación. Solo debes usar entradas de voz o de eventos durante toda la conversación anterior a la coincidencia que quieras probar. El comportamiento de tu agente cuando se pruebe de esta forma será similar al comportamiento en conversaciones de producción reales.

Limitaciones

Se aplican las siguientes limitaciones:

La adaptación del habla no está disponible para todos los modelos de voz ni para todas las combinaciones de idiomas. Consulta la página de idiomas compatibles con Cloud Speech para comprobar si la adaptación de modelos está disponible para tu modelo de voz y tu combinación de idiomas.

Por el momento, la adaptación manual del habla no admite clases personalizadas ni gramática ABNF. Puedes habilitar la adaptación automática del habla o usar la solicitud de detección de intención en tiempo de ejecución para aprovechar estas funciones de adaptación.
El mismo valor de aumento puede funcionar de forma diferente en distintos modelos de voz e idiomas, por lo que debes tener cuidado al configurarlos manualmente para agentes que usen varios idiomas o modelos de voz. Actualmente, la adaptación manual del habla se aplica a todos los idiomas de un agente, por lo que los agentes multilingües solo deben usar frases independientes del idioma o dividir cada idioma en un agente independiente. Dado que el comportamiento predeterminado de sesgo (no proporcionar impulso o proporcionar un impulso de 0) suele funcionar razonablemente bien en todos los idiomas y modelos, no es necesario configurar valores de impulso específicos de cada idioma, a menos que se requiera un sesgo más fuerte para tu caso práctico de reconocimiento. Puedes consultar más información sobre cómo ajustar el valor de refuerzo en esta guía de Cloud Speech-to-Text.

Reconocer secuencias largas de caracteres es difícil. El número de caracteres que se capturan en un solo turno está directamente relacionado con la calidad del audio de entrada. Si has seguido todas las directrices de las entidades de expresiones regulares y has probado a usar tokens de clases de voz relevantes en los ajustes de adaptación de voz manual y sigues teniendo problemas para capturar toda la secuencia en un solo turno, puedes probar algunas alternativas más conversacionales:
- Al validar la secuencia en una base de datos, ten en cuenta que puedes comparar otros parámetros recogidos, como fechas, nombres o números de teléfono, para permitir coincidencias incompletas. Por ejemplo, en lugar de pedirle a un usuario su número de pedido, pídele también su número de teléfono. Ahora, cuando tu webhook consulte el estado de un pedido en tu base de datos, podrá basarse primero en el número de teléfono y, después, devolver el pedido que más se ajuste a esa cuenta. De esta forma, Dialogflow podría entender mal "ABC" y oír "AVC", pero aun así devolvería el estado correcto del pedido al usuario.
- En el caso de secuencias muy largas, diseña un flujo que anime a los usuarios finales a hacer una pausa a mitad de la secuencia para que el bot pueda confirmar la información sobre la marcha.

Clonación de voz

Ajustes de voz avanzados