Modelos de voz

Los agentes de voz de Dialogflow usan Speech-to-Text para el reconocimiento de voz, que se incluye en los precios de Dialogflow. Dialogflow selecciona automáticamente un modelo de reconocimiento de voz por ti, pero, opcionalmente, puedes especificarlo.

Modelos disponibles

Todos los modelos disponibles se enumeran en Modelos de Speech-to-Text. Selecciona el modelo que se adapte mejor a tu dominio y que admita las funciones de idioma y voz de tu agente.

Si un modelo no se especifica de forma explícita, Dialogflow selecciona automáticamente un modelo según la configuración de audio en las solicitudes a la API y la configuración del agente.

Los siguientes modelos suelen tener el mejor rendimiento:

  • Telephony_short (ideal para telefonía Dialogflow)
  • telefonía (ideal para Agent Assist)
  • phone_call (válido para Agent Assist y de la telefonía Dialogflow)
  • last_short (ideal para Dialogflow sin telefonía)
  • comando_and_search (ideal para idiomas en los que no hay otros modelos disponibles)

Especificar un modelo

Puedes proporcionar el modelo para un agente, un flujo o una página con la configuración de selección del modelo.

También puedes proporcionar el modelo cuando llamas a los métodos Sessions.detectIntent o Sessions.streamingDetectIntent.

Selecciona un protocolo y una versión para la referencia de sesión:

Protocolo V3 V3beta1
REST Recurso de la sesión Recurso de la sesión
RPC Interfaz de la sesión Interfaz de la sesión
C++ SessionsClient No disponible
C# SessionsClient No disponible
Go SessionsClient No disponible
Java SessionsClient SessionsClient
Node.js SessionsClient SessionsClient
PHP No disponible No disponible
Python SessionsClient SessionsClient
Rita No disponible No disponible
o cuando configures ConversationProfile para Agent Assist Si especificas el modelo en un intent de detección o una llamada a la API del perfil de conversación, se anulará cualquier selección de modelo que se aplique al agente, el flujo o la página, a menos que habilites la configuración Anular el modelo de voz a nivel de la solicitud.