Las aplicaciones a menudo necesitan un bot para responder al usuario final. Dialogflow puede usar Cloud Text-to-Speech con tecnología de DeepMind WaveNet para generar respuestas de voz de tu agente. Esta conversión de respuestas de texto de intent a audio se conoce como salida de audio, síntesis de voz, texto a voz o TTS.
En esta guía, se muestra un ejemplo en el que se usa audio para la entrada y la salida cuando se detecta un intent. Este caso práctico es común cuando se compilan apps que se comunican con usuarios a través de una interfaz solo de audio.
Para obtener una lista de los idiomas compatibles, consulta la columna TTS en la página Idiomas.
Antes de comenzar
Esta función solo es aplicable cuando se usa la API para las interacciones del usuario final. Si usas una integración, puedes omitir esta guía.
Debes hacer lo siguiente antes de leer esta guía:
- Lee los conceptos básicos de Dialogflow.
- Realiza los pasos de configuración.
Crea un agente
Si aún no creaste un agente, sigue estos pasos para crearlo:
- Ve a la consola de Dialogflow ES.
- Si se te solicita, accede a la consola de Dialogflow. Consulta Descripción general de la consola de Dialogflow para obtener más información.
- Haz clic en Create agent, en el menú de la barra lateral izquierda. (Si ya tienes otros agentes, haz clic en el nombre del agente, desplázate hacia la parte inferior y haz clic en Create new agent).
- Ingresa el nombre del agente, y el idioma y la zona horaria predeterminados.
- Si ya creaste un proyecto, ingrésalo. Si quieres que la consola de Dialogflow cree el proyecto, selecciona Create a new Google project.
- Haz clic en el botón Create.
Importa el archivo de ejemplo al agente
En los pasos que se brindan en esta guía, se hacen suposiciones sobre tu agente, por lo que debes importar un agente preparado para esta guía. Cuando realizas la importación, en estos pasos se usa la opción restablecer, que reemplaza todas las opciones de configuración, intents y entidades del agente.
Para importar el archivo, sigue estos pasos:
- Descarga el archivo
room-booking-agent.zip
. - Ve a la consola de Dialogflow ES.
- Selecciona el agente.
- Haz clic en el botón de configuración settings que se encuentra junto al nombre del agente.
- Selecciona la pestaña Export and Import.
- Selecciona Restore From Zip y sigue las instrucciones para restablecer el archivo ZIP que descargaste.
Detecta intents
Para detectar un intent, llama al método detectIntent
en el tipo Sessions
.
REST
1. Prepara el contenido de audio
Descarga el archivo input_audio de muestra book-a-room.wav
, que dice “book a room” (“reservar una habitación”).
El archivo de audio debe estar codificado en base64 para este ejemplo, por lo que se puede proporcionar en la solicitud JSON que se encuentra a continuación.
El siguiente es un ejemplo de Linux:
wget https://cloud.google.com/dialogflow/es/docs/data/book-a-room.wav base64 -w 0 book-a-room.wav > book-a-room.b64
Para ver ejemplos en otras plataformas, consulta Cómo incorporar audio codificado en Base64 en la documentación de la API de Cloud Speech.
2. Realiza una solicitud de intent de detección
Llama al método detectIntent
en el tipo Sessions
y especifica el audio codificado en base64.
Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:
- PROJECT_ID: El ID del proyecto de Google Cloud.
- SESSION_ID: Es un ID de sesión.
- BASE64_AUDIO: Es el contenido en base64 del archivo de salida anterior.
Método HTTP y URL:
POST https://dialogflow.googleapis.com/v2/projects/PROJECT_ID/agent/sessions/SESSION_ID:detectIntent
Cuerpo JSON de la solicitud:
{ "queryInput": { "audioConfig": { "languageCode": "en-US" } }, "outputAudioConfig" : { "audioEncoding": "OUTPUT_AUDIO_ENCODING_LINEAR_16" }, "inputAudio": "BASE64_AUDIO" }
Para enviar tu solicitud, expande una de estas opciones:
Deberías recibir una respuesta JSON similar a la que se muestra a continuación:
{ "responseId": "b7405848-2a3a-4e26-b9c6-c4cf9c9a22ee", "queryResult": { "queryText": "book a room", "speechRecognitionConfidence": 0.8616504, "action": "room.reservation", "parameters": { "time": "", "date": "", "duration": "", "guests": "", "location": "" }, "fulfillmentText": "I can help with that. Where would you like to reserve a room?", "fulfillmentMessages": [ { "text": { "text": [ "I can help with that. Where would you like to reserve a room?" ] } } ], "intent": { "name": "projects/PROJECT_ID/agent/intents/e8f6a63e-73da-4a1a-8bfc-857183f71228", "displayName": "room.reservation" }, "intentDetectionConfidence": 1, "diagnosticInfo": {}, "languageCode": "en-us" }, "outputAudio": "UklGRs6vAgBXQVZFZm10IBAAAAABAAEAwF0AAIC7AA..." }
Ten en cuenta que el valor del campo queryResult.action
es room.reservation
, y que el campo outputAudio
contiene una string de audio grande en base64.
3. Reproduce el audio de salida
Copia el texto del campo outputAudio
y guárdalo en un archivo llamado output_audio.b64
.
Este archivo necesita convertirse en audio.
El siguiente es un ejemplo de Linux:
base64 -d output_audio.b64 > output_audio.wav
Para ver ejemplos en otras plataformas, consulta la página sobre cómo decodificar contenido de audio codificado en Base64 en la documentación de la API de Text-to-Speech.
Ahora puedes reproducir el archivo de audio output_audio.wav
y escuchar que coincide con el texto del campo queryResult.fulfillmentMessages[1].text.text[0]
anterior.
Se elige el segundo elemento fulfillmentMessages
porque es la respuesta de texto de la plataforma predeterminada.
Java
Para autenticarte en Dialogflow, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Node.js
Para autenticarte en Dialogflow, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Python
Para autenticarte en Dialogflow, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Consulta la sección Respuestas de detección de intent para obtener una descripción de los campos de respuesta relevantes.
Respuestas de detección de intent
La respuesta para una solicitud de detección de intent es un tipo DetectIntentResponse
.
El procesamiento de la detección del intent normal controla el contenido del campo DetectIntentResponse.queryResult.fulfillmentMessages
.
El campo DetectIntentResponse.outputAudio
se propaga con el audio en función de los valores de las respuestas de texto de la plataforma predeterminada que se encuentran en el campo DetectIntentResponse.queryResult.fulfillmentMessages
.
Si existen múltiples respuestas de texto predeterminadas, se concatenarán cuando se genere el audio.
Si no existen respuestas de texto de la plataforma predeterminada, el contenido de audio generado estará vacío.
El campo DetectIntentResponse.outputAudioConfig
se propaga con la configuración de audio usada para generar el audio de salida.
Detecta intent en una transmisión
Cuando se detecta un intent de una transmisión, envías solicitudes similares al ejemplo que no usa audio de salida: Detecta intents en una transmisión de audio.
Sin embargo, debes proporcionar un campo OutputAudioConfig a la solicitud.
Los campos output_audio
y output_audio_config
se propagan en la última respuesta de transmisión que obtienes del servidor de la API de Dialogflow.
Para obtener más información, consulta StreamingDetectIntentRequest y StreamingDetectIntentResponse.
Configuración del agente para voz
Puedes controlar varios aspectos de la síntesis de voz. Consulta Configuración de agentes.
Usa el simulador de Dialogflow
Puedes interactuar con el agente y recibir respuestas de audio a través del simulador de Dialogflow:
- Sigue los pasos anteriores para habilitar el texto a voz automático.
- Escribe o di "reservar una habitación" ("book a room") en el simulador.
- Consulta la sección audio de salida en la parte inferior del simulador.