Text-to-Speech permite a los desarrolladores crear una voz sintética y que suene natural como un audio reproducible. Puedes usar los archivos de datos de audio que crees con la API Text-to-Speech para potenciar tus aplicaciones o mejorar contenido multimedia, como vídeos o grabaciones de audio (de conformidad con los Términos del Servicio de Google Cloud Platform y las leyes aplicables).
Text-to-Speech convierte texto o lenguaje de marcas de síntesis de voz (SSML) en datos de audio, como MP3 o LINEAR16 (la codificación que se usa en los archivos WAV).
Este documento es una guía de los conceptos fundamentales para usar Text-to-Speech. Antes de profundizar en la API, consulta las guías de inicio rápido.
Ejemplo básico
La conversión de texto a voz es ideal para cualquier aplicación que reproduzca audio de voz humana para los usuarios. Te permite convertir cadenas, palabras y frases arbitrarias en el sonido de una persona que habla las mismas cosas.
Imagina que tienes una aplicación de asistente de voz que proporciona a tus usuarios comentarios en lenguaje natural en forma de archivos de audio reproducibles. Es posible que tu aplicación realice una acción y, a continuación, proporcione una respuesta de voz humana al usuario.
Por ejemplo, tu aplicación puede querer informar de que ha añadido correctamente un evento al calendario del usuario. Tu aplicación crea una cadena de respuesta para informar al usuario de que se ha completado la acción, como "He añadido el evento a tu calendario".
Con la conversión de texto a voz, puedes convertir esa cadena de respuesta en un discurso oral y natural para reproducírselo al usuario, como en el ejemplo que se muestra a continuación.
Ejemplo 1. Archivo de audio generado a partir de Text-to-Speech
Para crear un archivo de audio como el del ejemplo 1, envía una solicitud a Text-to-Speech como la del siguiente fragmento de código.
curl -H "Authorization: Bearer "$(gcloud auth print-access-token) -H "x-goog-user-project: <var>PROJECT_ID</var>" -H "Content-Type: application/json; charset=utf-8" --data "{
'input':{
'text':'With Cloud machine learning, your application interprets images, texts, and more.'
},
'voice':{
'languageCode':'en-gb',
'name':'en-GB-Chirp3-HD-Charon',
},
'audioConfig':{
'audioEncoding':'LINEAR16'
}
}" "https://texttospeech.googleapis.com/v1/text:synthesize"
Síntesis de voz
El proceso de traducir texto a datos de audio se denomina síntesis, y el resultado de la síntesis se llama voz sintética.
Text-to-Speech acepta dos tipos de entrada: texto sin formato o datos en formato SSML (que se explican más abajo). Para crear un archivo de audio, llama al endpoint synthesize
de la API.
El proceso de síntesis de voz genera datos de audio sin procesar como una cadena codificada en Base64. Debes decodificar la cadena codificada en Base64 en un archivo de audio para que una aplicación pueda reproducirlo. La mayoría de las plataformas y los sistemas operativos tienen herramientas para decodificar texto en base64 en archivos multimedia reproducibles.
.Para obtener más información sobre la síntesis, consulta las guías de inicio rápido o la página Crear archivos de audio de voz.
Voces
Text-to-Speech crea datos de audio sin procesar de voces humanas naturales. Es decir, crea audio que suena como si una persona estuviera hablando. Cuando envías una solicitud de síntesis a Text-to-Speech, debes especificar una voz que "pronuncie" las palabras.
Text-to-Speech ofrece una amplia selección de voces personalizadas que puedes usar. Las voces varían en función del idioma, el sexo y el acento (en algunos idiomas). Por ejemplo, puedes crear un audio que imite el sonido de una mujer de habla inglesa con acento británico, como en el ejemplo 1 de arriba. También puedes convertir el mismo texto en otra voz, por ejemplo, la de un hombre que habla inglés con acento australiano.
Ejemplo 2. Archivo de audio generado con la voz en inglés de Australia
Para ver la lista completa de las voces disponibles, consulta Voces admitidas.
Otros ajustes de salida de audio
Además de la voz, también puedes configurar otros aspectos de los datos de audio que genera la síntesis de voz. La conversión de texto a voz permite configurar la velocidad, el tono, el volumen y la frecuencia de muestreo (hercios) de la voz.
Consulta la referencia de AudioConfig para obtener más información.
Compatibilidad con el lenguaje de marcas de síntesis de voz (SSML)
Puedes mejorar la voz sintética que genera Text-to-Speech marcando el texto con el lenguaje de marcas de síntesis de voz (SSML). SSML te permite insertar pausas, pronunciaciones de acrónimos u otros detalles adicionales en los datos de audio creados por Text-to-Speech. Text-to-Speech admite un subconjunto de los elementos SSML disponibles.
Por ejemplo, puedes asegurarte de que la síntesis de voz pronuncie correctamente los números ordinales proporcionando a Text-to-Speech una entrada SSML que marque los números ordinales como tales.
Ejemplo 5. Archivo de audio generado a partir de texto sin formato
Ejemplo 6. Archivo de audio generado a partir de una entrada SSML
Para obtener más información sobre cómo sintetizar voz a partir de SSML, consulta el artículo Crear archivos de audio de voz.