Text-to-Speech te permite convertir palabras y frases en datos de audio codificados en base64 de una voz humana natural. Después, puedes convertir los datos de audio en un archivo de audio reproducible, como un MP3, decodificando los datos en Base64. La API Text-to-Speech acepta entradas en forma de texto sin formato o de lenguaje de marcas de síntesis de voz (SSML).
En este documento se describe cómo crear un archivo de audio a partir de texto o de entrada SSML con Text-to-Speech. También puedes consultar el artículo sobre los conceptos básicos de la función de texto a voz si no conoces conceptos como la síntesis de voz o SSML.
Para usar estos ejemplos, debes haber instalado e inicializado Google Cloud CLI. Para obtener información sobre cómo configurar la CLI de gcloud, consulta Autenticarse en TTS.
Convertir texto en audio de voz sintética
En los siguientes ejemplos de código se muestra cómo convertir una cadena en datos de audio.
Puedes configurar la salida de la síntesis de voz de varias formas, como seleccionar una voz única o modular la salida en tono, volumen, velocidad de habla y frecuencia de muestreo.
Protocolo
Consulta todos los detalles en el endpoint de la API text:synthesize
.
Para sintetizar audio a partir de texto, envía una solicitud HTTP POST al endpoint text:synthesize
. En el cuerpo de la solicitud POST,
especifica el tipo de voz que se va a sintetizar en la sección voice
configuration,
especifica el texto que se va a sintetizar en el campo text
de la sección input
y
especifica el tipo de audio que se va a crear en la sección audioConfig
.
El siguiente fragmento de código envía una solicitud de síntesis al endpoint text:synthesize
y guarda los resultados en un archivo llamado synthesize-text.txt
. Sustituye PROJECT_ID
por el ID de tu proyecto.
curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "x-goog-user-project: <var>PROJECT_ID</var>" \ -H "Content-Type: application/json; charset=utf-8" \ --data "{ 'input':{ 'text':'Android is a mobile operating system developed by Google, based on the Linux kernel and designed primarily for touchscreen mobile devices such as smartphones and tablets.' }, 'voice':{ 'languageCode':'en-gb', 'name':'en-GB-Standard-A', 'ssmlGender':'FEMALE' }, 'audioConfig':{ 'audioEncoding':'MP3' } }" "https://texttospeech.googleapis.com/v1/text:synthesize" > synthesize-text.txt
La API Text-to-Speech devuelve el audio sintetizado como datos codificados en base64 incluidos en la salida JSON. El resultado JSON del archivo synthesize-text.txt
tiene un aspecto similar al del siguiente fragmento de código.
{ "audioContent": "//NExAASCCIIAAhEAGAAEMW4kAYPnwwIKw/BBTpwTvB+IAxIfghUfW.." }
Para decodificar los resultados de la API Text-to-Speech como un archivo de audio MP3, ejecuta el siguiente comando desde el mismo directorio que el archivo synthesize-text.txt
.
cat synthesize-text.txt | grep 'audioContent' | \ sed 's|audioContent| |' | tr -d '\n ":{},' > tmp.txt && \ base64 tmp.txt --decode > synthesize-text-audio.mp3 && \ rm tmp.txt
Go
Para saber cómo instalar y usar la biblioteca de cliente de Text-to-Speech, consulta el artículo sobre las bibliotecas de cliente de Text-to-Speech. Para obtener más información, consulta la documentación de referencia de la API Text-to-Speech Go.
Para autenticarte en Text-to-Speech, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Java
Para saber cómo instalar y usar la biblioteca de cliente de Text-to-Speech, consulta el artículo sobre las bibliotecas de cliente de Text-to-Speech. Para obtener más información, consulta la documentación de referencia de la API Text-to-Speech Java.
Para autenticarte en Text-to-Speech, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Node.js
Para saber cómo instalar y usar la biblioteca de cliente de Text-to-Speech, consulta el artículo sobre las bibliotecas de cliente de Text-to-Speech. Para obtener más información, consulta la documentación de referencia de la API Text-to-Speech Node.js.
Para autenticarte en Text-to-Speech, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Python
Para saber cómo instalar y usar la biblioteca de cliente de Text-to-Speech, consulta el artículo sobre las bibliotecas de cliente de Text-to-Speech. Para obtener más información, consulta la documentación de referencia de la API Text-to-Speech Python.
Para autenticarte en Text-to-Speech, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Idiomas adicionales
C#: Sigue las instrucciones de configuración de C# en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Text-to-Speech para .NET.
PHP Sigue las instrucciones de configuración de PHP en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Text-to-Speech para PHP.
Ruby: Sigue las instrucciones de configuración de Ruby en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Text-to-Speech para Ruby.
Convertir SSML en audio de voz sintética
Si usas SSML en tu solicitud de síntesis de audio, puedes generar audio que se parezca más a la voz humana natural. En concreto, SSML te ofrece un control más preciso sobre cómo representa la salida de audio las pausas en el discurso o cómo pronuncia el audio las fechas, las horas, los acrónimos y las abreviaturas.
Para obtener más información sobre los elementos SSML admitidos por la API Text-to-Speech, consulta la referencia de SSML.
Protocolo
Consulta todos los detalles en el endpoint de la API text:synthesize
.
Para sintetizar audio a partir de SSML, haz una solicitud HTTP POST al endpoint text:synthesize
. En el cuerpo de la solicitud POST, especifica el tipo de voz que quieres sintetizar en la sección de configuración voice
, el SSML que quieres sintetizar en el campo ssml
de la sección input
y el tipo de audio que quieres crear en la sección audioConfig
.
El siguiente fragmento de código envía una solicitud de síntesis al endpoint text:synthesize
y guarda los resultados en un archivo llamado synthesize-ssml.txt
. Sustituye PROJECT_ID
por el ID de tu proyecto.
curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "x-goog-user-project: <var>PROJECT_ID</var>" \ -H "Content-Type: application/json; charset=utf-8" --data "{ 'input':{ 'ssml':'<speak>The <say-as interpret-as=\"characters\">SSML</say-as> standard is defined by the <sub alias=\"World Wide Web Consortium\">W3C</sub>.</speak>' }, 'voice':{ 'languageCode':'en-us', 'name':'en-US-Standard-B', 'ssmlGender':'MALE' }, 'audioConfig':{ 'audioEncoding':'MP3' } }" "https://texttospeech.googleapis.com/v1/text:synthesize" > synthesize-ssml.txt
La API Text-to-Speech devuelve el audio sintetizado como datos codificados en base64 incluidos en la salida JSON. El resultado JSON del archivo synthesize-ssml.txt
tiene un aspecto similar al del siguiente fragmento de código.
{ "audioContent": "//NExAASCCIIAAhEAGAAEMW4kAYPnwwIKw/BBTpwTvB+IAxIfghUfW.." }
Para decodificar los resultados de la API Text-to-Speech como un archivo de audio MP3, ejecuta el siguiente comando desde el mismo directorio que el archivo synthesize-ssml.txt
.
cat synthesize-ssml.txt | grep 'audioContent' | \ sed 's|audioContent| |' | tr -d '\n ":{},' > tmp.txt && \ base64 tmp.txt --decode > synthesize-ssml-audio.mp3 && \ rm tmp.txt
Go
Para saber cómo instalar y usar la biblioteca de cliente de Text-to-Speech, consulta el artículo sobre las bibliotecas de cliente de Text-to-Speech. Para obtener más información, consulta la documentación de referencia de la API Text-to-Speech Go.
Para autenticarte en Text-to-Speech, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Java
Para saber cómo instalar y usar la biblioteca de cliente de Text-to-Speech, consulta el artículo sobre las bibliotecas de cliente de Text-to-Speech. Para obtener más información, consulta la documentación de referencia de la API Text-to-Speech Java.
Para autenticarte en Text-to-Speech, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Node.js
Para saber cómo instalar y usar la biblioteca de cliente de Text-to-Speech, consulta el artículo sobre las bibliotecas de cliente de Text-to-Speech. Para obtener más información, consulta la documentación de referencia de la API Text-to-Speech Node.js.
Para autenticarte en Text-to-Speech, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Python
Para saber cómo instalar y usar la biblioteca de cliente de Text-to-Speech, consulta el artículo sobre las bibliotecas de cliente de Text-to-Speech. Para obtener más información, consulta la documentación de referencia de la API Text-to-Speech Python.
Para autenticarte en Text-to-Speech, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Idiomas adicionales
C#: Sigue las instrucciones de configuración de C# en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Text-to-Speech para .NET.
PHP Sigue las instrucciones de configuración de PHP en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Text-to-Speech para PHP.
Ruby: Sigue las instrucciones de configuración de Ruby en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Text-to-Speech para Ruby.