En esta página, se describe cómo seleccionar un perfil de dispositivo para el audio que se creó con Text-to-Speech.
Puedes optimizar la voz sintética producida por Text-to-Speech para reproducirla en diferentes tipos de hardware. Por ejemplo, si tu app se ejecuta principalmente en dispositivos más pequeños y “wearables”, puedes crear desde la API de Text-to-Speech voces sintéticas optimizadas específicamente para bocinas más pequeñas.
También puedes aplicar varios perfiles de dispositivo a la misma voz sintética. La API de Text-to-Speech aplica perfiles de dispositivo al audio en el orden proporcionado en la solicitud del extremo text:synthesize
. Evita especificar el mismo perfil más de una vez, dado que puedes generar resultados indeseados.
El uso de perfiles de audio es opcional. Si eliges usar uno (o más), Text-to-Speech aplica los perfiles a los resultados de voz luego de sintetizados. Si eliges no usar un perfil de audio, recibirás los resultados de voz sin ninguna modificación posterior a la síntesis.
Para escuchar la diferencia entre el audio generado con diferentes perfiles, compara los dos clips siguientes.
Ejemplo 1. Audio generado con el perfil handset-class-device
Ejemplo 2. Audio generado con el perfil telephony-class-application
Nota: Cada perfil de audio se optimizó para un dispositivo específico mediante el ajuste de diversos efectos de audio. Sin embargo, la marca y el modelo del dispositivo que se usó para ajustar el perfil pueden no coincidir exactamente con los dispositivos de reproducción de los usuarios. Es posible que debas experimentar con distintos perfiles a fin de encontrar el mejor sonido para tu aplicación.
Perfiles de audio disponibles
En la siguiente tabla, se proporcionan los ID y ejemplos de los perfiles de dispositivo disponibles para que los utilice la API de Text-to-Speech.
ID de perfil de audio | Optimizado para |
---|---|
wearable-class-device |
Relojes inteligentes y otros wearables, como Apple Watch, reloj Wear OS |
handset-class-device |
Smartphones, como Google Pixel, Samsung Galaxy, Apple iPhone |
headphone-class-device |
Auriculares para reproducción de audio, como los de la marca Sennheiser |
small-bluetooth-speaker-class-device |
Bocinas pequeñas para el hogar, como Google Home Mini |
medium-bluetooth-speaker-class-device |
Bocinas inteligentes para el hogar, como Google Home |
large-home-entertainment-class-device |
Sistemas de entretenimiento para el hogar o televisores inteligentes, como Google Home Max, LG TV |
large-automotive-class-device |
Bocinas para automóviles |
telephony-class-application |
Sistemas de respuesta de voz interactiva (IVR) |
Especifica un perfil de audio para usar
A fin de especificar un perfil de audio para usar, establece el campo effectsProfileId
de la solicitud de síntesis de voz.
Para generar un archivo de audio, realiza una solicitud POST
y proporciona el cuerpo de la solicitud correspondiente. A continuación, se muestra un ejemplo de una solicitud POST
con curl
. En el ejemplo, se usa Google Cloud CLI para recuperar un token de acceso para la solicitud.
Para obtener instrucciones sobre cómo instalar gcloud CLI, consulta
Autentícate en Text-to-Speech.
En el siguiente ejemplo, se muestra cómo enviar una solicitud al extremo text:synthesize
.
curl \ -H "Authorization: Bearer "$(gcloud auth print-access-token) \ -H "Content-Type: application/json; charset=utf-8" \ --data "{ 'input':{ 'text':'This is a sentence that helps test how audio profiles can change the way Cloud Text-to-Speech sounds.' }, 'voice':{ 'languageCode':'en-us', }, 'audioConfig':{ 'audioEncoding':'LINEAR16', 'effectsProfileId': ['telephony-class-application'] } }" "https://texttospeech.googleapis.com/v1beta1/text:synthesize" > audio-profile.txt
Si la solicitud es exitosa, la API de Text-to-Speech muestra el audio sintetizado como datos codificados en Base64 en un resultado de JSON. El resultado de JSON en el archivo audio-profiles.txt
es similar a lo siguiente:
{ "audioContent": "//NExAASCCIIAAhEAGAAEMW4kAYPnwwIKw/BBTpwTvB+IAxIfghUfW.." }
Para decodificar los resultados de la API de Cloud Text-to-Speech como un archivo de audio MP3, ejecuta el siguiente comando desde el mismo directorio que el archivo audio-profiles.txt
.
sed 's|audioContent| |' < audio-profile.txt > tmp-output.txt && \ tr -d '\n ":{}' < tmp-output.txt > tmp-output-2.txt && \ base64 tmp-output-2.txt --decode > audio-profile.wav && \ rm tmp-output*.txt
Para obtener información sobre cómo instalar y usar la biblioteca cliente de Text-to-Speech, consulta las bibliotecas cliente de Text-to-Speech. Para obtener más información, consulta la documentación de referencia de la API de Text-to-Speech Go.
Para autenticarte en Text-to-Speech, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Para obtener información sobre cómo instalar y usar la biblioteca cliente de Text-to-Speech, consulta las bibliotecas cliente de Text-to-Speech. Para obtener más información, consulta la documentación de referencia de la API de Text-to-Speech Java.
Para autenticarte en Text-to-Speech, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Para obtener información sobre cómo instalar y usar la biblioteca cliente de Text-to-Speech, consulta las bibliotecas cliente de Text-to-Speech. Para obtener más información, consulta la documentación de referencia de la API de Text-to-Speech Node.js.
Para autenticarte en Text-to-Speech, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Para obtener información sobre cómo instalar y usar la biblioteca cliente de Text-to-Speech, consulta las bibliotecas cliente de Text-to-Speech. Para obtener más información, consulta la documentación de referencia de la API de Text-to-Speech Python.
Para autenticarte en Text-to-Speech, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
C#: Sigue las instrucciones de configuración de C# en la página de bibliotecas cliente y, luego, visita la documentación de referencia de Text-to-Speech para .NET
PHP: Sigue las instrucciones de configuración de PHP en la página de bibliotecas cliente y, luego, visita la documentación de referencia de Text-to-Speech para PHP.
Ruby : Sigue lasInstrucciones de configuración de Ruby en la página Bibliotecas cliente y, luego, visitaDocumentación de referencia de Text-to-Speech para Ruby.