Cette page explique comment sélectionner un profil d'appareil pour les contenus audio créés par Text-to-Speech.
Vous pouvez optimiser la voix synthétique produite par Text-to-Speech en fonction du matériel sur lequel elle sera lue. Par exemple, si votre application s'exécute principalement sur des types d'appareils plus petits et connectés, vous pouvez créer une synthèse vocale à partir de l'API Text-to-Speech optimisée spécifiquement pour les haut-parleurs plus petits.
Vous pouvez également appliquer plusieurs profils d'appareil à la même voix synthétique. L'API Text-to-Speech applique les profils d'appareils aux contenus audio dans l'ordre indiqué dans la requête envoyée au point de terminaison text:synthesize
. Évitez de spécifier le même profil plusieurs fois, car cela peut entraîner des résultats indésirables.
L'utilisation de profils audio est facultative. Si vous choisissez d'en utiliser un ou plusieurs, Text-to-Speech applique les profils à vos résultats de synthèse vocale post-traitée. Si vous choisissez de ne pas utiliser de profil audio, vous recevrez vos résultats vocaux sans aucune modification post-synthèse.
Pour entendre la différence entre des contenus audio générés à partir de profils différents, comparez les deux extraits ci-dessous.
Exemple 1. Contenu audio généré avec le profil handset-class-device
Exemple 2. Contenu audio généré avec le profil telephony-class-application
Remarque : Chaque profil audio a été optimisé pour un appareil spécifique en ajustant une plage d'effets audio. Toutefois, la marque et le modèle de l'appareil utilisé pour ajuster le profil peuvent ne pas correspondre exactement aux appareils de lecture des utilisateurs. Vous devrez éventuellement essayer différents profils pour trouver la meilleure sortie audio pour votre application.
Profils audio disponibles
Le tableau suivant fournit les ID et des exemples de profils d'appareil pouvant être utilisés par l'API Text-to-Speech.
ID de profil audio | Optimisé pour |
---|---|
wearable-class-device |
Montres connectées et autres appareils connectés, par exemple : Apple Watch ou montre Wear OS |
handset-class-device |
Smartphones, par exemple : Google Pixel, Samsung Galaxy et iPhone Apple |
headphone-class-device |
Écouteurs ou casques de lecture audio, par exemple : casques Sennheiser |
small-bluetooth-speaker-class-device |
Petites enceintes domestiques, par exemple : Google Home Mini |
medium-bluetooth-speaker-class-device |
Enceintes pour maison connectée, par exemple : Google Home |
large-home-entertainment-class-device |
Systèmes de divertissement à domicile ou Smart TV, par exemple : Google Home Max ou téléviseur LG |
large-automotive-class-device |
Enceintes de voiture |
telephony-class-application |
Systèmes de réponse vocale interactive (IVR, Interactive Voice Response) |
Spécifier un profil audio à utiliser
Pour spécifier un profil audio à utiliser, définissez le champ effectsProfileId
pour la requête de synthèse vocale.
Protocole
Pour générer un fichier audio, envoyez une requête POST
et indiquez le corps de requête approprié. Voici un exemple de requête POST
utilisant curl
. L'exemple récupère un jeton d'accès pour la requête à l'aide de Google Cloud CLI.
Pour obtenir des instructions sur l'installation de la gcloud CLI, consultez S'authentifier auprès de Text-to-Speech.
L'exemple suivant montre comment envoyer une requête au point de terminaison text:synthesize
.
curl \ -H "Authorization: Bearer "$(gcloud auth print-access-token) \ -H "Content-Type: application/json; charset=utf-8" \ --data "{ 'input':{ 'text':'This is a sentence that helps test how audio profiles can change the way Cloud Text-to-Speech sounds.' }, 'voice':{ 'languageCode':'en-us', }, 'audioConfig':{ 'audioEncoding':'LINEAR16', 'effectsProfileId': ['telephony-class-application'] } }" "https://texttospeech.googleapis.com/v1beta1/text:synthesize" > audio-profile.txt
Si la requête aboutit, l'API Text-to-Speech renvoie l'audio synthétisé sous forme de données encodées en base64 dans la sortie JSON. La sortie JSON dans le fichier audio-profiles.txt
se présente comme suit :
{ "audioContent": "//NExAASCCIIAAhEAGAAEMW4kAYPnwwIKw/BBTpwTvB+IAxIfghUfW.." }
Pour décoder les résultats de l'API Cloud Text-to-Speech sous forme de fichier audio MP3, exécutez la commande suivante à partir du même répertoire que le fichier audio-profiles.txt
.
sed 's|audioContent| |' < audio-profile.txt > tmp-output.txt && \ tr -d '\n ":{}' < tmp-output.txt > tmp-output-2.txt && \ base64 tmp-output-2.txt --decode > audio-profile.wav && \ rm tmp-output*.txt
Go
Pour savoir comment installer et utiliser la bibliothèque cliente pour Text-to-Speech, consultez la page Bibliothèques clientes Text-to-Speech. Pour en savoir plus, consultez la documentation de référence de l'API Text-to-Speech en langage Go.
Pour vous authentifier auprès de Text-to-Speech, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Java
Pour savoir comment installer et utiliser la bibliothèque cliente Text-to-Speech, consultez la page Bibliothèques clientes Text-to-Speech. Pour en savoir plus, consultez la documentation de référence de l'API Text-to-Speech en langage Java.
Pour vous authentifier auprès de Text-to-Speech, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Node.js
Pour savoir comment installer et utiliser la bibliothèque cliente Text-to-Speech, consultez la page Bibliothèques clientes Text-to-Speech. Pour en savoir plus, consultez la documentation de référence de l'API Text-to-Speech en langage Node.js.
Pour vous authentifier auprès de Text-to-Speech, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Python
Pour savoir comment installer et utiliser la bibliothèque cliente Text-to-Speech, consultez la page Bibliothèques clientes Text-to-Speech. Pour en savoir plus, consultez la documentation de référence de l'API Text-to-Speech en langage Python.
Pour vous authentifier auprès de Text-to-Speech, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Langages supplémentaires
C# : Veuillez suivre les Instructions de configuration de C# sur la page des bibliothèques clientes, puis consultez la page Documentation de référence sur Text-to-Speech pour .NET.
PHP : Veuillez suivre les Instructions de configuration de PHP sur la page des bibliothèques clientes, puis consultez la page Documentation de référence sur Text-to-Speech pour PHP.
Ruby : Veuillez suivre les Instructions de configuration de Ruby sur la page des bibliothèques clientes, puis consultez la page Documentation de référence sur Text-to-Speech pour Ruby.