Créez et éditez votre podcast audio avec Gemini 1.5 Pro
Krishna Chytanya Ayyagari
Generative AI Field Solutions Architect
L'IA générative révolutionne notre façon de consommer les contenus audio, des podcasts aux résumés vocaux. Prenons l'exemple de la dernière fonctionnalité Audio Overview de NotebookLM, plébiscitée par les utilisateurs. Celle-ci transforme les documents textuels en fichiers audio. En un seul clic, deux présentateurs virtuels peuvent entreprendre une discussion approfondie et dynamique basée sur des informations sources que vous leur fournissez. Ils résument votre contenu, établissent des liens entre les différents sujets et échangent leurs points de vue.
Toutefois, bien que NotebookLM excelle dans l’analyse et le traitement d’informations complexes, certains utilisateurs souhaitent pouvoir contrôler davantage leurs productions audio, notamment pour concevoir leurs propres podcasts. Or, les podcasts connaissent un succès grandissant auprès des créateurs, des dirigeants d'entreprise et des utilisateurs en quête de contenus sur leurs centres d’intérêt. Dans cet article, nous vous proposons de découvrir comment Gemini 1.5 Pro et l'API Text-to-Speech de Google Cloud vous permettent de créer des échanges audio en utilisant des voix variées et de générer des scripts de podcast à l’aide de prompts personnalisés.
Objectif : développer son impact et son audience en capitalisant sur un large éventail de formats audio
Un podcast réussi commence par un contenu audio accessible. Les fonctionnalités multimodales de Gemini, combinées à notre API Text-to-Speech haute-fidélité, vous donnent accès à plus de 380 voix dans plus de 50 langues, ainsi qu'à la création de voix personnalisées. En vous permettant de réinventer l’expérience utilisateur et d'accroître votre impact à travers une multitude de formats audio, ce large éventail de possibilités vous ouvre de nouveaux horizons.
Cette approche dopée à l’IA peut aider les créateurs de contenu à élargir leur public tout en optimisant le processus de création, notamment à travers :
- Une audience étendue : connectez-vous avec les segments d'audience qui privilégient les contenus audios.
- Un engagement renforcé : créez des liens privilégiés avec votre audience grâce à des contenus audio personnalisés.
- Une revalorisation des contenus : maximisez la valeur de vos contenus écrits existants en les convertissant dans un nouveau format – vocal – afin de toucher une audience plus large sans avoir à repartir de zéro.
Nous vous proposons de découvrir dans la suite de cet article la méthode détaillée pour atteindre ces objectifs.
L'architecture : Gemini 1.5 Pro et Text-to-Speech
Comme nous l’avons évoqué plus haut, notre architecture de création de contenus audio s'appuie sur deux puissants services de Google Cloud :
- Gemini 1.5 Pro : ce modèle d'IA générative avancé excelle dans la compréhension et la génération de textes naturels. Nous utiliserons Gemini 1.5 Pro pour :
- Générer des scripts engageants : indiquez la trame de votre podcast à Gemini 1.5 Pro afin qu’il génère ensuite des scripts convaincants, incluant introductions, transitions et « appels à l'action ».
- Adapter un contenu au format audio : L’expression écrite et l’expression vocale sont différentes. Gemini 1.5 Pro peut optimiser les contenus écrits pour le format audio afin de garantir un flux naturel et une expérience d'écoute engageante. Il peut également ajuster le ton et le style pour l'adapter à différents formats, tel un podcast.
- API Text-to-Speech : cette API transpose vos textes en audio avec des voix réalistes. Vous pouvez choisir parmi une large palette de voix et langues afin d’aligner l’identité sonore sur votre marque et votre audience.
Comment créer un podcast captivant étape par étape
- Préparation du contenu : préparez la structure de votre podcast. Veillez à disposer d’une organisation logique et cohérente et assurez-vous que le contenu est clair et compréhensible. Pour une durée d'écoute optimale, fractionnez les contenus longs en plusieurs épisodes.
- Intégration de Gemini 1.5 Pro : Utilisez Gemini 1.5 Pro pour générer un script à partir de de la structure de votre podcast. Expérimentez différents prompts pour affiner le résultat et obtenir le style et le ton souhaités. Exemple de prompt : « Génère un script audio engageant à partir de cette structure de podcast, incluant une introduction, des transitions et un appel à l'action. Le public cible comprend des développeurs, ingénieurs et architectes cloud ».
- Découpage en sections : pour les podcasts complexes ou longs, vous pouvez utiliser Gemini 1.5 Pro pour extraire les sections et sous-sections clés au format JSON, permettant une approche plus structurée dans la génération du script.
Le processus de création de podcast repose sur une fonction Python des plus simples :
Utilisez ensuite Gemini 1.5 Pro pour générer le script de chaque section. Dans vos prompts, précisez le public visé, le ton désiré et la durée approximative souhaitée pour chaque l'épisode.
Pour chaque section et sous-section, vous pouvez utiliser une fonction similaire à celle-ci pour générer le script :
Envoyez ensuite le script Gemini vers l'API Text-to-Speech en sélectionnant une voix et une langue qui correspondent à votre cible et votre contenu. Pour générer un contenu audio de qualité professionnelle à partir du texte, utilisez cette fonction basée sur l'API Text-to-Speech avancée de Google Cloud :
Pour finaliser le processus, vous pouvez stocker votre contenu audio encodé en MP3 base64 dans Google Cloud Storage en utilisant la bibliothèque Python google-cloud-storage. Elle permet de décoder la chaîne base64 et de télécharger directement les octets résultants vers un bucket désigné, en spécifiant le type de contenu comme 'audio/mp3'.
La preuve par l'écoute
API Text-to-Speech produit un audio de haute qualité. Mais vous pouvez encore enrichir vos podcasts avec une musique de fond, des effets sonores ou encore à l’aide d’outils d’édition professionnels. Découvrez ce que l’on peut obtenir en téléchargeant le résultat audio de l’exemple donné dans cet article, réalisé à l’aide de Gemini 1.5 Pro et l'API Text-to-Speech.
Si vous souhaitez commencer à créer vos propres contenus, prenez le temps d’examiner la gamme complète de fonctionnalités de génération audio proposée par Google Cloud, notamment l'API Text-to-Speech et les modèles Gemini disponibles en version gratuite. Testez différentes options de prompts, textuels comme visuels, pour explorer toutes les capacités créatives de Gemini.