IA et machine learning

Créez et éditez votre podcast audio avec Gemini 1.5 Pro

31 mars 2025

Krishna Chytanya Ayyagari

Generative AI Field Solutions Architect

Contact Sales

Discuss your cloud needs with our sales team.

L'IA générative révolutionne notre façon de consommer les contenus audio, des podcasts aux résumés vocaux. Prenons l'exemple de la dernière fonctionnalité Audio Overview de NotebookLM, plébiscitée par les utilisateurs. Celle-ci transforme les documents textuels en fichiers audio. En un seul clic, deux présentateurs virtuels peuvent entreprendre une discussion approfondie et dynamique basée sur des informations sources que vous leur fournissez. Ils résument votre contenu, établissent des liens entre les différents sujets et échangent leurs points de vue.

Toutefois, bien que NotebookLM excelle dans l’analyse et le traitement d’informations complexes, certains utilisateurs souhaitent pouvoir contrôler davantage leurs productions audio, notamment pour concevoir leurs propres podcasts. Or, les podcasts connaissent un succès grandissant auprès des créateurs, des dirigeants d'entreprise et des utilisateurs en quête de contenus sur leurs centres d’intérêt. Dans cet article, nous vous proposons de découvrir comment Gemini 1.5 Pro et l'API Text-to-Speech de Google Cloud vous permettent de créer des échanges audio en utilisant des voix variées et de générer des scripts de podcast à l’aide de prompts personnalisés.

Objectif : développer son impact et son audience en capitalisant sur un large éventail de formats audio

Un podcast réussi commence par un contenu audio accessible. Les fonctionnalités multimodales de Gemini, combinées à notre API Text-to-Speech haute-fidélité, vous donnent accès à plus de 380 voix dans plus de 50 langues, ainsi qu'à la création de voix personnalisées. En vous permettant de réinventer l’expérience utilisateur et d'accroître votre impact à travers une multitude de formats audio, ce large éventail de possibilités vous ouvre de nouveaux horizons.

Cette approche dopée à l’IA peut aider les créateurs de contenu à élargir leur public tout en optimisant le processus de création, notamment à travers :

Une audience étendue : connectez-vous avec les segments d'audience qui privilégient les contenus audios.
Un engagement renforcé : créez des liens privilégiés avec votre audience grâce à des contenus audio personnalisés.
Une revalorisation des contenus : maximisez la valeur de vos contenus écrits existants en les convertissant dans un nouveau format – vocal – afin de toucher une audience plus large sans avoir à repartir de zéro.

Nous vous proposons de découvrir dans la suite de cet article la méthode détaillée pour atteindre ces objectifs.

L'architecture : Gemini 1.5 Pro et Text-to-Speech

Comme nous l’avons évoqué plus haut, notre architecture de création de contenus audio s'appuie sur deux puissants services de Google Cloud :

Gemini 1.5 Pro : ce modèle d'IA générative avancé excelle dans la compréhension et la génération de textes naturels. Nous utiliserons Gemini 1.5 Pro pour :
- Générer des scripts engageants : indiquez la trame de votre podcast à Gemini 1.5 Pro afin qu’il génère ensuite des scripts convaincants, incluant introductions, transitions et « appels à l'action ».
- Adapter un contenu au format audio : L’expression écrite et l’expression vocale sont différentes. Gemini 1.5 Pro peut optimiser les contenus écrits pour le format audio afin de garantir un flux naturel et une expérience d'écoute engageante. Il peut également ajuster le ton et le style pour l'adapter à différents formats, tel un podcast.
API Text-to-Speech : cette API transpose vos textes en audio avec des voix réalistes. Vous pouvez choisir parmi une large palette de voix et langues afin d’aligner l’identité sonore sur votre marque et votre audience.

Comment créer un podcast captivant étape par étape

Préparation du contenu : préparez la structure de votre podcast. Veillez à disposer d’une organisation logique et cohérente et assurez-vous que le contenu est clair et compréhensible. Pour une durée d'écoute optimale, fractionnez les contenus longs en plusieurs épisodes.
Intégration de Gemini 1.5 Pro : Utilisez Gemini 1.5 Pro pour générer un script à partir de de la structure de votre podcast. Expérimentez différents prompts pour affiner le résultat et obtenir le style et le ton souhaités. Exemple de prompt : « Génère un script audio engageant à partir de cette structure de podcast, incluant une introduction, des transitions et un appel à l'action. Le public cible comprend des développeurs, ingénieurs et architectes cloud ».
Découpage en sections : pour les podcasts complexes ou longs, vous pouvez utiliser Gemini 1.5 Pro pour extraire les sections et sous-sections clés au format JSON, permettant une approche plus structurée dans la génération du script.

Le processus de création de podcast repose sur une fonction Python des plus simples :

Chargement en cours...

def extract_sections_and_subsections(document1: Part, project="<your-project-id>", location = "us-central1") -> str:
   """
   Extracts hierarchical sections and subsections from a Google Cloud blog post
   provided as a PDF document.

This function uses the Gemini 1.5 Pro language model to analyze the structure
   of a blog post and identify its key sections and subsections. The extracted
   information is returned in JSON format for easy parsing and use in
   various applications.

This is particularly useful for:

* **Large documents:**  Breaking down content into manageable chunks for
     efficient processing and analysis.
   * **Podcast creation:** Generating multi-episode series where each episode
     focuses on a specific section of the blog post.

Args:
       document1 (Part): A Part object representing the PDF document,
                         typically obtained using `Part.from_uri()`.
                         For example:
                         ```python
                         document1 = Part.from_uri(
                             mime_type="application/pdf",
                             uri="gs://your-bucket/your-pdf.pdf"
                         )
                         ```
       location: The region of your Google Cloud project. Defaults to "us-central1".
       project: The ID of your Google Cloud project. Defaults to "<your-project-id>".

Returns:
       str: A JSON string representing the extracted sections and subsections.
            Returns an empty string if there are issues with processing or
            the model output.
   """

vertexai.init(project=project, location=location)  # Initialize Vertex AI
   model = GenerativeModel("gemini-1.5-pro-002")

prompt = """Analyze the following blog post and extract its sections and subsections. Represent this information in JSON format using the following structure:
   [
     {
       "section": "Section Title",
       "subsections": [
         "Subsection 1",
         "Subsection 2",
         // ...
       ]
     },
     // ... more sections
   ]"""

try:
       responses = model.generate_content(
           ["""The pdf file contains a Google Cloud blog post required for podcast-style analysis:""", document1, prompt],
           generation_config=generation_config,
           safety_settings=safety_settings,
           stream=True,  # Stream results for better performance with large documents
       )

response_text = ""
       for response in responses:
           response_text += response.text

return response_text

except Exception as e:
       print(f"Error during section extraction: {e}")
       return ""

Utilisez ensuite Gemini 1.5 Pro pour générer le script de chaque section. Dans vos prompts, précisez le public visé, le ton désiré et la durée approximative souhaitée pour chaque l'épisode.

Pour chaque section et sous-section, vous pouvez utiliser une fonction similaire à celle-ci pour générer le script :

Chargement en cours...

def generate_podcast_content(section, subsection, document1:Part, targetaudience, guestname, hostname, project="<your-project-id>", location="us-central1") -> str:
 """Generates a podcast dialogue in JSON format from a blog post subsection.

This function uses the Gemini model in Vertex AI to create a conversation
 between a host and a guest, covering the specified subsection content. It uses
 a provided PDF as source material and outputs the dialogue in JSON.

Args:
   section: The blog post's main section (e.g., "Introduction").
   subsection: The specific subsection (e.g., "Benefits of Gemini 1.5").
   document1: A `Part` object representing the source PDF (created using
              `Part.from_uri(mime_type="application/pdf", uri="gs://your-bucket/your-pdf.pdf")`).
   targetaudience: The intended audience for the podcast.
   guestname: The name of the podcast guest.
   project: Your Google Cloud project ID.
   location: Your Google Cloud project location.

Returns:
   A JSON string representing the generated podcast dialogue.
 """
 print(f"Processing section: {section} and subsection: {subsection}")

prompt = f"""Create a podcast dialogue in JSON format based on a provided subsection of a Google Cloud blog post (found in the attached PDF).
 The dialogue should be a lively back-and-forth between a host (R) and a guest (S), presented as a series of turns.
 The host should guide the conversation by asking questions, while the guest provides informative and accessible answers.
 The script must fully cover all points within the given subsection.
 Use clear explanations and relatable analogies.
 Maintain a consistently positive and enthusiastic tone (e.g., "Movies, I love them. They're like time machines...").
 Include only one introductory host greeting (e.g., "Welcome to our next episode...").  No music, sound effects, or production directions.

JSON structure:
 {{
   "multiSpeakerMarkup": {{
     "turns": [
       {{"text": "Podcast script content here...", "speaker": "R"}}, // R for host, S for guest
       // ... more turns
     ]
   }}
 }}

Input Data:
 Section: "{section}"
 Subsections to cover in the podcast: "{subsection}"
 Target Audience: "{targetaudience}"
 Guest name: "{guestname}"
 Host name: "{hostname}"
 """

vertexai.init(project=project, location=location)
 model = GenerativeModel("gemini-1.5-pro-002")

responses = model.generate_content(
     ["""The pdf file contains a Google Cloud blog post required for podcast-style analysis:""", document1, prompt],
     generation_config=generation_config, # Assuming these are defined already
     safety_settings=safety_settings,      # Assuming these are defined already
     stream=True,
 )

response_text = ""
 for response in responses:
   response_text += response.text

return response_text

Envoyez ensuite le script Gemini vers l'API Text-to-Speech en sélectionnant une voix et une langue qui correspondent à votre cible et votre contenu. Pour générer un contenu audio de qualité professionnelle à partir du texte, utilisez cette fonction basée sur l'API Text-to-Speech avancée de Google Cloud :

Chargement en cours...

def generate_audio_from_text(input_json):
   """Generates audio using Google Text-to-Speech API.

Args:
       input_json: A dictionary containing the 'multiSpeakerMarkup' for the TTS API. This is generated by the Gemini 1.5 Pro model in the buildPodCastContent() function.

Returns:
       The audio data in bytes (MP3 format) if successful, None otherwise.
   """

try:
       # Build the Text-to-Speech service
       service = build('texttospeech', 'v1beta1')

# Prepare synthesis input
       synthesis_input = {
           'multiSpeakerMarkup': input_json['multiSpeakerMarkup']
       }

# Configure voice and audio settings
       voice = {
           'languageCode': 'en-US',
           'name': 'en-US-Studio-MultiSpeaker'
       }

audio_config = {
           'audioEncoding': 'MP3',
           'pitch': 0,
           'speakingRate': 0,
           'effectsProfileId': ['small-bluetooth-speaker-class-device']
       }

# Make the API request
       response = service.text().synthesize(
           body={
               'input': synthesis_input,
               'voice': voice,
               'audioConfig': audio_config
           }
       ).execute()

# Extract and return audio content
       audio_content = response['audioContent']
       return audio_content

except Exception as e:
       print(f"Error: {e}")  # More informative error message
       return None

Pour finaliser le processus, vous pouvez stocker votre contenu audio encodé en MP3 base64 dans Google Cloud Storage en utilisant la bibliothèque Python google-cloud-storage. Elle permet de décoder la chaîne base64 et de télécharger directement les octets résultants vers un bucket désigné, en spécifiant le type de contenu comme 'audio/mp3'.

La preuve par l'écoute

API Text-to-Speech produit un audio de haute qualité. Mais vous pouvez encore enrichir vos podcasts avec une musique de fond, des effets sonores ou encore à l’aide d’outils d’édition professionnels. Découvrez ce que l’on peut obtenir en téléchargeant le résultat audio de l’exemple donné dans cet article, réalisé à l’aide de Gemini 1.5 Pro et l'API Text-to-Speech.

Si vous souhaitez commencer à créer vos propres contenus, prenez le temps d’examiner la gamme complète de fonctionnalités de génération audio proposée par Google Cloud, notamment l'API Text-to-Speech et les modèles Gemini disponibles en version gratuite. Testez différentes options de prompts, textuels comme visuels, pour explorer toutes les capacités créatives de Gemini.

Publié dans

Articles associés

Customers

Converteo industrialise l’IA agentique avec Google Cloud

De Hamza Senoussi • Temps de lecture : 7 minutes

AI & Machine Learning

Bâtir un agent de recherche intelligent avec l’ADK de Google pour booster la génération de prospects

De Ashwini Kumar • Temps de lecture : 6 minutes

https://storage.googleapis.com/gweb-cloudblog-publish/images/Expanding_Vertex_AI.max-700x700.jpg

AI & Machine Learning

Vertex AI s'enrichit d’une nouvelle génération de modèles IA génératif multimédia

De Katie Nguyen • Temps de lecture : 16 minutes

AI & Machine Learning

À quel point votre IA est-elle performante ? Guide d’évaluation de l’IA générative étape par étape

De Ivan Nardini • Temps de lecture : 9 minutes

Créez et éditez votre podcast audio avec Gemini 1.5 Pro

Krishna Chytanya Ayyagari

Contact Sales

Objectif : développer son impact et son audience en capitalisant sur un large éventail de formats audio

L'architecture : Gemini 1.5 Pro et Text-to-Speech

Comment créer un podcast captivant étape par étape

La preuve par l'écoute

Articles associés

Converteo industrialise l’IA agentique avec Google Cloud

Bâtir un agent de recherche intelligent avec l’ADK de Google pour booster la génération de prospects

Vertex AI s'enrichit d’une nouvelle génération de modèles IA génératif multimédia

À quel point votre IA est-elle performante ? Guide d’évaluation de l’IA générative étape par étape

À quel point votre IA est-elle performante ? Guide d’évaluation de l’IA générative étape par étape