Accéder au contenu
IA et machine learning

Vertex AI s'enrichit d’une nouvelle génération de modèles IA génératif multimédia

24 septembre 2025
https://storage.googleapis.com/gweb-cloudblog-publish/images/Expanding_Vertex_AI.max-2500x2500.jpg
Katie Nguyen

Developer Relations Engineer

Vertex AI franchit une nouvelle étape en accueillant une nouvelle génération de modèles d’IA générative multimédia : Imagen 4, Veo 3 et Lyria 2.

Avec Imagen 3, notre modèle de génération d’images, nos clients créent déjà des visuels photoréalistes impressionnants, avant de les transformer en vidéos et contenus de haute qualité avec Veo 2. Certains vont même plus loin, enrichissant leurs réalisations avec des bandes-son professionnelles composées par Lyria, notre modèle avancé de génération de musiques par l’IA. Il est déjà l’heure pourtant de découvrir la nouvelle génération de ces modèles et de réaliser des créations plus spectaculaires encore !

L'IA générative multimédia connaît un essor fulgurant dans le marketing, les médias et bien d'autres secteurs, rendant la création de contenus narratifs plus accessible que jamais. Plus réactives, les équipes créent des campagnes en un temps record et repoussent les limites de la créativité. À travers cet article, nous vous proposons de découvrir les nouvelles moutures de chacun de ces modèles et comment vous pouvez commencer à les utiliser dès aujourd'hui pour booster votre efficacité opérationnelle.

Imagen 4 : générer des images de qualité inégalée

Imagen 4, c’est la nouvelle version de notre modèle de génération d’images à partir de prompt textuel, désormais disponible en version préliminaire publique sur Vertex AI. Modèle de référence de Google en matière de génération d’images, Imagen 4 se distingue par :

  • Un rendu de texte exceptionnel et une fidélité remarquable aux instructions (prompts) ;
  • Une qualité d'image supérieure, quel que soit le style visuel ;
  • La prise en charge des instructions (prompts) multilingues pour permettre aux créateurs du monde entier de libérer leur créativité.
Vertex AI1

Prompt : Crée un gros plan intimiste baigné par une lumière dorée et douce de fin d'après-midi qui filtre dans une cuisine typique des années 1960. Le sujet central est un charmant paquet vintage de farine tout usage, posé de manière accueillante sur un plan de travail en Formica moucheté. L'emballage lui-même évoque une pure nostalgie : un papier épais aux textures légères dans un ton crème chaleureux, orné d'une typographie simple et audacieuse (une police sérif conviviale ou manuscrite) en rouge et bleu classique pour « FARINE », avec une illustration plaisante, comme un épi de blé stylisé ou un personnage de boulanger souriant. En bas du paquet, en petits caractères gras : NET 2.27kg. Concentre-toi sur les détails du paquet : les bords légèrement arrondis du sac en papier, la texture de l'impression vintage, le texte accrocheur «FARINE ». Des indices subtils de la cuisine des années 1960 encadrent la scène : le rebord chromé du plan de travail qui brille doucement, un aperçu flou d’une crédence en carrelage jaune pastel, ou le coin d'un ensemble de boîtes métalliques vintage légèrement hors focus. La faible profondeur de champ maintient l'attention sur ce paquet magnifiquement conçu, créant une esthétique riche en chaleur, authenticité et charme nostalgique.

Vertex AI 2

Prompt : Crée un gros plan intimiste baigné par une lumière dorée et douce de fin d'après-midi qui filtre dans une cuisine typique des années 1960. Le sujet central est un charmant paquet vintage de farine tout usage, posé de manière accueillante sur un plan de travail en Formica moucheté. L'emballage lui-même évoque une pure nostalgie : un papier épais aux textures légères dans un ton crème chaleureux, orné d'une typographie simple et audacieuse (une police sérif conviviale ou manuscrite) en rouge et bleu classique pour « ALL-PURPOSE FLOUR », avec une illustration plaisante, comme un épi de blé stylisé ou un personnage de boulanger souriant. En bas du paquet, en petits caractères gras : «NET WT 5 LBS (80 OZ) 2.27kg ». Concentre-toi sur les détails du paquet : les bords légèrement arrondis du sac en papier, la texture de l'impression vintage, le texte accrocheur « All-Purpose Flour ». Des indices subtils de la cuisine des années 1960 encadrent la scène : le rebord chromé du plan de travail qui brille doucement, un aperçu flou d’une crédence en carrelage jaune pastel, ou le coin d'un ensemble de boîtes métalliques vintage légèrement hors focus. La faible profondeur de champ maintient l'attention sur ce paquet magnifiquement conçu, créant une esthétique riche en chaleur, authenticité et charme nostalgique.

Vertex AI 3

Prompt : Crée une bande dessinée de quatre vignettes dans un style reconnaissable volontairement pixelisé, rappelant les jeux vidéo 8-bit classiques, avec des formes simples et une palette de couleurs vives et limitée, dominée par les verts, bleus, bruns, et le gris/noir emblématique du dinosaure. Le décor est une plage stylisée en pixels. La première case montre le célèbre dinosaure T-Rex de Google Chrome dans sa forme pixelisée caractéristique, portant de minuscules lunettes de soleil pixelisées et se prélassant sur une serviette de plage pixelisée sous un soleil jaune carré. Des palmiers pixelisés se balancent doucement en arrière-plan, sous un ciel bleu pixelisé. Une bulle de texte en police pixelisée indique : « Even error messages need a vacation » (NDLR : Même les messages d'erreur ont besoin de vacances). La seconde case présente un gros plan du T-Rex tentant de construire un château de sable pixelisé. Il tapote maladroitement un monticule de pixels bruns avec ses petits bras pixelisés, l'air concentré. De petits coquillages pixelisés parsèment le sable autour de lui.La troisième vignette montre le T-Rex sautant joyeusement par-dessus une série de cactus pixelisés plantés près de la plage, sous forme de clin d’œil au mini-jeu du dinosaure de Google Chrome où il doit éviter les obstacles. L’onomatopée « Boing! Boing! » s’affiche dans une police carrée au-dessus de chaque saut. Un crabe pixelisé observe sur le côté, levant sa pince pixelisée. La dernière case présente le T-Rex flottant paisiblement sur le dos dans l'eau bleue pixelisée, lunettes de soleil toujours sur le nez, avec une expression satisfaite. Une petite bulle de pensée au-dessus de lui contient des « Zzz... » pixelisés indiquant la détente.

lang-py
Chargement en cours...

Prompt : Filmée de manière cinématographique depuis le siège du conducteur, offrant une vue de profil nette sur une jeune passagère à l’avant, aux cheveux rouges éclatants. Son regard est rivé droit devant elle, concentré sur la route poussiéreuse et déserte visible à travers la vitre latérale, qui laisse apercevoir une étendue floue de terre aride et, peut-être, des montagnes lointaines dans la brume. Son bras repose sur le rebord de la fenêtre ou sur le volant. Le cadre inclut une partie de l’intérieur vieilli du camion autour d’elle : le panneau de la porte et peut-être un aperçu du tissu usé du siège. L’éclairage évoque une fin d’après-midi, avec des ombres allongées et des reflets de lumière chaude sur son visage et dans l’habitacle du camion. Cet angle met en valeur sa présence singulière et son état contemplatif au cœur de ce paysage vaste et désert.

Pour commencer à utiliser Imagen 4 en version préliminaire publique sur Vertex AI, vous pouvez passer par Media Studio, Vertex AI Studio ou exécuter l’exemple de code ci-dessous, basé sur le SDK Google Gen AI pour Python.

lang-py
Chargement en cours...

Google a également lancé récemment « Imagen 4 Ultra » pour Vertex AI Studio. Cette version destinée aux professionnels gagne encore en photoréalisme, en vitesse d’exécution mais également en fiabilité de génération de textes sur l’image.

Veo 3 : générer des vidéos de haute qualité avec voix, musique et bruitages

À la pointe de l'innovation, Veo 3 est notre dernier modèle de génération vidéo, développé par Google DeepMind. Avec Veo 3, vous pouvez créer des vidéos :

  • de très haute qualité, que ce soit à partir de prompts textuels ou visuels ;
  • qui intègrent la voix (dialogues, voix off, etc.) ;
  • et accompagnées de bandes-son complètes : musique ou des effets sonores ;

Voici ce que nos clients disent des gains de productivité et de créativité obtenus avec nos précédentes versions Veo et Veo 2 :

Klarna, un des leaders du paiement numérique, exploite Veo et Imagen sur Vertex AI pour optimiser la création de contenus. Des visuels d’illustration aux formats courts pour YouTube, l’entreprise réduit drastiquement ses délais de production.

« Chez Klarna, nous explorons constamment de nouvelles façons de repousser les limites de l'innovation dans nos efforts marketing, et Veo a révolutionné nos workflows créatifs. Avec Veo et Imagen, nous avons transformé des processus de production autrefois chronophages en tâches rapides et efficaces qui nous permettent de booster notre création de contenu. Qu'il s'agisse de produire des images d'illustration engageantes, de concevoir des vidéos pour YouTube accrocheuses, ou de développer des animations dynamiques pour les réseaux sociaux, ces outils ont rendu nos équipes plus réactives et créatives. Les résultats parlent d'eux-mêmes : hausse de l'engagement et amélioration des performances de nos contenus. Avec Google Cloud nous façonnons l'avenir du commerce tout en réinventant la façon de faire vivre notre marque ». – David Sandström, Directeur Marketing, Klarna.

Jellyfish, agence de marketing digital de référence au sein du groupe The Brandtech, a intégré Veo à sa plateforme IA marketing la plus performante, Pencil, et s'est associée à Japan Airlines pour proposer des divertissements en vol générés par IA.

Video Thumbnail

« L’intégration de Veo 2 à Pencil s’inscrit dans notre volonté de doter les marketeurs d’outils d’IA toujours plus performants, pour des campagnes à la fois plus efficaces, plus rapides et plus créatives. Nos projets pilotes ont donné des résultats remarquables, avec en moyenne 50 % de réduction des coûts et des délais de mise sur le marché. Cette évolution majeure en termes de contrôle et de qualité transforme des idées auparavant irréalisables en contenu marketing concret en quelques minutes. Japan Airlines montre la voie en appliquant l’IA générative au secteur du voyage, et nous avons hâte de voir d'autres marques suivre cette dynamique ». – David Jones, Fondateur et PDG, Brandtech.

La plateforme Tastemaker de Kraft Heinz permet aux équipes de la société d’accéder à Imagen et Veo, accélérant de façon spectaculaire les processus de création et de développement de campagnes.

« Avec Veo et Imagen sur Vertex AI, intégrés à notre plateforme Tastemaker, Kraft Heinz a atteint un niveau de rapidité et d’efficacité inédit dans ses workflows créatifs. Ce qui nous prenait auparavant huit semaines ne demande plus que huit heures, ce qui se traduit par des économies substantielles ».
— Justin Thomas, Head of Digital Experience & Growth.

Envato, un des leaders mondiaux de ressources créatives (images, vidéos, musiques, voix, etc.) et de modèles pour le web, a jusqu’ici utilisé Veo 2 pour développer sa nouvelle fonctionnalité de génération vidéo, VideoGen. Elle permet de transformer du texte ou des images en contenus vidéo hyperréalistes et cinématographiques.

« Nous avons testé plusieurs des meilleurs modèles vidéo du marché, et Veo 2 s’est révélé le plus performant en termes de rapidité et de qualité, même avec une grande diversité de textes et d’images en entrée. Dès les premiers jours du lancement de notre nouvelle fonctionnalité, des dizaines de milliers d'abonnés Envato utilisaient déjà VideoGen, et près de 60 % des vidéos générées étaient téléchargées pour leurs projets. Depuis mars, l’utilisation de VideoGen a connu une croissance de plus de 100 % chaque mois. Travailler avec Google Cloud pour donner vie à VideoGen grâce à Veo a été une expérience très enrichissante ». — Aaron Rutley, Directeur Produit IA chez Envato.

Veo 3 en action :

Ce que nos partenaires et clients réalisent déjà avec Veo 2 est spectaculaire. Avec Veo 3, leur imaginaire va encore se libérer un peu plus. Car ce nouveau modèle excelle dans le traitement de prompts complexes et détaillés, comme l'illustrent les exemples suivants.

Video Thumbnail

Prompt : Crée un plan moyen, ambiance d’aventure historique : une lumière chaude de lampe éclaire un cartographe dans son bureau encombré, penché sur une carte ancienne et imposante étalée sur une grande table. Le cartographe dit : « D'après cette vieille carte marine, l'île perdue n'est pas un mythe ! Nous devons préparer une expédition immédiatement ! ».

Video Thumbnail

Prompt : Crée un plan en contre-plongée montrant une porte ouverte, dans des tons lavande clair, qui s’ouvre d’une pièce aux murs lavande clair et au sol gris sur un extérieur éclatant. De l'herbe verte luxuriante et des fleurs sauvages débordent du seuil et s’étendent sur le sol à l’intérieur, créant une transition féerique entre les espaces. Au-delà de la porte, des collines verdoyantes parsemées de fleurs sauvages s'étendent vers un ciel lumineux et dégagé. Un arbre solitaire se dresse majestueusement au premier plan du paysage extérieur, son feuillage apportant de la profondeur à la scène. La lumière du soleil et les éléments naturels contrastent avec la simplicité de l'espace intérieur, insufflant une sensation d'émerveillement et d'évasion.

Veo 3 est désormais disponible en préversion publique sur Vertex AI. Une version « Veo 3 Fast » est également disponible. Dérivant de Veo 3, Veo 3 Fast est un modèle conçu pour la vitesse et l’itération rapide. Il s’agit d’un moyen plus rapide de transformer du texte en vidéo, qu’il s’agisse de démonstrations de produits commentées ou de courts métrages.

Lyria 2 : contrôle créatif renforcé pour la génération musicale

Lors de Google Cloud Next 2025, nous avons présenté Lyria sur Vertex AI, le modèle de génération musicale à partir de texte (text-to-music) de Google. Aujourd'hui, nous annonçons que Lyria 2 est désormais disponible pour tous sur Vertex AI. Dernier-né des modèles de génération musicale de Google, Lyria 2 permet de produire des musiques haute-fidélité dans une grande variété de styles. Véritable partenaire créatif, Lyria 2 propose:

  • Une création audio de haute qualité à partir de prompts textuels
  • Un contrôle créatif accru sur les instruments, le tempo (BPM) et sur d’autres caractéristiques

Lyria 2 est désormais en « General Availability » Sur Vertex AI. Pour commencer à créer du contenu avec Lyria 2, rendez-vous sur Media Studio dans Vertex AI. Vous pourrez générer de la musique à partir de prompts textuels ou accéder à l’API du modèle via Vertex AI. Pour vous inspirer, voici quelques exemples de morceaux générés, accompagnés de leurs prompts.

Video Thumbnail

Prompt : Compose une cumbia péruvienne entraînante et rythmée avec une touche psychédélique, en live à Los Angeles lors d’un festival de musique latine. Intègre des guitares électriques, une basse, et une section de percussions mettant en avant les timbales, pour une ambiance puissante et dansante. Le résultat doit être vibrant et énergique.

Video Thumbnail

Prompt : Compose une partition orchestrale de type cinématographique grandiose, enregistrée dans un studio londonien avec un orchestre de 100 musiciens. L'ensemble doit être majestueux et profond, mêlant des mélodies planantes, des changements harmoniques dramatiques et des parties de percussions puissantes. Utilise des instruments comme des cors français, des cordes et des timbales dans une approche thématique sophistiquée, avec des orchestrations complexes, une large amplitude dynamique et une profondeur émotionnelle qui évoquent une atmosphère cinématographique saisissante.

Voici ce que nos clients disent de Lyria 2 :

Captions est un outil de création vidéo à l’aide de l’IA qui permet de réaliser rapidement et facilement des vidéos de qualité professionnelle. Lyria 2 a été intégré à la fonctionnalité Mirage Edit de l’outil, offrant ainsi aux utilisateurs la possibilité de générer en quelques instants des vidéos complètes avec une bande-son personnalisée.

« Chez Captions, notre fonction Mirage Edit permet déjà à nos abonnés de passer d’un simple prompt à une vidéo entièrement montée par l’IA : images, plans d’illustration, voix-off et transitions sont générées automatiquement. Désormais, nous ajoutons un élément clé : la musique adaptative, générée par Lyria 2 de Google. En un prompt, Lyria compose une bande-son qui s’ajuste au script, au rythme et à chaque moment d’émotion, permettant à nos clients de publier des vidéos courtes de qualité cinématographiques sans quitter Captions ni avoir à fouiller dans des banques de musiques libres de droits ». — Dwight Churchill, Co-fondateur et COO, Captions.ai.

Dashverse, entreprise proposant des plateformes de contenus numériques telles que Dashtoon et DashReels, exploite Lyria 2 de Google sur Vertex AI pour offrir des capacités avancées de génération musicale à la nouvelle génération de créateurs qui recourent nativement à l’IA pour générer leurs contenus. Cette intégration permet aux utilisateurs de composer des bandes-son dynamiques et émotionnellement adaptées, qui s’ajustent parfaitement au récit et au rythme de leurs contenus sur des plateformes comme DashReels.

« Chez Dashverse, nous avons toujours eu à cœur de donner du pouvoir à tous les créateurs– qu’il s’agisse de réaliser des bandes dessinées avec Dashtoon ou des courts-métrages sur DashReels. Pour accompagner notre passage à une narration dynamique et émotionnellement riche sur DashReels, il nous fallait un moteur musical aussi expressif et réactif. Lyria 2 sur Vertex AI répond parfaitement à ce besoin. Il offre à nos utilisateurs un contrôle de niveau professionnel sur la musique — s'adaptant aux émotions, aux scènes et au rythme — sans la complexité technique. Ce n'est pas juste un générateur de bande-son, c’est un véritable amplificateur narratif. Nous sommes très enthousiastes quant aux perspectives qu’offre cette technologie à la nouvelle génération de créateurs qui utilisent nativement l’IA pour générer leurs contenus ». — Soumyadeep Mukherjee, CTO, Dashverse.

Créez en toute sécurité, partagez de manière responsable

La sécurité et la fiabilité des contenus générés par l’IA sont essentielles. C’est pourquoi ces modèles intègrent des protections natives, vous permettant de vous concentrer pleinement sur votre travail créatif. Veo 3, Imagen 4 et Lyria 2 ont tous été conçus avec la sécurité comme principe fondamental, en partenariat avec Google DeepMind.

Filigrane numérique : Par défaut, toutes les créations générées avec Veo, Imagen et Lyria intègrent SynthID, une technologie qui appose un filigrane invisible directement dans les contenus produits. Ce marquage permet d’identifier les médias issus de l’IA, garantissant ainsi la transparence.

Filtres de sécurité : Les prompts en entrée comme les contenus générés par tous les modèles d’IA générative multimédia sont contrôlés à l’aide de filtres de sécurité. En configurant le niveau de filtrage souhaité, vous pouvez vous assurer que les contenus produits respectent les valeurs de votre marque. Pour les contenus visuels, vous disposez également d’un contrôle sur la génération de personnages.

Pour en savoir plus 

Publié dans