Générez et modifiez des images à partir de descriptions textuelles en quelques secondes à l'aide des modèles de génération d'images Gemini 2.5 Flash Image et Imagen avec les API disponibles dans les langages de programmation Python, Java et Go.
Les nouveaux clients peuvent obtenir jusqu'à 300 $ de crédits pour générer des images et plus dans Vertex AI
Présentation
L'IA texte-vers-image est un type d'intelligence artificielle capable de générer et de modifier des images à partir de descriptions textuelles. Cette technologie a le potentiel de transformer la façon dont nous interagissons avec les contenus visuels et en créons des contenus. Les outils et ressources Google Cloud Text-to-AI, y compris des modèles d'IA pré-entraînés comme Imagen, Gemini 2.5 Flash Image et Veo, disponibles dans Vertex AI, sont conçus pour aider les développeurs à implémenter facilement la génération de texte en image dans leurs applications.
L'IA texte-vers-image peut être utilisée dans le développement d'applications pour générer des maquettes, des prototypes, des illustrations, des données de test, des contenus éducatifs et des visualisations à des fins de débogage. Vertex AI et l'API Cloud Vision de Google Cloud permettent aux développeurs d'accéder à une suite de fonctionnalités de traitement d'images, y compris la détection de texte, la détection d'objets et la classification d'images.Document AI peut être utilisé pour extraire du texte à partir de documents scannés afin de générer des images de description textuelle.
Imagen et Gemini 2.5 Flash Image sont les principaux modèles texte-vers-image de Google.
Imagen : Imagen est un modèle spécialisé dans les images. Il est conçu comme un moteur de diffusion, ce qui signifie qu'il se concentre principalement sur la génération d'images de haute qualité, soignées et photoréalistes à partir de prompts textuels. Sa force réside dans la "mise en correspondance de texte avec des pixels" pour créer des résultats esthétiques et visuellement attrayants.
Gemini 2.5 Flash Image : il s'agit d'un grand modèle de langage (LLM) multimodal natif. Contrairement à un modèle d'image dédié, il traite les images comme une autre forme de "langage". Cela signifie qu'il a été entraîné dès le départ pour comprendre et traiter à la fois du texte et des images en une seule étape unifiée. Cette architecture lui permet d'offrir des fonctionnalités uniques qui vont au-delà de la simple génération.
Vous pouvez accéder à ces modèles d'IA texte-vers-image via Vertex AI sur Google Cloud ou Google AI Studio.Pour utiliser les modèles, il vous suffit de fournir une requête textuelle, de sélectionner des paramètres (certains modèles vous permettent de choisir des paramètres qui contrôlent le style, la créativité et la précision de l'image générée), puis de générer l'image.
Fonctionnement
L'IA texte-vers-image utilise le traitement du langage naturel (TLN) pour convertir la description textuelle dans un format lisible par un ordinateur. Une fois converti dans un format lisible par l'ordinateur, le modèle de machine learning est entraîné sur un vaste ensemble de données de textes et d'images, puis apprend à identifier des modèles et les utilise pour générer ou modifier des images. L'IA texte-vers-image de Google Cloud s'appuie sur un modèle de deep learning appelé Imagen, un modèle de pointe qui peut générer des images photoréalistes à partir de descriptions textuelles.
Utilisations courantes
Découvrez comment utiliser la fonctionnalité de génération de texte-vers-image d'Imagen sur Vertex AI et exporter une version améliorée d'une image générative. Ce guide de démarrage rapide vous explique comment utiliser la génération d'images Imagen dans la console Google Cloud.
Découvrez comment utiliser la fonctionnalité de génération de texte-vers-image d'Imagen sur Vertex AI et exporter une version améliorée d'une image générative. Ce guide de démarrage rapide vous explique comment utiliser la génération d'images Imagen dans la console Google Cloud.
Avec Gemini 2.5 Flash Image, vous pouvez combiner différentes images en un seul visuel homogène. Utilisez plusieurs images de référence pour créer une seule image unifiée. Vous pouvez aussi modifier des images à l'aide d'instructions simples en langage naturel. Que vous souhaitiez supprimer une personne d'une photo de groupe ou corriger un petit détail comme une tache, vous pouvez apporter des modifications en discutant simplement avec l'IA.
De plus, Imagen sur Vertex AI vous permet de modifier des images générées par Imagen ou des images existantes. Vous pouvez spécifier la partie de l'image à modifier et une description textuelle des modifications à apporter (modification basée sur des masques).
Avec Gemini 2.5 Flash Image, vous pouvez combiner différentes images en un seul visuel homogène. Utilisez plusieurs images de référence pour créer une seule image unifiée. Vous pouvez aussi modifier des images à l'aide d'instructions simples en langage naturel. Que vous souhaitiez supprimer une personne d'une photo de groupe ou corriger un petit détail comme une tache, vous pouvez apporter des modifications en discutant simplement avec l'IA.
De plus, Imagen sur Vertex AI vous permet de modifier des images générées par Imagen ou des images existantes. Vous pouvez spécifier la partie de l'image à modifier et une description textuelle des modifications à apporter (modification basée sur des masques).
Générez des descriptions pertinentes pour vos images, y compris des métadonnées détaillées, des sous-titres automatiques, et une description rapide des produits et des composants visuels.
Générez des descriptions pertinentes pour vos images, y compris des métadonnées détaillées, des sous-titres automatiques, et une description rapide des produits et des composants visuels.
Un filigrane numérique est automatiquement ajouté aux images générées par certains modèles d'IA sur Vertex AI, tels qu'Imagen et Gemini 2.5 Flash Image. Pour cela, nous utilisons une technologie créée par Google DeepMind appelée SynthID, qui intègre un filigrane invisible directement dans les pixels de l'image.
Pour détecter le filigrane numérique dans une image sur Vertex AI, vous pouvez utiliser les outils de détection intégrés. Avec Vertex AI Media Studio, il vous suffit d'importer l'image que vous souhaitez vérifier. Si un filigrane SynthID est détecté, l'image affichera un badge "SynthID détecté".
Un filigrane numérique est automatiquement ajouté aux images générées par certains modèles d'IA sur Vertex AI, tels qu'Imagen et Gemini 2.5 Flash Image. Pour cela, nous utilisons une technologie créée par Google DeepMind appelée SynthID, qui intègre un filigrane invisible directement dans les pixels de l'image.
Pour détecter le filigrane numérique dans une image sur Vertex AI, vous pouvez utiliser les outils de détection intégrés. Avec Vertex AI Media Studio, il vous suffit d'importer l'image que vous souhaitez vérifier. Si un filigrane SynthID est détecté, l'image affichera un badge "SynthID détecté".