Cette page a été traduite par l'API Cloud Translation.

Réponses multimodales

Gemini 2.0 Flash permet de générer des réponses dans plusieurs modalités, y compris le texte, la voix et les images.

Génération de texte

Gemini 2.0 Flash est compatible avec la génération de texte à l'aide de la console Google Cloud, de l'API REST et des SDK compatibles. Pour en savoir plus, consultez notre guide de génération de texte.

Génération de la parole (accès anticipé/liste d'autorisation)

Gemini 2.0 prend en charge une nouvelle fonctionnalité de génération multimodale: la synthèse vocale. Grâce à la fonctionnalité de synthèse vocale, vous pouvez demander au modèle de générer une sortie audio de haute qualité qui ressemble à une voix humaine (say "hi everyone"). Vous pouvez également affiner davantage la sortie en orientant la voix.

Génération d'images (accès anticipé/liste d'autorisation)

Gemini 2.0 permet de générer du texte avec des images intégrées. Vous pouvez ainsi utiliser Gemini pour modifier des images de manière conversationnelle ou générer des sorties multimodales (par exemple, un article de blog avec du texte et des images en une seule phrase). Auparavant, cela aurait nécessité de relier plusieurs modèles.

La génération d'images est disponible en version expérimentale privée. Il est compatible avec les modalités et fonctionnalités suivantes:

Texte vers image
- Exemple de requête : "Génère une image de la tour Eiffel avec des feux d'artifice en arrière-plan."
Texte vers une ou plusieurs images et texte (entrelacé)
- Exemple de requête : "Génère une recette illustrée pour une paella. Créez des images à placer à côté du texte lorsque vous générez la recette."
Image(s) et texte vers image(s) et texte (entrelacé)
- Exemple de requête : (avec une image d'une pièce meublée) "Quelle autre couleur de canapé irait bien dans mon espace ? Pouvez-vous mettre à jour l'image ?"
Modification d'images (texte et image vers image)
- Exemple de requête : "Modifiez cette image pour qu'elle ressemble à un dessin animé"
- Exemple de requête : [image d'un chat] + [image d'un oreiller] + "Crée un point de croix de mon chat sur cet oreiller."
Modification d'images multitours (chat)
- Exemples de requêtes : [importez une image d'une voiture bleue.] "Transformez cette voiture en cabriolet." "Maintenant, changez la couleur en jaune."
Filigrane
- Toutes les images générées incluent un filigrane SynthID.

Limites :

La génération de personnes et la retouche d'images importées de personnes ne sont pas autorisées.
Pour des performances optimales, utilisez les langues suivantes: EN, es-MX, ja-JP, zh-CN et hi-IN.
La génération d'images n'est pas compatible avec les entrées audio ni vidéo.
La génération d'images ne se déclenche pas toujours :
- Le modèle ne peut générer que du texte. Essayez de demander explicitement des sorties d'image (par exemple, "générer une image", "fournir des images au fur et à mesure", "mettre à jour l'image").
- Le modèle peut s'arrêter en cours de génération. Réessayez ou utilisez une autre requête.