IA multimodale

Générez du texte, du code, des vidéos, de l'audio et des images à partir de pratiquement tout type de contenu

Les modèles multimodaux sont capables de traiter une grande variété d'entrées en tant que requêtes, y compris du texte, des images et de l'audio, et de convertir ces requêtes en diverses sorties, et pas seulement en type de source.

Les nouveaux clients bénéficient d'un maximum de 300 $ de crédits pour essayer les modèles multimodaux dans Vertex AI et dans d'autres produits Google Cloud.

Présentation

Quel exemple correspond à une IA multimodale ?

Un modèle multimodal est un modèle de ML (machine learning) capable de traiter des informations provenant de différentes modalités, y compris des images, des vidéos et du texte. Par exemple, Gemini, le modèle multimodal de Google, peut recevoir la photo d'une assiette de cookies et générer une recette écrite en tant que réponse, et inversement.

Quelle est la différence entre l'IA générative et l'IA multimodale ?

L'IA générative est un terme générique qui désigne l'utilisation de modèles de ML pour créer des contenus, comme du texte, des images, de la musique, de l'audio et des vidéos, généralement à partir d'une requête d'un seul type. L'IA multimodale s'appuie sur ces capacités génératives en traitant les informations sous différentes formes, dont les images, les vidéos et le texte. La multimodalité permet à l'IA de traiter et de comprendre différents modes sensoriels. En pratique, cela signifie que les utilisateurs ne sont pas limités à une seule entrée et à un seul type de sortie, et peuvent demander à un modèle de générer pratiquement n'importe quel type de contenu avec n'importe quelle entrée.

Qu'est-ce qu'une IA capable d'utiliser des images comme requête ?

Gemini est un modèle multimodal créé par l'équipe Google DeepMind. Il peut être invité à fournir des images, mais aussi du texte, du code et des vidéos. Gemini a été conçu dès le départ pour assurer un fonctionnement fluide du texte, des images, de la vidéo, de l'audio et du code. Gemini sur Vertex AI peut même utiliser des requêtes pour extraire du texte à partir d'images, convertir du texte d'image au format JSON et générer des réponses sur les images importées.

Quel est l'avenir de l'IA multimodale et pourquoi est-ce important ?

L'IA multimodale et les modèles multimodaux permettent aux développeurs de créer et d'étendre les fonctionnalités de l'IA dans la nouvelle génération d'applications. Par exemple, Gemini est capable de comprendre, d'expliquer et de générer du code de haute qualité dans les langages de programmation les plus populaires au monde, tels que Python, Java, C++ et Go, ce qui permet aux développeurs de se concentrer sur la création d'applications riches en fonctionnalités. Le potentiel de l'IA multimodale rapproche également le monde de l'IA, qui n'est plus comme un logiciel intelligent, mais plutôt comme un assistant ou un assistant expert.

Quels sont les avantages des modèles multimodals et de l'IA multimodale ?

Les avantages de l'IA multimodale sont d'offrir aux développeurs et aux utilisateurs une IA avec des capacités de raisonnement, de résolution de problèmes et de génération plus avancées. Ces avancées offrent des possibilités infinies pour faire évoluer nos méthodes de travail et de vie grâce aux applications nouvelle génération. Pour les développeurs qui souhaitent se lancer dans la création, l'API Vertex AI Gemini offre des fonctionnalités telles que la sécurité d'entreprise, la résidence des données, les performances et l'assistance technique. Les clients Google Cloud existants peuvent dès maintenant envoyer des requêtes avec Gemini dans Vertex AI.

Fonctionnement

Un modèle multimodal est capable de comprendre et de traiter pratiquement n'importe quelle entrée, de combiner différents types d'informations et de générer presque toutes les sorties. Par exemple, en utilisant Vertex AI avec Gemini, les utilisateurs peuvent demander à l'aide de texte, d'images, de vidéos ou de code pour générer des types de contenu différents de ceux initialement saisis.

Requête multimodale transformant l'image de cookie en recette textuelle

Utilisations courantes

Essayer les requêtes multimodales

Lancer une requête Gemini avec du texte, des images et une vidéo

Testez le modèle Gemini à l'aide du langage naturel, du code ou d'images. Essayez des exemples de requêtes permettant d'extraire du texte à partir d'images, de le convertir au format JSON et même de générer des réponses sur les images importées afin de créer des applications d'IA de nouvelle génération.

Requête dans la console
UI d'une requête Vertex AI pour les modèles multimodaux

Lancer une requête Gemini avec du texte, des images et une vidéo

Testez le modèle Gemini à l'aide du langage naturel, du code ou d'images. Essayez des exemples de requêtes permettant d'extraire du texte à partir d'images, de le convertir au format JSON et même de générer des réponses sur les images importées afin de créer des applications d'IA de nouvelle génération.

Requête dans la console
UI d'une requête Vertex AI pour les modèles multimodaux

Utiliser des modèles multimodaux

Premiers pas avec Gemini, le modèle multimodal de Google

Obtenez un aperçu de l'utilisation des modèles multimodals dans Google Cloud, des points forts et des limites de Gemini, des informations sur les invites et les requêtes, ainsi que le nombre de jetons.

Consulter la documentation
Essayer l'API Gemini, la documentation de référence de l'API Vertex AI Gemini et la conception d'une requête multimodale

Premiers pas avec Gemini, le modèle multimodal de Google

Obtenez un aperçu de l'utilisation des modèles multimodals dans Google Cloud, des points forts et des limites de Gemini, des informations sur les invites et les requêtes, ainsi que le nombre de jetons.

Consulter la documentation
Essayer l'API Gemini, la documentation de référence de l'API Vertex AI Gemini et la conception d'une requête multimodale

Commencer votre démonstration de faisabilité

Les nouveaux clients peuvent obtenir jusqu'à 300 $ de crédits gratuits pour essayer les modèles multimodaux dans Vertex AI

Testez les fonctionnalités multimodales de Gemini à l'aide d'un exemple de requête.

Concevoir des invites multimodales

Explorer l'IA générative dans Vertex AI

Essayer l'API Vertex AI Gemini

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
Console
  • Faites des économies grâce à notre approche transparente concernant la tarification
  • Le paiement à l'usage de Google Cloud permet de réaliser des économies automatiques basées sur votre utilisation mensuelle et des tarifs réduits pour les ressources prépayées. Contactez-nous dès aujourd'hui afin d'obtenir un devis.
Google Cloud