Les modèles multimodaux sont capables de traiter une grande variété d'entrées en tant que requêtes, y compris du texte, des images et de l'audio, et de convertir ces requêtes en diverses sorties, et pas seulement en type de source.
Les nouveaux clients bénéficient d'un maximum de 300 $ de crédits pour essayer les modèles multimodaux dans Vertex AI et dans d'autres produits Google Cloud.
Présentation
Un modèle multimodal est un modèle de ML (machine learning) capable de traiter des informations provenant de différentes modalités, y compris des images, des vidéos et du texte. Par exemple, Gemini, le modèle multimodal de Google, peut recevoir la photo d'une assiette de cookies et générer une recette écrite en tant que réponse, et inversement.
L'IA générative est un terme générique qui désigne l'utilisation de modèles de ML pour créer des contenus, comme du texte, des images, de la musique, de l'audio et des vidéos, généralement à partir d'une requête d'un seul type. L'IA multimodale s'appuie sur ces capacités génératives en traitant les informations sous différentes formes, dont les images, les vidéos et le texte. La multimodalité permet à l'IA de traiter et de comprendre différents modes sensoriels. En pratique, cela signifie que les utilisateurs ne sont pas limités à une seule entrée et à un seul type de sortie, et peuvent demander à un modèle de générer pratiquement n'importe quel type de contenu avec n'importe quelle entrée.
Gemini est un modèle multimodal créé par l'équipe Google DeepMind. Il peut être invité à fournir des images, mais aussi du texte, du code et des vidéos. Gemini a été conçu dès le départ pour assurer un fonctionnement fluide du texte, des images, de la vidéo, de l'audio et du code. Gemini sur Vertex AI peut même utiliser des requêtes pour extraire du texte à partir d'images, convertir du texte d'image au format JSON et générer des réponses sur les images importées.
L'IA multimodale et les modèles multimodaux permettent aux développeurs de créer et d'étendre les fonctionnalités de l'IA dans la nouvelle génération d'applications. Par exemple, Gemini est capable de comprendre, d'expliquer et de générer du code de haute qualité dans les langages de programmation les plus populaires au monde, tels que Python, Java, C++ et Go, ce qui permet aux développeurs de se concentrer sur la création d'applications riches en fonctionnalités. Le potentiel de l'IA multimodale rapproche également le monde de l'IA, qui n'est plus comme un logiciel intelligent, mais plutôt comme un assistant ou un assistant expert.
Les avantages de l'IA multimodale sont d'offrir aux développeurs et aux utilisateurs une IA avec des capacités de raisonnement, de résolution de problèmes et de génération plus avancées. Ces avancées offrent des possibilités infinies pour faire évoluer nos méthodes de travail et de vie grâce aux applications nouvelle génération. Pour les développeurs qui souhaitent se lancer dans la création, l'API Vertex AI Gemini offre des fonctionnalités telles que la sécurité d'entreprise, la résidence des données, les performances et l'assistance technique. Les clients Google Cloud existants peuvent dès maintenant envoyer des requêtes avec Gemini dans Vertex AI.
Fonctionnement
Un modèle multimodal est capable de comprendre et de traiter pratiquement n'importe quelle entrée, de combiner différents types d'informations et de générer presque toutes les sorties. Par exemple, en utilisant Vertex AI avec Gemini, les utilisateurs peuvent demander à l'aide de texte, d'images, de vidéos ou de code pour générer des types de contenu différents de ceux initialement saisis.
Utilisations courantes
Testez le modèle Gemini à l'aide du langage naturel, du code ou d'images. Essayez des exemples de requêtes permettant d'extraire du texte à partir d'images, de le convertir au format JSON et même de générer des réponses sur les images importées afin de créer des applications d'IA de nouvelle génération.
Testez le modèle Gemini à l'aide du langage naturel, du code ou d'images. Essayez des exemples de requêtes permettant d'extraire du texte à partir d'images, de le convertir au format JSON et même de générer des réponses sur les images importées afin de créer des applications d'IA de nouvelle génération.
Obtenez un aperçu de l'utilisation des modèles multimodals dans Google Cloud, des points forts et des limites de Gemini, des informations sur les invites et les requêtes, ainsi que le nombre de jetons.
Obtenez un aperçu de l'utilisation des modèles multimodals dans Google Cloud, des points forts et des limites de Gemini, des informations sur les invites et les requêtes, ainsi que le nombre de jetons.