Présentation de Generative AI sur Vertex AI

Generative AI sur Vertex AI (également appelé genAI ou gen AI) vous donne accès à de nombreux grands modèles d'IA générative que vous pouvez évaluer, régler et déployer pour les utiliser dans vos applications basées sur l'IA. Cette page présente le workflow de l'IA générative sur Vertex AI, les fonctionnalités et les modèles disponibles, et vous oriente vers des ressources utiles pour vous lancer.

Workflow d'IA générative

Le diagramme suivant présente une vue d'ensemble du workflow d'IA générative.

Schéma du workflow d'IA générative

Requête

Requête

Le workflow de l'IA générative commence généralement par une requête. Une requête est une invite envoyée à un modèle d'IA générative pour obtenir une réponse. Selon le modèle, une requête peut contenir du texte, des images, des vidéos, de l'audio, des documents et d'autres modalités, voire même des modalités multiples (requête multimodale).

Le fait d'écrire une requête pour obtenir la réponse souhaitée du modèle est une pratique appelée conception de requête. Bien que la conception d'une invite soit un processus expérimental, vous pouvez utiliser des principes et des stratégies de conception d'invites pour inciter le modèle à se comporter de la manière souhaitée. Vertex AI Studio propose un outil de gestion des requêtes pour vous aider à gérer vos requêtes.

Modèles de fondation

Modèles de fondation

Les requêtes sont envoyées à un modèle d'IA générative afin de générer des réponses. Vertex AI dispose de divers modèles de fondation d'IA générative accessibles via une API, dont les suivants :

  • API Gemini : raisonnement avancé, chat multitour, génération de code et invites multimodales.
  • API Imagen : génération d'images, modification d'images et description d'images.
  • MedLM : système de questions-réponses et de synthèse médicales. (DG privée)

La taille, la modalité et les coûts des modèles sont différents. Vous pouvez explorer les modèles Google, ainsi que des modèles Open Source et des modèles de partenaires Google, dans Model Garden.

Personnaliser le modèle

Personnaliser le modèle

Vous pouvez personnaliser le comportement par défaut des modèles de base de Google afin qu'ils génèrent les résultats souhaités de manière cohérente, sans utiliser d'invites complexes. Ce processus de personnalisation est appelé réglage du modèle. Les réglages de modèles vous aident à réduire le coût et la latence de vos requêtes en vous permettant de simplifier vos invites.

Vertex AI propose également des outils d'évaluation de modèle pour vous aider à évaluer les performances de votre modèle réglé. Une fois que votre modèle réglé est prêt pour la production, vous pouvez le déployer sur un point de terminaison et surveiller les performances, comme dans les workflows MLOps standards.

Augmentation de requête

Augmentation

Vertex AI propose plusieurs méthodes d'augmentation de requête qui permettent au modèle d'accéder à des API externes et à des informations en temps réel.

  • Ancrage : connecte les réponses du modèle à une source fiable, telle que vos propres données ou une recherche sur le Web, ce qui permet de réduire les hallucinations.
  • RAG : connecte les modèles à des sources de connaissances externes, telles que des documents et des bases de données, afin de générer des réponses plus précises et informatives.
  • Appel de fonction : permet au modèle d'interagir avec des API externes pour obtenir des informations en temps réel et effectuer des tâches réelles.

Vérification des citations

Vérification des citations

Une fois la réponse générée, Vertex AI vérifie si les citations doivent être incluses dans la réponse. Si une grande partie du texte de la réponse provient d'une source particulière, cette source est ajoutée aux métadonnées de citation de la réponse.

IA responsable et sécurité

IA responsable et sécurité

La dernière couche de vérification que l'invite et la réponse passent avant d'être renvoyée concernent les filtres de sécurité. Vertex AI vérifie à la fois l'invite et la réponse indiquant dans quelle mesure l'invite ou la réponse appartient à une catégorie de sécurité. Si le seuil est dépassé pour une ou plusieurs catégories, la réponse est bloquée et Vertex AI renvoie une réponse de remplacement.

Réponse

Réponse

Si l'invite et la réponse réussissent les contrôles de filtre de sécurité, la réponse est renvoyée. En règle générale, la réponse est renvoyée simultanément. Cependant, vous pouvez également recevoir des réponses progressivement au fur et à mesure de leur génération en activant le streaming.

API et modèles d'IA générative

Les modèles d'IA générative disponibles dans Vertex AI, également appelés modèles de fondation, sont classés par type de contenu qu'il est conçu pour générer. Ce contenu inclut les textes, le chat, les images, le code, les vidéos, les données multimodales et les représentations vectorielles continues. Chaque modèle est exposé via un point de terminaison d'éditeur spécifique à votre projet Google Cloud. Il est donc inutile de déployer le modèle de fondation, sauf si vous devez le régler pour un cas d'utilisation spécifique.

Offres de l'API Gemini

L'API Vertex AI Gemini contient les points de terminaison de l'éditeur pour les modèles Gemini développés par Google DeepMind.

  • Gemini 1.5 Pro (Bêta) est compatible avec les invites multimodales. Vous pouvez inclure des fichiers texte, image, audio, vidéo et PDF dans vos requêtes pour obtenir des réponses sous forme de texte ou de code. Gemini 1.5 Pro (Bêta) peut traiter de plus grandes collections d'images, des documents texte plus volumineux et des vidéos plus longues que Gemini 1.0 Pro Vision.
  • Gemini 1.0 Pro est conçu pour gérer les tâches en langage naturel, le chat textuel et de code multitour, ainsi que la génération de code.
  • Gemini 1.0 Pro Vision accepte les requêtes multimode. Vous pouvez inclure du texte, des images, des vidéos et des PDF dans vos requêtes pour obtenir des réponses sous forme de texte ou de code.

Le tableau suivant présente certaines différences des modèles Gemini afin de vous aider à choisir celui qui vous convient le mieux :

Modèle Gemini Modalités Fenêtre de contexte
Gemini 1.0 Pro / Gemini 1.0 Pro Vision
  • Texte, code, PDF (Gemini 1.0 Pro Vision)
  • Jusqu'à 16 images
  • Jusqu'à 2 minutes de vidéo
  • 8 192 jetons en entrée
  • 2 048 jetons en sortie
Gemini 1.5 Pro (Bêta)
  • Texte, code, images, audio, vidéo, PDF
  • Jusqu'à 3 000 images
  • Jusqu'à 8,4 heures d'audio
  • Jusqu'à une heure de vidéo avec audio
  • 1 million de jetons en entrée
  • 8 192 jetons en sortie

Offres de l'API PaLM

L'API Vertex AI PaLM contient les points de terminaison de l'éditeur pour les modèles PaLM 2 de Google (Pathways Language Model 2), qui sont de grands modèles de langage (LLM) qui génèrent du texte et du code en réponse aux invites en langage naturel.

  • L'API PaLM pour le texte est parfaitement adaptée à des tâches linguistiques telles que la classification, la synthèse et l'extraction d'entités.
  • L'API PaLM pour le chat est adaptée au chat multitour, où le modèle effectue le suivi des messages précédents dans le chat et l'utilise comme contexte pour générer de nouvelles réponses.

Autres offres d'IA générative

  • La représentation vectorielle continue de texte génère des représentations vectorielles continues pour du texte fourni en entrée. Vous pouvez utiliser des représentations vectorielles continues pour des tâches telles que la recherche sémantique, la recommandation, la classification et la détection d'anomalies.

  • La représentation vectorielle continue multimodale génère des représentations vectorielles continues à partir d'images et de texte. Ces représentations vectorielles continues peuvent être utilisées ultérieurement pour d'autres tâches ultérieures, telles que la classification d'images ou les recommandations de contenu.

  • Imagen, notre modèle de fondation de texte-vers-image, vous permet de générer et de personnaliser des images de qualité studio à grande échelle.

  • Les modèles partenaires sont une liste organisée de modèles d'IA générative développés par les entreprises partenaires de Google. Ces modèles d'IA générative sont proposés en tant qu'API gérées. Par exemple, Anthropic fournit ses modèles Claude en tant que service sur Vertex AI.

  • Des modèles Open Source, tels que Llama, peuvent être déployés sur Vertex AI ou sur d'autres plates-formes.

  • MedLM est une famille de modèles de fondation réglés pour le secteur de la santé.

Certifications et contrôles de sécurité

Vertex AI est compatible avec les CMEK, VPC Service Controls, la résidence des données et Access Transparency. Les fonctionnalités d'IA générative sont limitées. Pour en savoir plus, consultez la page Contrôles de sécurité pour l'IA générative.

Premiers pas