Requêtes multimodales
Pour en savoir plus sur les bonnes pratiques concernant les requêtes multimodales, consultez les pages suivantes en fonction de la modalité avec laquelle vous travaillez:
Latence réduite
Lorsque vous créez des applications interactives, le temps de réponse, également appelé latence, joue un rôle crucial dans l'expérience utilisateur. Cette section explore le concept de latence dans le contexte des API LLM Vertex AI et fournit des stratégies exploitables pour la minimiser et améliorer le temps de réponse de vos applications basées sur l'IA.
Comprendre les métriques de latence pour les LLM
La latence fait référence au temps nécessaire à un modèle pour traiter votre requête d'entrée et générer une réponse de sortie correspondante.
Lorsque vous examinez la latence avec un modèle, tenez compte des points suivants :
Le délai avant le premier jeton (TTFT) correspond au temps nécessaire au modèle pour produire le premier jeton de la réponse après avoir reçu la requête. Le TTFT est particulièrement pertinent pour les applications qui utilisent des flux, pour lesquels il est essentiel de fournir un retour d'information immédiat.
La valeur TTL (Time to Last token) mesure le temps global nécessaire au modèle pour traiter la requête et générer la réponse.
Stratégies visant à réduire la latence
Vertex AI vous permet d'utiliser plusieurs stratégies pour réduire la latence et améliorer la réactivité de vos applications :
Choisir le modèle adapté à votre cas d'utilisation
Vertex AI fournit une large gamme de modèles avec des fonctionnalités et des caractéristiques de performances différentes. Sélectionnez le modèle qui correspond le mieux à vos besoins spécifiques.
Gemini 1.5 Flash : modèle multimodal conçu pour les applications rentables et volumineuses. Gemini 1.5 Flash offre de la rapidité et de l'efficacité pour créer des applications rapides et moins coûteuses qui ne font pas de compromis sur la qualité. Il accepte les modalités suivantes : texte, code, images, audio, vidéo avec et sans audio, PDF ou une combinaison de ces éléments.
Gemini 1.5 Pro : modèle multimodal plus performant compatible avec un contexte plus large. Il accepte les modalités suivantes : texte, code, images, audio, vidéo avec et sans audio, PDF ou une combinaison de ces éléments.
Gemini 1.0 Pro : si la vitesse est une priorité et que vos requêtes ne contiennent que du texte, envisagez d'utiliser ce modèle. Ce modèle offre des temps de réponse rapides tout en offrant des résultats impressionnants.
Évaluez soigneusement vos exigences en termes de vitesse et de qualité de sortie pour choisir le modèle qui correspond le mieux à votre cas d'utilisation. Pour obtenir la liste des modèles disponibles, consultez la section Explorer tous les modèles.
Optimiser la longueur des requêtes et des sorties
Le nombre de jetons dans la requête d'entrée et la sortie attendue a un impact direct sur le temps de traitement. Réduisez le nombre de jetons pour réduire la latence.
Définissez des requêtes claires et concises qui transmettent efficacement votre intent sans détails inutiles ni redondances. Des requêtes plus courtes réduisent le délai avant l'obtention du premier jeton.
Suivez les instructions système pour contrôler la longueur de la réponse. Demandez au modèle de fournir des réponses concises ou de limiter la sortie à un nombre spécifique de phrases ou de paragraphes. Cette stratégie peut réduire le temps écoulé jusqu'au dernier jeton.
Ajustez la valeur
temperature
. Testez le paramètretemperature
pour contrôler le caractère aléatoire de la sortie. Des valeurstemperature
inférieures peuvent entraîner des réponses plus courtes et plus ciblées, tandis que des valeurs plus élevées peuvent générer des résultats plus diversifiés, mais potentiellement plus longs. Pour en savoir plus, consultez la sectiontemperature
dans la documentation de référence sur les paramètres du modèle.Restreindre la sortie en définissant une limite. Utilisez le paramètre
max_output_tokens
pour définir une limite maximale de longueur de la réponse générée, évitant ainsi des résultats trop longs. Soyez toutefois prudent, car cela pourrait interrompre les réponses au milieu de la phrase.
Diffuser un flux de réponses
Avec le streaming, le modèle commence à envoyer sa réponse avant de générer le résultat complet. Ainsi, les résultats sont traités en temps réel. Vous pouvez ainsi mettre à jour votre interface utilisateur immédiatement et effectuer d'autres tâches simultanées.
Le streaming améliore la réactivité perçue et crée une expérience utilisateur plus interactive.
Étape suivante
- Découvrez les stratégies générales de conception d'invites.
- Consultez des exemples de requêtes.
- Découvrez comment envoyer des requêtes de chat.
- Découvrez les bonnes pratiques d'IA responsable et les filtres de sécurité de Vertex AI.
- Découvrez comment ajuster un modèle.