Model Armor est un service Google Cloud conçu pour améliorer la sécurité de vos applications d'IA. Il fonctionne en examinant de manière proactive les requêtes et les réponses des LLM, en protégeant contre divers risques et en garantissant des pratiques d'IA responsable. Que vous déployiez l'IA dans votre environnement cloud ou même chez des fournisseurs de cloud externes, Model Armor peut vous aider à prévenir les entrées malveillantes, à vérifier la sécurité du contenu, à protéger les données sensibles, à maintenir la conformité et à appliquer vos règles de sécurité de l'IA de manière cohérente dans votre paysage d'IA diversifié.
Architecture
Ce schéma d'architecture montre une application utilisant Model Armor
pour protéger un LLM et un utilisateur. Les étapes suivantes expliquent le flux de données.
- Un utilisateur fournit une requête à l'application.
- Model Armor inspecte la requête entrante pour détecter tout contenu potentiellement sensible.
- La requête (ou la requête nettoyée) est envoyée au LLM.
- Le LLM génère une réponse.
- Model Armor inspecte la réponse générée pour détecter tout contenu potentiellement sensible.
- La réponse (ou la réponse nettoyée) est envoyée à l'utilisateur. Model Armor envoie une description détaillée des filtres déclenchés et non déclenchés dans la réponse.
Model Armor filtre à la fois les entrées (requêtes) et les sorties (réponses) pour empêcher le LLM d'être exposé à du contenu malveillant ou sensible, ou d'en générer.
Cas d'utilisation
Model Armor peut être utilisé dans de nombreux cas et secteurs :
Sécurité
- Réduisez le risque de fuite de propriété intellectuelle (PI) sensible et d'informations permettant d'identifier personnellement les utilisateurs (PII) qui pourraient être incluses dans les requêtes ou les réponses des LLM.
- Protégez-vous contre les attaques par injection de requêtes et de jailbreaking, qui empêchent les acteurs malveillants de manipuler les systèmes d'IA pour effectuer des actions non souhaitées.
- Analysez le texte des PDF pour détecter les contenus sensibles ou malveillants.
Sécurité et IA responsable
- Empêchez votre chatbot de recommander des solutions concurrentes, afin de préserver l'intégrité de votre marque et la fidélité de vos clients.
- Les organisations peuvent filtrer les posts sur les réseaux sociaux générés par leur IA qui contiennent des messages nuisibles, comme des contenus dangereux ou incitant à la haine.
Modèles Model Armor
Les modèles Model Armor vous permettent de configurer la façon dont Model Armor analyse les requêtes et les réponses. Ils fonctionnent comme des ensembles de filtres et de seuils personnalisés pour différents niveaux de confiance en matière de sécurité, ce qui permet de contrôler le contenu signalé.
Les seuils représentent des niveaux de confiance, c'est-à-dire le degré de certitude de Model Armor que la requête ou la réponse incluent du contenu inapproprié. Par exemple, vous pouvez créer un modèle qui filtre les requêtes contenant des contenus haineux avec un seuil HIGH
. Cela signifie que Model Armor indique un niveau de confiance élevé que la requête contient des contenus haineux. Un seuil LOW_AND_ABOVE
indique n'importe quel niveau de confiance (LOW
, MEDIUM
et HIGH
) dans l'affirmation.
Pour en savoir plus, consultez Modèles Model Armor.
Niveaux de confiance de Model Armor
Vous pouvez définir des niveaux de confiance pour les catégories de sécurité de l'IA responsable (contenu sexuellement explicite, dangereux, harcèlement et incitation à la haine), la détection de l'injection de requêtes et du jailbreaking, ainsi que la protection des données sensibles (y compris la thématique).
Pour les niveaux de confiance qui autorisent des seuils précis, Model Armor les interprète comme suit :
- Élevé : identifie si le message contient du contenu avec une probabilité élevée.
- Moyenne et supérieure : identifie si le message contient du contenu avec une probabilité moyenne ou élevée.
- Faible et supérieur : identifie si le message contient du contenu avec une probabilité faible, moyenne ou élevée.
Filtres Model Armor
Model Armor propose différents filtres pour vous aider à fournir des modèles d'IA sûrs et sécurisés. Les catégories de filtres suivantes sont disponibles.
Filtre de sécurité de l'IA responsable
Vous pouvez filtrer les requêtes et les réponses aux niveaux de confiance susmentionnés pour les catégories suivantes :
Catégorie | Définition |
---|---|
Incitation à la haine | Commentaires négatifs ou offensants ciblant l'identité et/ou les attributs protégés. |
Harcèlement | Commentaires menaçants, intimidants ou abusifs ciblant une autre personne. |
Caractère sexuel explicite | Contient des références à des actes sexuels ou à d'autres contenus obscènes. |
Contenu dangereux | Encourage ou facilite l'accès à des activités, produits et services dangereux. |
Le filtre pour les contenus d'abus sexuels sur mineurs est appliqué par défaut et ne peut pas être désactivé.
Détection de l'injection de requêtes et du jailbreak
L'injection de requêtes correspond à une faille de sécurité via laquelle les pirates informatiques créent des commandes spéciales dans l'entrée textuelle (requête) pour tromper un modèle d'IA. L'IA peut alors ignorer ses instructions habituelles, divulguer des informations sensibles ou exécuter des actions pour lesquelles elle n'a pas été conçue. Dans le contexte des LLM, le jailbreaking désigne l'action de contourner les protocoles de sécurité et les consignes éthiques intégrés au modèle. Cela permet au LLM de générer des réponses qu'il était initialement conçu pour éviter, comme des contenus nuisibles, contraires à l'éthique et dangereux.
Lorsque la détection de l'injection de requêtes et du jailbreaking est activée, Model Armor analyse les requêtes et les réponses pour détecter les contenus malveillants. Si une telle requête ou réponse est détectée, Model Armor la bloque.
Protection des données sensibles
Sensitive Data Protection est un service Google Cloud qui vous aide à découvrir, classer et anonymiser les données sensibles. Sensitive Data Protection peut identifier les éléments, le contexte et les documents sensibles pour vous aider à réduire le risque de fuite de données entrant dans les charges de travail d'IA et en sortant. Vous pouvez utiliser la protection des données sensibles directement dans Model Armor pour transformer, tokeniser et masquer les éléments sensibles tout en conservant le contexte non sensible. Model Armor peut accepter les modèles d'inspection existants, qui sont des configurations qui agissent comme des plans pour rationaliser le processus d'analyse et d'identification des données sensibles spécifiques à votre entreprise et à vos besoins de conformité. Vous pouvez ainsi assurer la cohérence et l'interopérabilité entre les autres charges de travail qui utilisent la protection des données sensibles.
Model Armor propose deux modes de configuration de Sensitive Data Protection :
Configuration de base : dans ce mode, vous configurez la protection des données sensibles en spécifiant les types de données sensibles à analyser. Ce mode est compatible avec les catégories suivantes :
- Numéro de carte de crédit
- Numéro de sécurité sociale aux États-Unis
- Numéro de compte financier
- Numéro d'identification fiscale individuel (ITIN) aux États-Unis
- Google Cloud identifiants
- Clé API :Google Cloud
La configuration de base n'autorise que les opérations d'inspection et n'est pas compatible avec l'utilisation de modèles Sensitive Data Protection. Pour en savoir plus, consultez la page Configuration de base de Sensitive Data Protection.
Configuration avancée : ce mode offre plus de flexibilité et de personnalisation grâce aux modèles de protection des données sensibles. Les modèles Sensitive Data Protection sont des configurations prédéfinies qui vous permettent de spécifier des règles de détection et des techniques d'anonymisation plus précises. La configuration avancée est compatible avec les opérations d'inspection et d'anonymisation.
Les niveaux de confiance pour Sensitive Data Protection fonctionnent légèrement différemment de ceux des autres filtres. Pour en savoir plus sur les niveaux de confiance de Sensitive Data Protection, consultez Probabilité de correspondance de Sensitive Data Protection. Pour en savoir plus sur Sensitive Data Protection en général, consultez Présentation de Sensitive Data Protection.
Détection des URL malveillantes
Les URL malveillantes sont souvent déguisées pour paraître légitimes, ce qui en fait un outil puissant pour les attaques par hameçonnage, la distribution de logiciels malveillants et d'autres menaces en ligne. Par exemple, si un PDF contient une URL malveillante intégrée, il peut être utilisé pour compromettre tous les systèmes en aval qui traitent les sorties LLM.
Lorsque la détection des URL malveillantes est activée, Model Armor analyse les URL pour déterminer si elles sont malveillantes. Vous pouvez ainsi prendre des mesures et empêcher le renvoi d'URL malveillantes.
Définir le type d'application
L'application des règles définit ce qui se passe lorsqu'un cas de non-respect est détecté. Pour configurer la façon dont Model Armor gère les détections, vous devez définir le type d'application. Model Armor propose les types d'application suivants :
- Inspecter uniquement : les requêtes qui ne respectent pas les paramètres configurés sont inspectées, mais pas bloquées.
- Inspecter et bloquer : bloque les requêtes qui ne respectent pas les paramètres configurés.
Pour utiliser efficacement Inspect only
et obtenir des insights utiles, activez Cloud Logging.
Si Cloud Logging n'est pas activé, Inspect only
ne fournira aucune information utile.
Accédez à vos journaux via Cloud Logging. Filtrez par nom de service : modelarmor.googleapis.com
. Recherchez les entrées liées aux opérations que vous avez activées dans votre modèle. Pour en savoir plus, consultez la page Afficher les journaux à l'aide de l'explorateur de journaux.
Paramètres de plancher Model Armor
Bien que les modèles Model Armor offrent de la flexibilité pour les applications individuelles, les organisations ont souvent besoin d'établir un niveau de protection de référence pour toutes leurs applications d'IA. C'est là que les paramètres de seuil Model Armor sont utilisés. Elles agissent comme des règles qui définissent les exigences minimales pour tous les modèles créés à un point spécifique de la hiérarchie des ressources Google Cloud (c'est-à-dire au niveau d'une organisation, d'un dossier ou d'un projet).
Pour en savoir plus, consultez Paramètres de plancher Model Armor.
Langues acceptées
Les filtres Model Armor permettent d'assainir les requêtes et les réponses dans plusieurs langues.
- Le filtre de protection des données sensibles est compatible avec l'anglais et d'autres langues en fonction des infoTypes que vous avez sélectionnés.
Les filtres IA responsable et Détection de l'injection de requêtes et du jailbreak sont testés dans les langues suivantes :
- Chinois (mandarin)
- Anglais
- Français
- Allemand
- Italien
- Japonais
- Coréen
- Portugais
- Espagnol
Ces filtres peuvent fonctionner dans de nombreuses autres langues, mais la qualité des résultats peut varier. Pour connaître les codes de langue, consultez Langues acceptées.
Il existe deux façons d'activer la détection multilingue :
Activer pour chaque requête : pour un contrôle précis, activez la détection multilingue pour chaque requête lorsque vous nettoyez une requête utilisateur et nettoyez une réponse du modèle.
Activer une seule fois : si vous préférez une configuration plus simple, vous pouvez activer la détection multilingue en tant que configuration unique au niveau du modèle Model Armor à l'aide de l'API REST. Pour en savoir plus, consultez Créer un modèle Model Armor.
Examen des documents
Le texte des documents peut inclure du contenu sensible et malveillant. Model Armor peut filtrer les types de documents suivants pour détecter les tentatives d'injection de requête et de jailbreaking, les données sensibles et les URL malveillantes, et s'assurer qu'ils sont sécurisés :
- CSV
- Fichiers texte : TXT
- Documents Microsoft Word : DOCX, DOCM, DOTX, DOTM
- Diapositives Microsoft PowerPoint : PPTX, PPTM, POTX, POTM, POT
- Feuilles Microsoft Excel : XLSX, XLSM, XLTX, XLTM
Model Armor refuse les demandes d'analyse de fichiers au format RTF (Rich Text Format) dont la taille est inférieure ou égale à 50 octets, car ces fichiers sont très probablement non valides.
Tarifs
Model Armor peut être acheté en tant que partie intégrante de Security Command Center ou en tant que service autonome. Pour en savoir plus sur les tarifs, consultez Tarifs de Security Command Center.
Jetons
Les modèles d'IA générative décomposent le texte et les autres données en unités appelées jetons. Model Armor utilise le nombre total de jetons dans les requêtes et les réponses de l'IA à des fins de tarification. Model Armor limite le nombre de jetons traités dans chaque requête et réponse.
Model Armor présente des limites de jetons variables en fonction du filtre spécifique.
Lorsque la requête ou la réponse dépasse la limite de jetons, le filtre Sensitive Data Protection renvoie EXECUTION_SKIPPED
. Tous les autres filtres renvoient MATCH_FOUND
si du contenu malveillant est détecté et EXECUTION_SKIPPED
si aucun contenu malveillant n'est détecté, si la requête ou la réponse dépasse la limite de jetons.
Filtre | Limite de jetons |
---|---|
Détection de l'injection de prompts et du jailbreak | 10 000 |
IA responsable | 10 000 |
Contenus d'abus sexuels sur mineurs | 10 000 |
Protection des données sensibles | Jusqu'à 130 000 |
Étapes suivantes
- En savoir plus sur les modèles Model Armor
- En savoir plus sur les paramètres de plancher Model Armor
- En savoir plus sur les points de terminaison Model Armor
- Nettoyez les requêtes et les réponses.
- En savoir plus sur la journalisation d'audit Model Armor
- Résolvez les problèmes liés à Model Armor.