Concepts clés

Cette page fournit des informations sur les concepts clés de Model Armor.

Modèles Model Armor

Les modèles Model Armor vous permettent de configurer la façon dont Model Armor filtre les requêtes et les réponses. Ils fonctionnent comme des ensembles de filtres et de seuils personnalisés pour différents niveaux de confiance en matière de sécurité et de sécurité, ce qui permet de contrôler les contenus signalés.

Les seuils représentent les niveaux de confiance. Autrement dit, le niveau de confiance de Model Armor concernant la requête ou la réponse incluant du contenu offensant. Par exemple, vous pouvez créer un modèle qui filtre les requêtes pour le contenu haineux avec un seuil HIGH, ce qui signifie que Model Armor indique que la requête contient du contenu haineux avec un niveau de confiance élevé. Un seuil LOW_AND_ABOVE indique tout niveau de confiance (LOW, MEDIUM et HIGH) pour émettre cette affirmation.

Filtres Model Armor

Model Armor propose différents filtres pour vous aider à fournir des modèles d'IA sûrs et sécurisés. Voici un récapitulatif des catégories de filtres.

Filtre de sécurité de l'IA responsable

Les requêtes et les réponses peuvent être filtrées aux niveaux de confiance susmentionnés pour les catégories suivantes:

Catégorie Définition
Incitation à la haine Commentaires négatifs ou offensants ciblant l'identité et/ou les attributs protégés.
Harcèlement Commentaires malveillants, intimidants ou abusifs ciblant une autre personne
Contenu à caractère sexuel explicite Contient des références à des actes sexuels ou à d'autres contenus obscènes.
Contenu dangereux Encourage ou facilite l'accès à des activités, produits et services dangereux.

Le filtre de contenus d'abus sexuels sur mineurs est appliqué par défaut et ne peut pas être désactivé.

Détection de l'injection de requêtes et du jailbreak

L'injection de requêtes correspond à une faille de sécurité via laquelle les pirates informatiques créent des commandes spéciales dans l'entrée textuelle (requête) pour tromper un modèle d'IA. L'IA peut alors ignorer ses instructions habituelles, divulguer des informations sensibles ou exécuter des actions pour lesquelles elle n'a pas été conçue. Le jailbreaking dans le contexte des LLM fait référence à l'acte de contourner les protocoles de sécurité et les consignes éthiques intégrés au modèle. Cela permet au LLM de générer des réponses qu'il était initialement conçu pour éviter, comme les contenus nuisibles, non éthiques et dangereux.

Lorsque l'injection de requêtes et la détection du jailbreak sont activées, Model Armor analyse les requêtes et les réponses à la recherche de contenu malveillant. S'il est détecté, Model Armor bloque la requête ou la réponse.

Protection des données sensibles

Des données sensibles, comme le nom ou l'adresse d'une personne, peuvent être envoyées à un modèle ou fournies dans la réponse d'un modèle par inadvertance ou intentionnellement.

La protection des données sensibles est un Google Cloud service qui vous aide à découvrir, classer et anonymiser les données sensibles. La protection des données sensibles peut identifier les éléments, le contexte et les documents sensibles pour vous aider à réduire le risque de fuite de données entrant dans et sortant des charges de travail d'IA. Vous pouvez utiliser la protection des données sensibles directement dans Model Armor pour transformer, tokeniser et masquer des éléments sensibles tout en conservant le contexte non sensible. Model Armor peut accepter des modèles d'inspection existants, qui sont des configurations qui agissent comme des plans pour simplifier le processus de numérisation et d'identification des données sensibles spécifiques à votre entreprise et à vos besoins de conformité. Vous pouvez ainsi assurer la cohérence et l'interopérabilité entre les autres charges de travail qui utilisent la protection des données sensibles.

Model Armor propose deux modes de configuration de la protection des données sensibles:

  • Configuration de base de la protection des données sensibles: ce mode permet de configurer plus facilement la protection des données sensibles en spécifiant directement les types de données sensibles à analyser. Il accepte six catégories, à savoir CREDIT_CARD_NUMBER, US_SOCIAL_SECURITY_NUMBER, FINANCIAL_ACCOUNT_NUMBER, US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER, GCP_CREDENTIALS et GCP_API_KEY. La configuration de base n'autorise que les opérations d'inspection et n'est pas compatible avec l'utilisation de modèles de protection des données sensibles. Pour en savoir plus, consultez la section Configuration de base de Sensitive Data Protection.

  • Configuration avancée de la protection des données sensibles: ce mode offre plus de flexibilité et de personnalisation en permettant l'utilisation de modèles de protection des données sensibles. Les modèles Sensitive Data Protection sont des configurations prédéfinies qui vous permettent de spécifier des règles de détection et des techniques d'anonymisation plus précises. La configuration avancée est compatible avec les opérations d'inspection et d'anonymisation.

Bien que des niveaux de confiance puissent être définis pour la protection des données sensibles, ils fonctionnent légèrement différemment des niveaux de confiance des autres filtres. Pour en savoir plus sur les niveaux de confiance pour Sensitive Data Protection, consultez la section Probabilité de correspondance Sensitive Data Protection. Pour en savoir plus sur Sensitive Data Protection en général, consultez la présentation de Sensitive Data Protection.

Détection des URL malveillantes

Les URL malveillantes sont souvent déguisées pour paraître légitimes, ce qui en fait un outil efficace pour les attaques par hameçonnage, la distribution de logiciels malveillants et d'autres menaces en ligne. Par exemple, si un PDF contient une URL malveillante intégrée, il peut être utilisé pour compromettre tous les systèmes en aval qui traitent les sorties LLM.

Lorsque la détection des URL malveillantes est activée, Model Armor analyse les URL pour déterminer si elles sont malveillantes. Vous pouvez ainsi prendre des mesures et empêcher les URL malveillantes d'être renvoyées.

Niveaux de confiance de Model Armor

Vous pouvez définir des niveaux de confiance pour les catégories de sécurité de l'IA responsable (c'est-à-dire "Contenu à caractère sexuel explicite", "Contenu dangereux", "Harcèlement" et "Discours de haine"), l'injection de requêtes et le jailbreak, ainsi que la protection des données sensibles (y compris l'actualité).

Pour les niveaux de confiance qui autorisent des seuils précis, Model Armor les interprète comme suit:

  • Élevé: identifiez si le message contient un contenu à forte probabilité.
  • Moyen et supérieur: identifiez si le message contient du contenu avec une probabilité moyenne ou élevée.
  • Faible et supérieur: identifiez si le message contient du contenu dont la probabilité est faible, moyenne ou élevée.

Analyse des fichiers PDF

Le texte des fichiers PDF peut inclure du contenu malveillant et sensible. Model Armor peut filtrer les PDF pour la sécurité, l'injection de requêtes et les tentatives de jailbreak, les données sensibles et les URL malveillantes.

Paramètres de plancher Model Armor

Bien que les modèles Model Armor offrent une flexibilité pour les applications individuelles, les entreprises doivent souvent établir un niveau de protection de référence pour l'ensemble de leurs applications d'IA. C'est là que les paramètres de sol Model Armor sont utilisés. Ils servent de règles qui dictent les exigences minimales pour tous les modèles créés à un point spécifique de la hiérarchie des ressources Google Cloud (c'est-à-dire au niveau de l'organisation, du dossier ou du projet).

Pour en savoir plus, consultez Paramètres de plancher du modèle Armor.

Étape suivante