Les modèles d'IA générative comme Gemini nécessitent des mesures de sécurité robustes pour atténuer les risques tels que la génération de contenu nuisible, la fuite d'informations sensibles ou l'utilisation abusive.La plate-forme Vertex AI de Google Cloudfournit une suite d'outils et de pratiques pour implémenter une sécurité holistique pour vos modèles Gemini.
Risques potentiels pour la sécurité et stratégies d'atténuation
Lorsque vous déployez des modèles Gemini, il est essentiel d'identifier et d'atténuer les différents risques potentiels. Une approche proactive pour comprendre ces risques permet de mettre en œuvre plus efficacement les mesures de sécurité. Une approche multicouche de la sécurité est essentielle, car elle peut atténuer ou prévenir les problèmes suivants :
- Risques liés au contenu : cela peut inclure du contenu dangereux, des propos obscènes et de la sexualisation, ainsi que de la violence et de la brutalité.
- Risques liés à la brand safety : il est possible que le contenu généré ne corresponde pas au ton ou aux valeurs de votre marque, qu'il fasse la promotion de concurrents ou de produits inappropriés, ou qu'il génère du contenu pouvant nuire à votre réputation.
- Risques d'alignement : le contenu généré peut être non pertinent ou inexact.
- Risques liés à la sécurité et à la confidentialité : le contenu généré peut divulguer des données ou des requêtes d'entraînement sensibles. Des utilisateurs malveillants peuvent également tenter de forcer le modèle à ignorer les protocoles de sécurité ou à se comporter de manière inattendue.
Nos modèles déployés offrent différentes fonctionnalités pour résoudre ces problèmes potentiels :
- Le modèle par défaut et les filtres non configurables offrent un filet de sécurité général.
- Les instructions système fournissent des conseils directs au modèle sur le comportement à adopter et les sujets à éviter.
- Les filtres de contenu vous permettent de définir des seuils spécifiques pour les types de préjudices courants.
- Gemini comme filtre offre un point de contrôle avancé et personnalisable pour les problèmes de sécurité complexes ou nuancés qui pourraient échapper aux couches précédentes ou nécessiter une évaluation plus contextuelle.
- La protection contre la perte de données s'attaque spécifiquement au risque critique de fuite de données sensibles, au cas où le modèle y aurait accès. Il permet également de créer des listes de blocage personnalisées.
Outils de sécurité disponibles dans Vertex AI pour Gemini
Vertex AI propose plusieurs outils pour gérer la sécurité de vos modèles Gemini. Comprendre le fonctionnement de chacun, les points à prendre en compte et les cas d'utilisation idéaux vous aidera à créer une solution de sécurité sur mesure.
méthode | Fonctionnement | Protection fournie | Risques | Cas d'utilisation |
---|---|---|---|---|
Paramètres par défaut : Gemini + filtres non configurables | Les modèles Gemini sont intrinsèquement conçus dans un souci de sécurité et d'équité, même face à des requêtes contradictoires. Google a investi dans des évaluations de sécurité complètes, y compris pour les biais et la toxicité. Les paramètres par défaut incluent une couche de protection indépendante conçue pour empêcher la génération de contenus liés à des contenus d'abus sexuels sur mineurs ou à des contenus protégés par des droits d'auteur (récitation). | Protection de base contre les contenus d'abus sexuels sur mineurs et le non-respect des droits d'auteur (récitation) | La sécurité par défaut de Gemini ne répond peut-être pas aux besoins de votre organisation. Le modèle peut halluciner ou ne pas suivre les instructions. Les pirates informatiques motivés peuvent toujours réussir à effectuer des jailbreaks et des injections de requêtes. | Workflows où aucune entrée malveillante n'est attendue |
Filtres configurables |
Les filtres de contenu prédéfinis de Gemini offrent une protection supplémentaire contre différentes catégories de contenus nuisibles, tels que les contenus à caractère sexuel, incitant à la haine, relevant du harcèlement ou dangereux. Vous pouvez configurer des seuils de blocage pour chaque catégorie de préjudice (par exemple, BLOCK_LOW_AND_ABOVE , BLOCK_MEDIUM_AND_ABOVE ,
BLOCK_ONLY_HIGH ) en fonction de la probabilité et/ou de la gravité du contenu
préjudiciable. Il s'agit d'une couche indépendante du modèle, qui est donc robuste contre les jailbreaks.
|
Robustesse face aux cas de non-respect pour les catégories prédéfinies, sensibilité ajustable | Manque de personnalisation précise au-delà des paramètres de seuil pour les catégories prédéfinies. Peut parfois bloquer des contenus inoffensifs (faux positifs) ou ne pas bloquer certains contenus nuisibles (faux négatifs). Disponible uniquement pour le filtrage des réponses, et non pour le filtrage des requêtes. | Fournir un niveau de sécurité de base pour les applications ou agents destinés aux utilisateurs. Si votre objectif est d'assurer la brand safety et la sécurité des contenus, les filtres de contenu doivent être associés à des instructions système. |
Instructions système | Vous pouvez donner des instructions au modèle concernant les consignes de sécurité de votre marque et de vos contenus à l'aide d'instructions système ou de préambules. Par exemple, vous pouvez demander au modèle de ne pas répondre aux questions liées à la politique ou de respecter des consignes spécifiques concernant la voix et le ton de la marque. Les instructions système guident directement le comportement du modèle. | Personnalisable pour la brand safety et la sécurité du contenu, peut être très efficace. | Le modèle peut halluciner ou ne pas suivre les instructions. Les pirates informatiques motivés peuvent toujours réussir à effectuer des jailbreaks et des injections de requêtes. | Applications ou agents nécessitant le respect de consignes spécifiques concernant la marque ou de règles de contenu nuancées. Si votre objectif est d'assurer la sécurité des contenus et de la marque, les instructions système doivent être associées à des filtres de contenu. |
DLP pour les listes de blocage personnalisées et la protection des données sensibles | L'API DLP peut inspecter du texte pour identifier et classer les informations sensibles en fonction d'un large éventail de détecteurs d'infoTypes prédéfinis et personnalisés. Une fois identifiées, il peut appliquer des techniques d'anonymisation telles que l'occultation, le masquage ou la tokenisation. L'API DLP peut également être utilisée pour bloquer des mots clés. Protection des entrées : avant d'envoyer des requêtes ou des données utilisateur à Gemini, vous pouvez transmettre le texte via l'API DLP pour masquer ou obscurcir toute information sensible. Cela empêche le modèle de traiter ou de consigner des données sensibles. Protection des résultats : si Gemini risque de générer ou de révéler par inadvertance des informations sensibles (par exemple, s'il résume des documents sources contenant des informations permettant d'identifier personnellement l'utilisateur), le résultat du modèle peut être analysé par l'API DLP avant d'être envoyé à l'utilisateur. | Filtrage performant des mots grossiers ou personnalisés. Filtrage robuste des données sensibles. | Ajoute de la latence. Cela peut entraîner un blocage excessif. | Protection contre la perte de données pour les agents ayant accès à des données sensibles. |
Gemini en tant que filtre | Vous pouvez utiliser Gemini pour filtrer les requêtes et les réponses de votre agent ou application. Pour ce faire, vous devez effectuer un deuxième appel à un modèle Gemini rapide et économique (comme Gemini Flash ou Flash Lite) afin d'évaluer si l'entrée d'un utilisateur ou d'un outil, ou la sortie de votre modèle Gemini principal, est sécurisée. Le modèle de filtre reçoit des instructions pour déterminer si le contenu est sûr ou non, en fonction des règles que vous avez définies, y compris la sécurité du contenu, la brand safety et le désalignement de l'agent. Cette solution offre une protection robuste et hautement personnalisable contre les cas de non-respect des règles de sécurité du contenu, les problèmes de brand safety, la dérive du modèle et les hallucinations. Elle peut analyser le texte, les images, les vidéos et l'audio pour une compréhension globale. | Très robuste et personnalisable pour la sécurité des contenus/marques, la dérive, les hallucinations et la compréhension multimodale. | Coûts et latence supplémentaires. Risque de faux négatifs extrêmement rares. | Fournir un niveau de sécurité personnalisé pour les applications ou agents destinés aux utilisateurs |
Approche multicouche : filtres configurables + instructions système + DLP + Gemini en tant que filtre | Très robuste et personnalisable pour la sécurité des contenus/marques, la dérive, les hallucinations ; compréhension multimodale | Coûts et latence supplémentaires. | Fournir un niveau de sécurité élevé pour les applications ou agents destinés aux utilisateurs, en particulier lorsque l'utilisation malveillante et contradictoire est attendue |
Évaluation continue de la sécurité
L'évaluation continue de la sécurité est essentielle pour les systèmes d'IA, car le paysage de l'IA et les méthodes d'utilisation abusive évoluent constamment. Des évaluations régulières permettent d'identifier les failles, d'évaluer l'efficacité des mesures d'atténuation, de s'adapter à l'évolution des risques, de s'assurer de la conformité avec les règles et les valeurs, de renforcer la confiance et de maintenir la conformité. Pour ce faire, différents types d'évaluations sont utilisés, y compris les évaluations de développement, les évaluations d'assurance, le red teaming, les évaluations externes et les tests comparatifs. Le champ d'évaluation doit couvrir la sécurité du contenu, la brand safety, la pertinence, les biais et l'équité, la véracité et la robustesse face aux attaques adversariales. Des outils tels que le service d'évaluation Gen AI de Vertex AI peuvent vous aider dans ces efforts, en soulignant que les améliorations itératives basées sur les résultats de l'évaluation sont essentielles pour un développement responsable de l'IA.