Los modelos de IA generativa, como Gemini, requieren medidas de seguridad sólidas para mitigar riesgos, como la generación de contenido dañino, la filtración de información sensible o el uso inadecuado. Google CloudLa plataforma de Vertex AI proporciona un conjunto de herramientas y prácticas para implementar una seguridad integral en tus modelos de Gemini.
Posibles riesgos de seguridad y estrategias de mitigación
Cuando implementes modelos de Gemini, es fundamental identificar y mitigar varios riesgos potenciales. Un enfoque proactivo para comprender estos riesgos permite implementar medidas de seguridad de manera más eficaz. Es fundamental adoptar un enfoque de seguridad de varias capas, ya que puede mitigar o prevenir lo siguiente:
- Riesgos de contenido: Pueden incluir contenido dañino, lenguaje obsceno y sexualización, y violencia y contenido sangriento.
- Riesgos de seguridad de la marca: Es posible que el contenido generado no se alinee con el tono o los valores de tu marca, que respalde a la competencia o a productos inadecuados, o que genere contenido que pueda dañar la reputación.
- Riesgos de alineación: El contenido generado puede ser irrelevante o impreciso.
- Riesgos de seguridad y privacidad: El contenido generado puede filtrar datos de entrenamiento o instrucciones sensibles, o bien los usuarios adversarios pueden intentar obligar al modelo a anular los protocolos de seguridad o comportarse de formas no deseadas.
Nuestros modelos implementados ofrecen varias funciones para abordar estos posibles problemas:
- El modelo predeterminado y los filtros no configurables proporcionan una red de seguridad general.
- Las instrucciones del sistema brindan orientación directa al modelo sobre el comportamiento y los temas preferidos que se deben evitar.
- Los filtros de contenido te permiten establecer umbrales específicos para los tipos de daño comunes.
- Gemini como filtro ofrece un punto de control avanzado y personalizable para problemas de seguridad complejos o sutiles que podrían pasar desapercibidos para las capas anteriores o requerir una evaluación más contextual.
- La DLP aborda específicamente el riesgo crítico de filtración de datos sensibles en caso de que el modelo tenga acceso a ellos. También permite crear listas de bloqueo personalizadas.
Herramientas de seguridad disponibles en Vertex AI para Gemini
Vertex AI ofrece varias herramientas para administrar la seguridad de tus modelos de Gemini. Comprender cómo funciona cada una, sus consideraciones y los casos de uso ideales te ayudará a crear una solución de seguridad personalizada.
Enfoque | Cómo funciona | Protección proporcionada | Riesgos | Cuándo usar |
---|---|---|---|---|
Configuración predeterminada: Gemini + filtros no configurables | Los modelos de Gemini se diseñan de forma inherente con la seguridad y la equidad en mente, incluso cuando se enfrentan a instrucciones adversarias. Google invirtió en evaluaciones de seguridad integrales, incluidas las de sesgo y toxicidad. La configuración predeterminada incluye una capa de protección independiente diseñada para evitar la generación de contenido relacionado con el material de abuso sexual infantil (CSAM) o el contenido protegido por derechos de autor (recitación). | Protección básica contra el material de abuso sexual infantil y los derechos de autor (recitación) | Es posible que la seguridad predeterminada de Gemini no satisfaga las necesidades de tu organización. El modelo puede alucinar o no seguir las instrucciones. Es posible que los atacantes motivados aún logren realizar jailbreaks y ataques de inyección de instrucciones | Workflows en los que no se espera ninguna entrada maliciosa |
Filtros configurables |
Los filtros de contenido prediseñados de Gemini proporcionan protección adicional contra varias categorías de contenido dañino, como el contenido sexual, el que incita al odio, el hostigamiento o el contenido peligroso. Puedes configurar umbrales de bloqueo para cada categoría de daño
(p.ej., BLOCK_LOW_AND_ABOVE , BLOCK_MEDIUM_AND_ABOVE , BLOCK_ONLY_HIGH ) según la probabilidad o la gravedad del contenido perjudicial. Son una capa independiente del modelo, por lo que son resistentes a las evasiones.
|
Es sólida ante los incumplimientos de las categorías predefinidas y tiene sensibilidad ajustable. | No ofrece una personalización detallada más allá de la configuración de umbrales para las categorías predefinidas. En ocasiones, puede bloquear contenido benigno (falsos positivos) o no detectar contenido dañino (falsos negativos). Solo está disponible para el filtrado de respuestas, no para el filtrado de instrucciones. | Proporcionar un nivel básico de seguridad para las aplicaciones o los agentes orientados al usuario Si tu objetivo es garantizar la seguridad de la marca y el contenido, los filtros de contenido deben combinarse con instrucciones del sistema. |
Instrucciones del sistema | Puedes indicarle al modelo tus lineamientos de seguridad de la marca y el contenido a través de instrucciones del sistema o preámbulos. Por ejemplo, puedes indicarle al modelo que "no responda preguntas relacionadas con la política" o que se ajuste a la voz de marca y el tono específicos. Las instrucciones del sistema guían directamente el comportamiento del modelo. | Se puede personalizar para la seguridad de la marca y del contenido, y puede ser muy eficaz. | El modelo puede alucinar o no seguir las instrucciones. Es posible que los atacantes motivados aún logren realizar jailbreaks y ataques de inyección de instrucciones | Aplicaciones o agentes que requieren el cumplimiento de lineamientos de desarrollo de la marca específicos o políticas de contenido detalladas. Si tu objetivo es garantizar la seguridad de la marca y el contenido, las instrucciones del sistema deben combinarse con filtros de contenido. |
DLP para listas de bloqueo personalizadas y protección de datos sensibles | La API de DLP puede inspeccionar texto para identificar y clasificar información sensible según una amplia variedad de detectores de Infotipo personalizados y predefinidos. Una vez que se identifica, se pueden aplicar técnicas de desidentificación, como ocultamiento, enmascaramiento o asignación de tokens. La API de DLP también se puede usar para bloquear palabras clave. Protección de entrada: Antes de enviar instrucciones o datos del usuario a Gemini, puedes pasar el texto por la API de DLP para ocultar o enmascarar cualquier información sensible. Esto evita que el modelo procese o registre datos sensibles. Protección de salida: Si existe el riesgo de que Gemini genere o revele información sensible de forma involuntaria (p.ej., si resume documentos fuente que contienen PII), la API de DLP puede analizar la salida del modelo antes de enviarla al usuario. | Filtrado sólido para palabras obscenas o personalizadas Filtrado sólido para datos sensibles. | Agrega latencia. Puede generar un bloqueo excesivo. | Protección contra la pérdida de datos para los agentes que tienen acceso a datos sensibles |
Gemini como filtro | Puedes usar Gemini para filtrar instrucciones y respuestas de tu agente o app. Esto implica realizar una segunda llamada a un modelo de Gemini rápido y rentable (como Gemini Flash o Flash Lite) para evaluar si la entrada de un usuario o una herramienta, o la salida de tu modelo principal de Gemini, es segura. El modelo de filtro recibe instrucciones para decidir si el contenido es seguro o inseguro según las políticas que definiste, incluidas la seguridad del contenido, la seguridad de la marca y la falta de alineación del agente. Ofrece protección sólida y altamente personalizable contra incumplimientos de la seguridad del contenido, problemas de seguridad de la marca, desviación del modelo y alucinaciones, y puede analizar texto, imágenes, video y audio para obtener una comprensión integral. | Es muy sólido y personalizable para la seguridad del contenido y la marca, la desviación, la alucinación y la comprensión multimodal. | Costo y latencia adicionales Hay una probabilidad de falsos negativos extremadamente baja. | Proporciona un nivel de seguridad personalizado para las aplicaciones o los agentes orientados al usuario |
Enfoque multicapa: filtros configurables + instrucciones del sistema + DLP + Gemini como filtro | Es altamente robusto y personalizable para la seguridad del contenido y la marca, la desviación, la alucinación y la comprensión multimodal. | Costo y latencia adicionales | Proporcionar un nivel sólido de seguridad para las aplicaciones o los agentes orientados al usuario, en especial cuando se espera un uso malicioso y hostil |
Evaluación continua de la seguridad
La evaluación continua de la seguridad es fundamental para los sistemas de IA, ya que el panorama de la IA y los métodos de uso inadecuado evolucionan constantemente. Las evaluaciones periódicas ayudan a identificar vulnerabilidades, evaluar la eficacia de la mitigación, adaptarse a los riesgos en evolución, garantizar la alineación con las políticas y los valores, generar confianza y mantener el cumplimiento. Para lograrlo, se utilizan varios tipos de evaluaciones, incluidas las de desarrollo, las de garantía, las pruebas de equipo rojo, las evaluaciones externas y las pruebas comparativas. El alcance de la evaluación debe abarcar la seguridad del contenido, la seguridad de la marca, la relevancia, el sesgo y la equidad, la veracidad y la solidez ante ataques adversarios. Herramientas como el servicio de evaluación de IA generativa de Vertex AI pueden ayudar en estos esfuerzos, y enfatizan que las mejoras iterativas basadas en los resultados de la evaluación son esenciales para el desarrollo IA responsable.