Los modelos de IA generativa, como Gemini, requieren medidas de seguridad sólidas para mitigar riesgos como la generación de contenido dañino, la filtración de información sensible o el uso inadecuado. Google CloudLa plataforma Vertex AI proporciona un conjunto de herramientas y prácticas para implementar una seguridad integral en tus modelos de Gemini.
Posibles riesgos para la seguridad y estrategias de mitigación
Al implementar modelos de Gemini, es fundamental identificar y mitigar varios riesgos potenciales. Un enfoque proactivo para comprender estos riesgos permite implementar medidas de seguridad más eficaces. Es fundamental adoptar un enfoque de seguridad multicapa, ya que puede mitigar o evitar lo siguiente:
- Riesgos del contenido: pueden incluir contenido dañino, palabras malsonantes y sexualización, así como violencia y contenido sangriento.
- Riesgos para la seguridad de la marca: el contenido generado puede no ajustarse al tono o los valores de tu marca, puede promocionar a la competencia o productos inapropiados, o bien puede generar contenido que dañe la reputación.
- Riesgos de alineación: el contenido generado puede ser irrelevante o impreciso.
- Riesgos para la seguridad y la privacidad: el contenido generado puede filtrar datos o peticiones de entrenamiento sensibles, o bien usuarios malintencionados pueden intentar obligar al modelo a anular los protocolos de seguridad o a comportarse de forma no deseada.
Nuestros modelos implementados ofrecen varias funciones para abordar estos posibles problemas:
- El modelo predeterminado y los filtros no configurables proporcionan una red de seguridad general.
- Las instrucciones del sistema proporcionan directrices al modelo sobre el comportamiento y los temas que debe evitar.
- Los filtros de contenido te permiten definir umbrales específicos para los tipos de contenido dañino habituales.
- Gemini como filtro: ofrece un punto de control avanzado y personalizable para problemas de seguridad complejos o sutiles que podrían pasar desapercibidos para las capas anteriores o que requieren una evaluación más contextual.
- La DLP aborda específicamente el riesgo crítico de filtración de datos sensibles en caso de que el modelo tenga acceso a ellos. También permite crear listas de bloqueo personalizadas.
Herramientas de seguridad disponibles en Vertex AI para Gemini
Vertex AI ofrece varias herramientas para gestionar la seguridad de tus modelos de Gemini. Si sabes cómo funciona cada una, qué debes tener en cuenta y cuáles son los casos prácticos ideales, podrás crear una solución de seguridad personalizada.
Método | Cómo funciona | Protección proporcionada | Riesgos | Cuándo se puede utilizar |
---|---|---|---|---|
Configuración predeterminada: Gemini + filtros no configurables | Los modelos de Gemini se han diseñado teniendo en cuenta la seguridad y la imparcialidad, incluso cuando se enfrentan a peticiones adversarias. Google ha invertido en evaluaciones de seguridad exhaustivas, incluidas las de sesgos y toxicidad. La configuración predeterminada incluye una capa de protección independiente diseñada para evitar la generación de contenido relacionado con material de abuso sexual infantil o contenido protegido por derechos de autor (recitación). | Protección básica contra el material de abuso sexual infantil y los derechos de autor (recitación) | Es posible que la seguridad predeterminada de Gemini no satisfaga las necesidades de tu organización. El modelo puede tener alucinaciones o no seguir las instrucciones. Los atacantes motivados pueden conseguir jailbreaks e inyecciones de peticiones | Flujos de trabajo en los que no se espera ninguna entrada maliciosa |
Filtros configurables |
Los filtros de contenido predefinidos de Gemini proporcionan protección adicional contra varias categorías de contenido dañino, como el sexual, el que incite al odio, el que incluya acoso o el peligroso. Puedes configurar umbrales de bloqueo para cada categoría de contenido dañino
(por ejemplo, BLOCK_LOW_AND_ABOVE , BLOCK_MEDIUM_AND_ABOVE ,
BLOCK_ONLY_HIGH ) en función de la probabilidad o la gravedad del contenido
dañino. Se trata de una capa independiente del modelo, por lo que es resistente a los jailbreaks.
|
Sólido frente a las infracciones de categorías predefinidas y sensibilidad ajustable | No ofrece una personalización detallada más allá de los ajustes de umbral de las categorías predefinidas. Puede que, en ocasiones, bloquee contenido benigno (falsos positivos) o que no detecte contenido dañino (falsos negativos). Solo disponible para el filtrado de respuestas, no para el filtrado de peticiones. | Proporciona un nivel de seguridad básico para las aplicaciones o los agentes orientados a los usuarios. Si tu objetivo es garantizar la seguridad del contenido y de la marca, los filtros de contenido deben combinarse con instrucciones del sistema. |
Instrucciones del sistema | Puedes dar instrucciones al modelo sobre las directrices de seguridad de tu marca y de tu contenido mediante instrucciones del sistema o preámbulos. Por ejemplo, puedes decirle al modelo que no responda preguntas relacionadas con la política o que se ciña a directrices específicas sobre la voz y el tono de la marca. Las instrucciones del sistema guían directamente el comportamiento del modelo. | Se puede personalizar para proteger el contenido y la marca, por lo que puede ser muy eficaz. | El modelo puede alucinar o no seguir las instrucciones. Los atacantes motivados pueden seguir consiguiendo jailbreaks e inyecciones de peticiones | Aplicaciones o agentes que requieran cumplir directrices de marca específicas o políticas de contenido matizadas. Si tu objetivo es garantizar la seguridad del contenido y de la marca, las instrucciones del sistema deben combinarse con filtros de contenido. |
DLP para listas de bloqueo personalizadas y protección de datos sensibles | La API DLP puede inspeccionar texto para identificar y clasificar información sensible en función de una amplia gama de detectores de infoType predefinidos y personalizados. Una vez identificada, puede aplicar técnicas de desidentificación, como la ocultación, el enmascaramiento o la tokenización. La API DLP también se puede usar para bloquear palabras clave. Protección de las entradas: antes de enviar las peticiones o los datos de los usuarios a Gemini, puedes pasar el texto por la API DLP para redactar o enmascarar cualquier información sensible. De esta forma, se evita que el modelo procese o registre datos sensibles. Protección de la salida: si existe el riesgo de que Gemini pueda generar o revelar información sensible por error (por ejemplo, si resume documentos de origen que contienen información personal identificable), la API DLP puede analizar la salida del modelo antes de enviarla al usuario. | Filtro robusto de palabras malsonantes o palabras personalizadas. Filtrado sólido de datos sensibles. | Añade latencia. Puede provocar un bloqueo excesivo. | Protección contra la pérdida de datos para los agentes que tienen acceso a datos sensibles. |
Gemini como filtro | Puedes usar Gemini para filtrar las peticiones y las respuestas de tu agente o aplicación. Para ello, se hace una segunda llamada a un modelo de Gemini rápido y rentable (como Gemini Flash o Flash Lite) para evaluar si la entrada de un usuario o una herramienta, o la salida de tu modelo de Gemini principal, es segura. El modelo de filtro recibe instrucciones para decidir si el contenido es seguro o no seguro en función de las políticas que hayas definido, incluidas las de seguridad del contenido, seguridad de la marca y desalineación del agente. Ofrece una protección sólida y altamente personalizable frente a las infracciones de las políticas de seguridad del contenido, los problemas de seguridad de la marca, la deriva del modelo y las alucinaciones, y puede analizar texto, imágenes, vídeo y audio para ofrecer una visión integral. | Es muy sólida y se puede personalizar para proteger el contenido y la marca, así como para evitar desviaciones y alucinaciones. Comprensión multimodal. | Coste y latencia adicionales. Probabilidad de falsos negativos extremadamente raros. | Proporcionar un nivel de seguridad personalizado para las aplicaciones o los agentes orientados a los usuarios |
Estrategia de varias capas: filtros configurables + instrucciones del sistema + DLP + Gemini como filtro | Muy robusto y personalizable para la seguridad del contenido y de la marca, la deriva y las alucinaciones. Comprensión multimodal | Coste y latencia adicionales. | Proporcionar un nivel de seguridad sólido para las aplicaciones o los agentes orientados a los usuarios, especialmente cuando se prevea un uso malicioso o de adversario |
Evaluación de seguridad continua
La evaluación continua de la seguridad es fundamental para los sistemas de IA, ya que el panorama de la IA y los métodos de uso inadecuado evolucionan constantemente. Las evaluaciones periódicas ayudan a identificar vulnerabilidades, evaluar la eficacia de las medidas de mitigación, adaptarse a los riesgos cambiantes, asegurar la coherencia con las políticas y los valores, generar confianza y mantener el cumplimiento. Para ello, se utilizan varios tipos de evaluaciones, como las de desarrollo, las de garantía, las de equipo rojo, las externas y las pruebas de rendimiento. El ámbito de la evaluación debe abarcar la seguridad del contenido, la seguridad de la marca, la relevancia, los sesgos y la imparcialidad, la veracidad y la solidez frente a ataques adversarios. Herramientas como el servicio de evaluación de IA generativa de Vertex AI pueden ayudarte en estas tareas, ya que destacan que las mejoras iterativas basadas en los resultados de las evaluaciones son esenciales para desarrollar la IA de forma responsable.