Model Armor es un Google Cloud servicio diseñado para mejorar la seguridad de tus aplicaciones de IA. Funciona analizando de forma proactiva las peticiones y respuestas de los LLMs, protegiendo frente a diversos riesgos y asegurando prácticas de IA responsables. Tanto si despliegas la IA en tu entorno de nube como si lo haces en proveedores de nube externos, Model Armor puede ayudarte a evitar entradas maliciosas, verificar la seguridad del contenido, proteger los datos sensibles, mantener el cumplimiento y aplicar tus políticas de seguridad de la IA de forma coherente en todo tu diverso panorama de IA.
Arquitectura
En este diagrama de arquitectura se muestra una aplicación que usa Model Armor
para proteger un LLM y un usuario. En los siguientes pasos se explica el flujo de datos.
- Un usuario proporciona una petición a la aplicación.
- Model Armor inspecciona la petición entrante para detectar contenido potencialmente sensible.
- La petición (o la petición anonimizada) se envía al LLM.
- El LLM genera una respuesta.
- Model Armor inspecciona la respuesta generada para detectar contenido potencialmente sensible.
- La respuesta (o la respuesta anonimizada) se envía al usuario. Model Armor envía una descripción detallada de los filtros activados y no activados en la respuesta.
Model Armor filtra tanto las entradas (peticiones) como las salidas (respuestas) para evitar que el LLM se exponga a contenido malicioso o sensible, o que lo genere.
Casos prácticos
Model Armor tiene varios casos prácticos en distintos sectores:
Seguridad
- Mitiga el riesgo de que se filtre propiedad intelectual (PI) sensible e información personal identificable (IPI) que se incluya en las peticiones o respuestas de los LLMs.
- Protégete frente a ataques de inyección de peticiones y jailbreaking, y evita que agentes maliciosos manipulen los sistemas de IA para que realicen acciones no deseadas.
- Analiza el texto de los PDFs para detectar contenido sensible o malicioso.
Seguridad e IA responsable
- Evita que tu chatbot recomiende soluciones de la competencia para mantener la integridad de la marca y la fidelidad de los clientes.
- Las organizaciones pueden filtrar las publicaciones en redes sociales generadas por su IA que contengan mensajes dañinos, como contenido peligroso o que incite al odio.
Plantillas de Model Armor
Las plantillas de Model Armor te permiten configurar cómo filtra Model Armor las peticiones y las respuestas. Funcionan como conjuntos de filtros y umbrales personalizados para diferentes niveles de confianza de seguridad, lo que permite controlar qué contenido se marca.
Los umbrales representan niveles de confianza, es decir, el grado de confianza de Model Armor en que la petición o la respuesta incluyen contenido infractor. Por ejemplo, puedes crear una plantilla que filtre las peticiones con contenido de incitación al odio con un umbral HIGH
, lo que significa que Model Armor informa de que tiene un nivel de confianza alto de que la petición
contiene contenido de incitación al odio. Un umbral de LOW_AND_ABOVE
indica cualquier nivel de confianza (LOW
, MEDIUM
y HIGH
) para hacer esa afirmación.
Para obtener más información, consulta Plantillas de Model Armor.
Niveles de confianza de Model Armor
Puedes definir niveles de confianza para las categorías de seguridad de la IA responsable (explícito sexualmente, peligroso, acoso y discurso de odio), la detección de inyección de peticiones y jailbreak, y la protección de datos sensibles (incluida la actualidad).
En los niveles de confianza que permiten umbrales granulares, Model Armor los interpreta de la siguiente manera:
- Alto: identifica si el mensaje tiene contenido con una probabilidad alta.
- Media o superior: identifica si el mensaje tiene contenido con una probabilidad media o alta.
- Bajo o superior: identifica si el mensaje tiene contenido con una probabilidad baja, media o alta.
Filtros de Model Armor
Model Armor ofrece varios filtros para ayudarte a proporcionar modelos de IA seguros. Están disponibles las siguientes categorías de filtros.
Filtro de seguridad de la IA responsable
Puedes filtrar las peticiones y las respuestas con los niveles de confianza mencionados anteriormente en las siguientes categorías:
Categoría | Definición |
---|---|
Incitación al odio | Comentarios negativos u ofensivos dirigidos a la identidad o a atributos protegidos. |
Acoso | Comentarios amenazantes, intimidatorios, acosadores o abusivos dirigidos a otra persona. |
Contenido sexual explícito | Incluye referencias a actos sexuales u otro contenido lascivo. |
Contenido peligroso | Promociona o permite el acceso a bienes, servicios y actividades perjudiciales. |
El filtro de material de abuso sexual infantil se aplica de forma predeterminada y no se puede desactivar.
Detección de inyección de peticiones y jailbreaking
La inyección de peticiones es una vulnerabilidad de seguridad en la que los atacantes elaboran comandos especiales en la entrada de texto (la petición) para engañar a un modelo de IA. Esto puede hacer que la IA ignore sus instrucciones habituales, revele información sensible o realice acciones para las que no se ha diseñado. El jailbreaking en el contexto de los LLMs se refiere a la acción de eludir los protocolos de seguridad y las directrices éticas integrados en el modelo. Esto permite que el LLM genere respuestas que se diseñaron originalmente para evitar, como contenido dañino, poco ético y peligroso.
Cuando se habilita la detección de inyección de peticiones y jailbreaking, Model Armor analiza las peticiones y las respuestas en busca de contenido malicioso. Si se detecta, Model Armor bloquea la petición o la respuesta.
Protección de datos sensibles
Protección de Datos Sensibles es un Google Cloud servicio que te ayuda a descubrir, clasificar y desidentificar datos sensibles. Protección de Datos Sensibles puede identificar elementos, contextos y documentos sensibles para ayudarte a reducir el riesgo de fuga de datos que entran y salen de las cargas de trabajo de IA. Puedes usar Protección de Datos Sensibles directamente en Model Armor para transformar, tokenizar y ocultar elementos sensibles, y conservar el contexto no sensible. Model Armor puede aceptar plantillas de inspección, que son configuraciones que actúan como planos para agilizar el proceso de análisis e identificación de datos sensibles específicos de tu empresa y de tus necesidades de cumplimiento. De esta forma, puedes mantener la coherencia y la interoperabilidad entre otras cargas de trabajo que usen Protección de Datos Sensibles.
Model Armor ofrece dos modos para configurar Protección de Datos Sensibles:
Configuración básica: en este modo, configuras Protección de Datos Sensibles especificando los tipos de datos sensibles que quieres buscar. Este modo admite las siguientes categorías:
- Número de tarjeta de crédito
- Número de la seguridad social de EE. UU. (SSN)
- Número de cuenta financiera
- Número de identificación fiscal individual (ITIN) de EE. UU.
- Google Cloud credenciales
- Google Cloud Clave de API
La configuración básica solo permite realizar operaciones de inspección y no admite el uso de plantillas de Protección de Datos Sensibles. Para obtener más información, consulta la configuración básica de Protección de Datos Sensibles.
Configuración avanzada: este modo ofrece más flexibilidad y personalización mediante plantillas de Protección de Datos Sensibles. Las plantillas de Protección de Datos Sensibles son configuraciones predefinidas que te permiten especificar reglas de detección y técnicas de desidentificación más detalladas. La configuración avanzada admite operaciones de inspección y desidentificación.
Los niveles de confianza de Protección de Datos Sensibles funcionan de forma ligeramente diferente a los de otros filtros. Para obtener más información sobre los niveles de confianza de la protección de datos sensibles, consulta Probabilidad de coincidencia de la protección de datos sensibles. Para obtener más información sobre Protección de Datos Sensibles en general, consulta el artículo Información general sobre Protección de Datos Sensibles.
Detección de URLs maliciosas
Las URLs maliciosas suelen disfrazarse para parecer legítimas, lo que las convierte en una herramienta potente para los ataques de phishing, la distribución de malware y otras amenazas online. Por ejemplo, si un PDF contiene una URL maliciosa insertada, se puede usar para poner en peligro cualquier sistema posterior que procese las salidas de LLM.
Cuando la detección de URLs maliciosas está habilitada, Model Armor analiza las URLs para identificar si son maliciosas. De esta forma, puedes tomar medidas y evitar que se devuelvan URLs maliciosas.
Define el tipo de cumplimiento
La medida define lo que ocurre después de que se detecte una infracción. Para configurar cómo gestiona Model Armor las detecciones, debes definir el tipo de aplicación. Model Armor ofrece los siguientes tipos de cumplimiento:
- Solo inspeccionar: inspecciona las solicitudes que infringen los ajustes configurados, pero no las bloquea.
- Inspeccionar y bloquear: bloquea las solicitudes que infringen los ajustes configurados.
Para usar Inspect only
de forma eficaz y obtener información valiosa, habilita Cloud Logging.
Si Cloud Logging no está habilitado, Inspect only
no proporcionará ninguna información útil.
Acceda a sus registros a través de Cloud Logging. Filtra por el nombre del servicio
modelarmor.googleapis.com
. Busca las entradas relacionadas con las operaciones que hayas habilitado en tu plantilla. Para obtener más información, consulta el artículo Ver registros con el Explorador de registros.
Configuración de la planta de Model Armor
Aunque las plantillas de Model Armor ofrecen flexibilidad para aplicaciones concretas, las organizaciones suelen necesitar establecer un nivel de protección básico en todas sus aplicaciones de IA. Aquí es donde se usan los ajustes de Model Armor. Actúan como reglas que definen los requisitos mínimos de todas las plantillas creadas en un punto específico de la jerarquía de recursos (es decir, a nivel de organización, carpeta o proyecto). Google Cloud
Para obtener más información, consulta Configuración de la planta de Model Armor.
Idiomas disponibles
Los filtros de Model Armor permiten desinfectar peticiones y respuestas en varios idiomas.
- El filtro Protección de Datos Sensibles admite inglés y otros idiomas en función de los infoTypes que hayas seleccionado.
Los filtros de IA responsable y detección de inyección de peticiones y jailbreak se han probado en los siguientes idiomas:
- Chino (mandarín)
- Inglés
- Francés
- Alemán
- Italiano
- Japonés
- Coreano
- Portugués
- Español
Estos filtros pueden funcionar en muchos otros idiomas, pero la calidad de los resultados puede variar. Para ver los códigos de idioma, consulta Idiomas admitidos.
Hay dos formas de habilitar la detección de varios idiomas:
Habilitar en cada solicitud: para tener un control granular, habilita la detección multilingüe en cada solicitud al sanear una petición de usuario y al sanear una respuesta del modelo.
Habilitar una sola vez: si prefieres una configuración más sencilla, puedes habilitar la detección multilingüe como configuración única a nivel de plantilla de Model Armor mediante la API REST. Para obtener más información, consulta Crear una plantilla de Model Armor.
Revisión de documentos
El texto de los documentos puede incluir contenido sensible y malicioso. Model Armor puede analizar los siguientes tipos de documentos para detectar si son seguros, si se ha intentado inyectar peticiones o hacer jailbreaking, si contienen datos sensibles o si incluyen URLs maliciosas:
- CSV
- Archivos de texto: TXT
- Documentos de Microsoft Word: DOCX, DOCM, DOTX y DOTM
- Diapositivas de Microsoft PowerPoint: PPTX, PPTM, POTX, POTM y POT
- Hojas de Microsoft Excel: XLSX, XLSM, XLTX y XLTM
Model Armor rechaza las solicitudes para analizar archivos con formato de texto enriquecido que tengan un tamaño de 50 bytes o menos, ya que es muy probable que no sean válidos.
Precios
Model Armor se puede comprar como parte integrada de Security Command Center o como servicio independiente. Para obtener información sobre los precios, consulta los precios de Security Command Center.
Tokens
Los modelos de IA generativa desglosan el texto y otros datos en unidades llamadas tokens. Model Armor usa el número total de tokens en las peticiones y respuestas de la IA para calcular los precios. Model Armor limita el número de tokens procesados en cada petición y respuesta.
Model Armor tiene límites de tokens diferentes en función del filtro específico.
Cuando la petición o la respuesta superan el límite de tokens, el filtro de Protección de Datos Sensibles devuelve EXECUTION_SKIPPED
. En el caso de los demás filtros, si la petición o la respuesta superan el límite de tokens, se devuelve MATCH_FOUND
si se encuentra contenido malicioso y EXECUTION_SKIPPED
si no se encuentra contenido malicioso.
Filtro | Límite de tokens |
---|---|
Detección de inyección de peticiones y jailbreaking | 10.000 |
IA responsable | 10.000 |
Material de abuso sexual infantil | 10.000 |
Protección de Datos Sensibles | Hasta 130.000 |
Siguientes pasos
- Consulta información sobre las plantillas de Model Armor.
- Consulta información sobre los ajustes mínimos de Model Armor.
- Consulta información sobre los endpoints de Model Armor.
- Desinfecta las peticiones y las respuestas.
- Consulta información sobre los registros de auditoría de Model Armor.
- Solucionar problemas de Model Armor