En esta página se ofrece información sobre los conceptos clave de Model Armor.
Plantillas de Model Armor
Las plantillas de Model Armor te permiten configurar cómo filtra Model Armor las peticiones y las respuestas. Funcionan como conjuntos de filtros y umbrales personalizados para diferentes niveles de confianza de seguridad, lo que permite controlar qué contenido se marca.
Los umbrales representan niveles de confianza. Es decir, el grado de confianza de Model Armor
en que la petición o la respuesta incluyan contenido infractor. Por ejemplo, puedes crear una plantilla que filtre las peticiones con contenido de incitación al odio con un umbral HIGH
, lo que significa que Model Armor informa de que tiene un nivel de confianza alto de que la petición
contiene contenido de incitación al odio. Un umbral de LOW_AND_ABOVE
indica cualquier nivel de confianza (LOW
, MEDIUM
y HIGH
) para hacer esa afirmación.
Filtros de Model Armor
Model Armor ofrece varios filtros para ayudarte a proporcionar modelos de IA seguros. A continuación, se desglosan las categorías de filtros.
Filtro de seguridad de la IA responsable
Las peticiones y las respuestas se pueden filtrar en los niveles de confianza mencionados anteriormente para las siguientes categorías:
Categoría | Definición |
---|---|
Incitación al odio | Comentarios negativos u ofensivos dirigidos a la identidad o a atributos protegidos. |
Acoso | Comentarios amenazantes, intimidatorios, acosadores o abusivos dirigidos a otra persona. |
Contenido sexual explícito | Incluye referencias a actos sexuales u otro contenido lascivo. |
Contenido peligroso | Promociona o permite el acceso a bienes, servicios y actividades perjudiciales. |
El filtro de material de abuso sexual infantil se aplica de forma predeterminada y no se puede desactivar.
Detección de inyección de peticiones y jailbreaking
La inyección de peticiones es una vulnerabilidad de seguridad en la que los atacantes elaboran comandos especiales en la entrada de texto (la petición) para engañar a un modelo de IA. Esto puede hacer que la IA ignore sus instrucciones habituales, revele información sensible o realice acciones para las que no se ha diseñado. El jailbreaking en el contexto de los LLMs se refiere a la acción de eludir los protocolos de seguridad y las directrices éticas integrados en el modelo. Esto permite que el LLM genere respuestas que se diseñaron originalmente para evitar, como contenido dañino, poco ético y peligroso.
Cuando se habilita la detección de inyección de peticiones y jailbreaking, Model Armor analiza las peticiones y las respuestas en busca de contenido malicioso. Si se detecta, Model Armor bloquea la petición o la respuesta.
Protección de datos sensibles
Es posible que se envíen datos sensibles, como el nombre o la dirección de una persona, a un modelo o que se proporcionen en la respuesta de un modelo de forma inadvertida o intencionada.
Protección de Datos Sensibles es un Google Cloud servicio que te ayuda a descubrir, clasificar y desidentificar datos sensibles. Protección de Datos Sensibles puede identificar elementos, contexto y documentos sensibles para ayudarte a reducir el riesgo de fuga de datos que entran y salen de las cargas de trabajo de IA. Puedes usar Protección de datos sensibles directamente en Model Armor para transformar, tokenizar y ocultar elementos sensibles, al tiempo que conservas el contexto no sensible. Model Armor puede aceptar plantillas de inspección, que son configuraciones que actúan como planos para agilizar el proceso de análisis e identificación de datos sensibles específicos de tu empresa y de tus necesidades de cumplimiento. De esta forma, puedes mantener la coherencia y la interoperabilidad entre otras cargas de trabajo que usen Protección de Datos Sensibles.
Model Armor ofrece dos modos para configurar Protección de Datos Sensibles:
Configuración básica de Protección de Datos Sensibles: este modo ofrece una forma más sencilla de configurar Protección de Datos Sensibles especificando directamente los tipos de datos sensibles que se deben buscar. Admite seis categorías:
CREDIT_CARD_NUMBER
,US_SOCIAL_SECURITY_NUMBER
,FINANCIAL_ACCOUNT_NUMBER
,US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER
,GCP_CREDENTIALS
yGCP_API_KEY
. La configuración básica solo permite realizar operaciones de inspección y no admite el uso de plantillas de Protección de Datos Sensibles. Para obtener más información, consulta la configuración básica de Protección de Datos Sensibles.Configuración avanzada de Protección de Datos Sensibles: este modo ofrece más flexibilidad y personalización, ya que permite usar plantillas de Protección de Datos Sensibles. Las plantillas de Protección de Datos Sensibles son configuraciones predefinidas que te permiten especificar reglas de detección y técnicas de desidentificación más detalladas. La configuración avanzada admite operaciones de inspección y desidentificación.
Aunque se pueden definir niveles de confianza para Protección de Datos Sensibles, funcionan de forma ligeramente diferente a los niveles de confianza de otros filtros. Para obtener más información sobre los niveles de confianza de la protección de datos sensibles, consulta Probabilidad de coincidencia de la protección de datos sensibles. Para obtener más información sobre Protección de Datos Sensibles en general, consulta el artículo Información general sobre Protección de Datos Sensibles.
Detección de URLs maliciosas
Las URLs maliciosas suelen disfrazarse para parecer legítimas, lo que las convierte en una herramienta potente para los ataques de phishing, la distribución de malware y otras amenazas online. Por ejemplo, si un PDF contiene una URL maliciosa insertada, se puede usar para poner en peligro cualquier sistema posterior que procese las salidas de LLM.
Cuando la detección de URLs maliciosas está habilitada, Model Armor analiza las URLs para identificar si son maliciosas. De esta forma, puedes tomar medidas y evitar que se devuelvan URLs maliciosas.
Niveles de confianza de Model Armor
Se pueden definir niveles de confianza para las categorías de seguridad de la IA responsable (es decir, contenido sexual explícito, contenido peligroso, acoso y discurso de odio), la inyección de peticiones y el jailbreak, y la protección de datos sensibles (incluida la actualidad).
En los niveles de confianza que permiten umbrales granulares, Model Armor los interpreta de la siguiente manera:
- Alto: identifica si el mensaje tiene contenido con una probabilidad alta.
- Medio o superior: identifica si el mensaje incluye contenido con una probabilidad media o alta.
- Bajo o superior: identifica si el mensaje tiene contenido con una probabilidad baja, media o alta.
Define el tipo de cumplimiento
La medida define lo que ocurre después de que se detecte una infracción. Para configurar cómo gestiona Model Armor las detecciones, debes definir el tipo de aplicación. Model Armor ofrece los siguientes tipos de cumplimiento:
- Solo inspeccionar: inspecciona las solicitudes que infringen los ajustes configurados, pero no las bloquea.
- Inspeccionar y bloquear: bloquea las solicitudes que infringen los ajustes configurados.
Para usar Inspect only
de forma eficaz y obtener información valiosa, habilita Cloud Logging.
Si Cloud Logging no está habilitado, Inspect only
no proporcionará ninguna información útil.
Acceda a sus registros a través de Cloud Logging. Filtra por el nombre del servicio
modelarmor.googleapis.com
. Busca las entradas relacionadas con las operaciones que hayas habilitado en tu plantilla. Para obtener más información, consulta el artículo Ver registros con el Explorador de registros.
Revisión de PDF
El texto de los PDFs puede incluir contenido sensible y malicioso. Model Armor puede analizar PDFs para detectar si son seguros, si se ha intentado inyectar peticiones o hacer jailbreak, si contienen datos sensibles o si incluyen URLs maliciosas.
Configuración de la planta de Model Armor
Aunque las plantillas de Model Armor ofrecen flexibilidad para aplicaciones concretas, las organizaciones suelen necesitar establecer un nivel de protección básico en todas sus aplicaciones de IA. Aquí es donde se usan los ajustes de Model Armor. Actúan como reglas que determinan los requisitos mínimos de todas las plantillas creadas en un punto específico de la jerarquía de recursos (es decir, a nivel de organización, carpeta o proyecto). Google Cloud
Para obtener más información, consulta Configuración de la planta de Model Armor.
Siguientes pasos
- Consulta la descripción general de Model Armor.
- Consulta información sobre las plantillas de Model Armor.
- Consulta información sobre los ajustes mínimos de Model Armor.
- Desinfecta las peticiones y las respuestas.
- Consulta información sobre los registros de auditoría de Model Armor.
- Solucionar problemas de Model Armor