Conceptos clave

En esta página, se proporciona información sobre los conceptos clave de la protección de modelos.

Plantillas de Model Armor

Las plantillas de Model Armor te permiten configurar cómo este servicio analiza las instrucciones y las respuestas. Funcionan como conjuntos de filtros y umbrales personalizados para diferentes niveles de confianza de seguridad, lo que permite controlar el contenido que se marca.

Los umbrales representan los niveles de confianza. Es decir, qué tan seguro está Model Armor de que la instrucción o la respuesta incluyen contenido ofensivo. Por ejemplo, puedes crear una plantilla que filtre instrucciones de contenido con incitación al odio con un umbral de HIGH, lo que significa que Model Armor informa con alta confianza que la instrucción contiene contenido con incitación al odio. Un umbral de LOW_AND_ABOVE indica cualquier nivel de confianza (LOW, MEDIUM y HIGH) para realizar esa afirmación.

Filtros de Model Armor

Model Armor ofrece una variedad de filtros para ayudarte a proporcionar modelos de IA seguros. A continuación, se muestra un desglose de las categorías de filtros.

Filtro de seguridad de IA responsable

Las instrucciones y las respuestas se pueden analizar en los niveles de confianza mencionados anteriormente para las siguientes categorías:

Categoría Definición
Incitación al odio o a la violencia Comentarios negativos o dañinos que se orientan a la identidad o los atributos protegidos.
Acoso Comentarios amenazantes, intimidantes, de bullying o abusivos dirigidos a otra persona.
Sexualmente explícito Incluye referencias a actos sexual o a otro contenido obsceno.
Contenido peligroso Promueve o habilita el acceso a bienes, servicios y actividades perjudiciales.

El filtro de material de abuso sexual infantil (CSAM) se aplica de forma predeterminada y no se puede desactivar.

Detección de inyección de instrucciones y jailbreak

La inyección de instrucciones es una vulnerabilidad de seguridad en la que los atacantes crean comandos especiales en la entrada de texto (la instrucción) para engañar a un modelo de IA. De este modo, la IA podría pasar por alto sus instrucciones habituales, revelar información sensible o realizar acciones para las que no se diseñó. El jailbreak en el contexto de los LLM se refiere al acto de omitir los protocolos de seguridad y los lineamientos éticos que están integrados en el modelo. Esto permite que el LLM genere respuestas que se diseñaron originalmente para evitar, como contenido dañino, poco ético y peligroso.

Cuando se habilita la detección de inyección de instrucciones y jailbreak, Model Armor analiza las instrucciones y las respuestas en busca de contenido malicioso. Si se detecta, Model Armor bloquea la instrucción o la respuesta.

Protección de datos sensibles

Los datos sensibles, como el nombre o la dirección de una persona, se pueden enviar a un modelo o proporcionar en la respuesta de un modelo de forma involuntaria o intentional.

La Protección de datos sensibles es un Google Cloud servicio que te ayuda a descubrir, clasificar y desidentificar datos sensibles. Sensitive Data Protection puede identificar elementos, contexto y documentos sensibles para ayudarte a reducir el riesgo de filtración de datos que entran y salen de las cargas de trabajo de IA. Puedes usar la Protección de datos sensibles directamente en Model Armor para transformar, asignar tokens y ocultar elementos sensibles y, al mismo tiempo, conservar el contexto no sensible. Model Armor puede aceptar plantillas de inspección existentes, que son configuraciones que actúan como planos para optimizar el proceso de análisis y la identificación de datos sensibles específicos de tu empresa y tus necesidades de cumplimiento. De esta manera, puedes tener coherencia e interoperabilidad entre otras cargas de trabajo que usan la Protección de datos sensibles.

Model Armor ofrece dos modos para la configuración de Sensitive Data Protection:

  • Configuración básica de la protección de datos sensibles: Este modo proporciona una forma más simple de configurar la protección de datos sensibles, ya que especifica directamente los tipos de datos sensibles que se deben analizar. Admite seis categorías, que son CREDIT_CARD_NUMBER, US_SOCIAL_SECURITY_NUMBER, FINANCIAL_ACCOUNT_NUMBER, US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER, GCP_CREDENTIALS y GCP_API_KEY. La configuración básica solo permite operaciones de inspección y no es compatible con el uso de plantillas de Sensitive Data Protection. Para obtener más información, consulta Configuración básica de la Protección de datos sensibles.

  • Configuración avanzada de Protección de datos sensibles: Este modo ofrece más flexibilidad y personalización, ya que permite el uso de plantillas de Protección de datos sensibles. Las plantillas de Protección de datos sensibles son configuraciones predefinidas que te permiten especificar reglas de detección y técnicas de desidentificación más detalladas. La configuración avanzada admite operaciones de inspección y desidentificación.

Si bien se pueden establecer niveles de confianza para la Protección de datos sensibles, estos funcionan de una manera ligeramente diferente a los niveles de confianza de otros filtros. Para obtener más información sobre los niveles de confianza de la protección de datos sensibles, consulta Probabilidad de coincidencia de la protección de datos sensibles. Para obtener más información sobre Sensitive Data Protection en general, consulta la descripción general de Sensitive Data Protection.

Detección de URLs maliciosas

Las URLs maliciosas suelen disfrazarse para parecer legítimas, lo que las convierte en una herramienta potente para ataques de phishing, distribución de software malicioso y otras amenazas en línea. Por ejemplo, si un PDF contiene una URL maliciosa incorporada, se puede usar para vulnerar cualquier sistema downstream que procese los resultados de LLM.

Cuando se habilita la detección de URLs maliciosas, Model Armor analiza las URLs para identificar si son maliciosas. Esto te permite tomar medidas y evitar que se muestren URLs maliciosas.

Niveles de confianza de Model Armor

Se pueden establecer niveles de confianza para las categorías de seguridad de IA responsable (es decir, contenido sexual explícito, peligroso, acoso y lenguaje de odio), inserción de instrucciones y jailbreak, y protección de datos sensibles (incluida la actualidad).

En el caso de los niveles de confianza que permiten umbrales detallados, Model Armor los interpreta de la siguiente manera:

  • Alta: Identifica si el mensaje tiene contenido con una probabilidad alta.
  • Medio y superior: Identifica si el mensaje tiene contenido con una probabilidad media o alta.
  • Baja y superior: Identifica si el mensaje tiene contenido con una probabilidad baja, media o alta.

Verificación de PDF

El texto de los archivos PDF puede incluir contenido malicioso y sensible. Model Armor puede analizar archivos PDF para verificar la seguridad, la inyección de instrucciones y los intentos de jailbreak, los datos sensibles y las URLs maliciosas.

Configuración del piso de Model Armor

Si bien las plantillas de Model Armor proporcionan flexibilidad para aplicaciones individuales, a menudo las organizaciones deben establecer un nivel de protección de referencia en todas sus aplicaciones de IA. Aquí es donde se usa la configuración de piso de Model Armor. Actúan como reglas que dictan los requisitos mínimos para todas las plantillas creadas en un punto específico de la jerarquía de recursos Google Cloud (es decir, a nivel de una organización, una carpeta o un proyecto).

Para obtener más información, consulta Configuración del límite inferior de Model Armor.

¿Qué sigue?