Establece la configuración de seguridad para la API de PaLM

Filtros de seguridad configurables

Confianza del atributo de seguridad y puntuación de gravedad

El contenido procesado a través de la API de Vertex AI PaLM se evalúa en función de una lista de atributos de seguridad, que incluyen “categorías perjudiciales” y temas que pueden considerarse sensibles.

Cada atributo de seguridad tiene asociado una puntuación de confianza entre 0.0 y 1.0, redondeada a un decimal, que refleja la probabilidad de que la entrada o respuesta pertenezca a una categoría determinada.

Cuatro de estos atributos de seguridad (acoso, incitación al odio o a la violencia, contenido peligroso y contenido sexual explícito) reciben una calificación de seguridad (nivel de gravedad) y una puntuación de gravedad que varía de 0.0 a 1.0, redondeada a un decimal. Estas calificaciones y puntuaciones reflejan la gravedad prevista del contenido que pertenece a una categoría determinada.

Respuesta de muestra

{
  "predictions": [
    {
      "safetyAttributes": {
        "categories": [
          "Derogatory",
          "Toxic",
          "Violent",
          "Sexual",
          "Insult",
          "Profanity",
          "Death, Harm & Tragedy",
          "Firearms & Weapons",
          "Public Safety",
          "Health",
          "Religion & Belief",
          "Illicit Drugs",
          "War & Conflict",
          "Politics",
          "Finance",
          "Legal"
        ],
        "scores": [
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1
        ],
       "safetyRatings": [
          {"category": "Hate Speech", "severity": "NEGLIGIBLE", "severityScore": 0.0,"probabilityScore": 0.1},
          {"category": "Dangerous Content", "severity": "LOW", "severityScore": 0.3, "probabilityScore": 0.1},
          {"category": "Harassment", "severity": "MEDIUM", "severityScore": 0.6, "probabilityScore": 0.1},
          {"category": "Sexually Explicit", "severity": "HIGH", "severityScore": 0.9, "probabilityScore": 0.1}
       ],
        "blocked": false
      },
      "content": "<>"
    }
  ]
}

Nota: Las categorías con una puntuación que se redondea a 0.0 se omiten en la respuesta. Esta respuesta de muestra es solo con fines ilustrativos.

Respuesta de ejemplo cuando está bloqueada

{
  "predictions": [
    {
      "safetyAttributes": {
        "blocked": true,
        "errors": [
          150,
          152,
          250
        ]
      },
      "content": ""
    }
  ]
}

Descripciones de los atributos de seguridad

Atributo de seguridad Descripción
Contenido peyorativo Comentarios negativos o dañinos que se orientan a la identidad o los atributos protegidos.
Contenido tóxico Contenido grosero, irrespetuoso u obsceno.
Contenido sexual Incluye referencias a actos sexual o a otro contenido obsceno.
Contenido violento Describe situaciones que representen violencia contra una persona o un grupo, o descripciones generales de imágenes sangrientas.
Insultos Comentarios insultantes, provocadores o negativos hacia una persona o un grupo de personas.
Lenguaje obsceno Lenguaje obsceno o vulgar, como insultos.
Muerte, daños y tragedias Muertes de personas, tragedias, accidentes, catástrofes y autolesiones.
Armas de fuego y de otros tipos Contenido que menciona cuchillos, pistolas, armas personales y accesorios, como municiones, escasas, etcétera.
Seguridad pública Servicios y organizaciones que proporcionan asistencia y garantizan la seguridad pública.
Estado Salud humana, incluidos: problemas de salud, enfermedades y trastornos. terapias médicas, medicamentos, vacunación y prácticas médicas, recursos para sanar, incluidos los grupos de asistencia.
Religión y creencias Sistemas de creencias que se enfrentan a la posibilidad de leyes y seres sobre naturales; religión, fe, creencia, práctica espiritual, islas y lugares de culto. Incluye la astrología y el ocultismo.
Drogas ilegales Drogas ilegales y recreativas; parafernalia y cultivo de droga, headshops, etcétera. Incluye el uso medicinal de drogas que suelen consumirse con fines recreativos (p. ej., la marihuana).
Guerras y conflictos Problemas de conflicto, conflictos militares y militares que involucran una gran cantidad de personas. Incluye discusión de servicios militares, incluso si no están directamente relacionados con una guerra o un conflicto.
Finanzas Servicios financieros y para consumidores, como bancos, préstamos, crédito, inversiones, seguros, etcétera.
Política Noticias y medios de comunicación políticas; debates sobre políticas sociales, gubernamentales y públicas.
Legal Contenido relacionado con la ley, que incluye: corporaciones legales, información legal, materiales legales principales, servicios legales, publicaciones y tecnologías legales, testigos expertos, asesores de abogados y otros proveedores de servicios legales.

Atributos de seguridad con calificaciones de seguridad

Atributo de seguridad Definición Niveles
Incitación al odio o a la violencia Comentarios negativos o dañinos que se orientan a la identidad o los atributos protegidos. Alta, media, baja y despreciable
Acoso Comentarios maliciosos, intimidantes, de bullying o abusivos dirigidos a otra persona. Alta, media, baja y despreciable
Sexualmente explícito Incluye referencias a actos sexual o a otro contenido obsceno. Alta, media, baja y despreciable
Contenido peligroso Promueve o habilita el acceso a bienes, servicios y actividades perjudiciales. Alta, media, baja y despreciable

Umbrales de seguridad

Se implementaron umbrales de seguridad para los siguientes atributos de seguridad:

  • Incitación al odio o a la violencia
  • Acoso
  • Sexualmente explícito
  • Contenido peligroso

Google bloquea las respuestas del modelo que superan las puntuaciones de gravedad designadas para estos atributos de seguridad. Para solicitar la capacidad de modificar un umbral de seguridad, comunícate con el equipo de cuentas de Google Cloud.

Prueba tus umbrales de confianza y gravedad

Puedes probar los filtros de seguridad de Google y definir los umbrales de confianza adecuados para tu empresa. El uso de estos umbrales permite adoptar medidas exhaustivas para detectar contenidos que infrinjan las políticas de uso o las condiciones del servicio de Google y tomar las medidas adecuadas.

Las puntuaciones de confianza son solo predicciones y no debes depender de las puntuaciones para confiabilidad o precisión. Google no es responsable de interpretar ni usar estas puntuaciones para las decisiones empresariales.

Importante: Probabilidad y gravedad

A excepción de los cuatro atributos de seguridad con las calificaciones de seguridad, las puntuaciones de confianza de los filtros de seguridad de la API de PaLM se basan en la probabilidad de que el contenido sea inseguro y no en la gravedad. Es importante saber esto porque algunos contenidos pueden tener una baja probabilidad de ser inseguros, aunque la gravedad del daño pueda seguir siendo alta. Por ejemplo, comparemos las siguientes oraciones:

  1. El robot me golpeó.
  2. El robot me acuchilló.

La oración 1 podría tener una mayor probabilidad de ser insegura, pero podrías considerar que la oración 2 es de mayor gravedad en términos de violencia.

Ahora que entendemos esto, es importante que los clientes prueben y consideren con cuidado cuál es el nivel adecuado de bloqueo necesario para apoyar sus casos de uso clave, para así minimizar al mismo tiempo el daño a los usuarios finales.

Configuración de seguridad en Vertex AI Studio

Con el umbral de filtro de seguridad ajustable, puedes ajustar las probabilidades de que veas respuestas que podrían ser perjudiciales. Las respuestas del modelo se bloquean según la probabilidad de que incluya acoso, incitación al odio o a la violencia, contenido peligroso o contenido sexual explícito. La configuración del filtro de seguridad se encuentra en la parte derecha del campo de instrucción en Vertex AI Studio. Puedes elegir entre tres opciones: block most, block some y block few.

imagen de la consola

Filtro de citas

Nuestras funciones de código generativo están destinadas a producir contenido original y no a replicar en detalle el contenido que ya esté disponible. Diseñamos nuestros sistemas para limitar las posibilidades de que esto suceda y mejorar continuamente el funcionamiento de estos sistemas. Si estas funciones toman citas textuales de una página web, citan dicha página.

En ocasiones, es posible que se encuentre el mismo contenido en varias páginas web. Si eso ocurre, intentaremos dirigirlo a una fuente popular. En el caso de citas a repositorios de código, la cita también puede hacer referencia a una licencia de código abierto aplicable. Es su responsabilidad satisfacer los requisitos de las licencias.

Para obtener información acerca de los metadatos del filtro de citas, consulta la referencia de la API de citas.

Errores de seguridad

Los códigos de error de seguridad son códigos de tres dígitos que representan el motivo por el que se bloqueó una instrucción o respuesta. El primer dígito es un prefijo que indica si el código se aplica a la instrucción o la respuesta, y los dígitos restantes identifican el motivo por el que se bloqueó la instrucción o la respuesta. Por ejemplo, un código de error de 251 indica que la respuesta se bloqueó debido a un problema con contenido que incita al odio o a la violencia en la respuesta del modelo.

Se pueden mostrar varios códigos de error en una sola respuesta.

Si encuentras errores que bloquean el contenido en tu respuesta del modelo (prefijo = 2, por ejemplo, 250), ajusta la configuración temperature en tu solicitud. Esto ayuda a generar un conjunto diferente de respuestas con menos probabilidades de bloquearse.

Prefijo del código de error

El prefijo del código de error es el primer dígito del código de error.

1 El código de error se aplica a la instrucción enviada al modelo.
2 El código de error se aplica a la respuesta del modelo.

Motivo del código de error

El motivo del código de error corresponde al segundo y el tercer dígito del código de error.

Los motivos de los códigos de error que comienzan con 3 o 4 indican que las instrucciones o respuestas se bloquearon porque se alcanzó el umbral de confianza para un incumplimiento del atributo de seguridad.

Los motivos de los códigos de error que comienzan con 5 indican las instrucciones o las respuestas en las que se encontró contenido no seguro.

10

Se bloqueó la respuesta debido a un problema de calidad o una configuración de parámetros que afectaba a los metadatos de las citas. Esto se aplica solo a las respuestas del modelo. Es decir, 210.

El verificador de citas identifica problemas de calidad o derivados de una configuración de parámetros. Intenta aumentar los parámetros temperature, top-k o top-p para generar una respuesta diferente.

Para obtener más información, consulta Filtro de cita.

20 El idioma proporcionado o mostrado es no compatible. Para obtener una lista de los idiomas admitidos, consulta Idiomas admitidos.
30 Se bloqueó la instrucción o la respuesta porque se descubrió que puede ser dañina. Se incluye un término de la lista de términos bloqueados. Reformula tu instrucción.
31 El contenido puede incluir información de identificación personal sensible (IIPS). Reformula tu instrucción.
40 Se bloqueó la instrucción o la respuesta porque se descubrió que puede ser dañina. El contenido infringe la configuración de SafeSearch. Reformula tu instrucción.
50 Se bloqueó la solicitud o respuesta porque puede incluir contenido sexual explícito. Reformula tu instrucción.
51 Se bloqueó la solicitud o la respuesta porque puede incluir contenido que incite al odio o a la violencia. Reformula tu instrucción.
52 Se bloqueó la instrucción o la respuesta porque puede incluir contenido de acoso. Reformula tu instrucción.
53 Se bloqueó la instrucción o la respuesta porque puede incluir contenido peligroso. Reformula tu instrucción.
54 Se bloqueó la instrucción o la respuesta porque puede incluir contenido tóxico. Reformula tu instrucción.
00 Motivo desconocido. Reformula tu instrucción.

¿Qué sigue?