Esta página contém informações sobre os principais conceitos do Model Armor.
Modelos do Model Armor
Os modelos do Model Armor permitem configurar como ele exibe comandos e respostas. Eles funcionam como conjuntos de filtros personalizados e limites para diferentes níveis de confiança de segurança e segurança, permitindo o controle sobre o conteúdo sinalizado.
Os limites representam os níveis de confiança. Ou seja, a confiança do Model
Armor em relação ao comando ou à resposta que inclui conteúdo ofensivo. Por exemplo, é possível
criar um modelo que filtre comandos para conteúdo de ódio com um limite de HIGH
, o que significa que o Model Armor informa uma alta confiança de que o comando
contém conteúdo de ódio. Um limite de LOW_AND_ABOVE
indica qualquer nível de
confiança (LOW
, MEDIUM
e HIGH
) ao fazer essa afirmação.
Filtros do Model Armor
O Model Armor oferece vários filtros para ajudar você a fornecer modelos de IA seguros. Confira as categorias de filtro.
Filtro de segurança da IA responsável
As instruções e respostas podem ser analisadas nos níveis de confiança mencionados para as seguintes categorias:
Categoria | Definição |
---|---|
Discurso de ódio | Comentários negativos ou nocivos voltados à identidade e/ou atributos protegidos. |
Assédio | Comentários ameaçadores, intimidadores, abusivos ou violentos direcionados a outra pessoa |
Sexualmente explícito | Contém referências a atos sexuais ou outro conteúdo sexual. |
Conteúdo perigoso | Promove ou permite o acesso a produtos, serviços e atividades prejudiciais. |
O filtro de material de abuso sexual infantil (CSAM, na sigla em inglês) é aplicado por padrão e não pode ser desativado.
Detecção de jailbreak e injeção de comando
A injeção de comandos é uma vulnerabilidade de segurança em que os invasores criam comandos especiais na entrada de texto (o comando) para enganar um modelo de IA. Isso pode fazer com que a IA ignore as instruções usuais, revele informações sensíveis ou execute ações que não foi projetada para realizar. O jailbreak no contexto de LLMs se refere ao ato de contornar os protocolos de segurança e as diretrizes éticas integradas ao modelo. Isso permite que o LLM gere respostas que foram originalmente projetadas para evitar, como conteúdo nocivo, antiético e perigoso.
Quando a injeção de comando e a detecção de jailbreak estão ativadas, o Model Armor verifica comandos e respostas em busca de conteúdo malicioso. Se for detectado, o Model Armor vai bloquear a solicitação ou a resposta.
Proteção de dados sensíveis
Dados sensíveis, como o nome ou endereço de uma pessoa, podem ser enviados a um modelo ou fornecidos na resposta dele de forma intencional ou acidental.
A proteção de dados sensíveis é um Google Cloud serviço para ajudar a descobrir, classificar e desidentificar dados sensíveis. A Proteção de dados sensíveis pode identificar elementos, contexto e documentos sensíveis para ajudar a reduzir o risco de vazamento de dados para dentro e fora de cargas de trabalho de IA. É possível usar a Proteção de dados sensíveis diretamente no Model Armor para transformar, tokenizar e editar elementos sensíveis, mantendo o contexto não sensível. O Model Armor pode aceitar modelos de inspeção existentes, que são configurações que funcionam como modelos para simplificar o processo de verificação e identificação de dados sensíveis específicos para sua empresa e suas necessidades de compliance. Dessa forma, você pode ter consistência e interoperabilidade entre outras cargas de trabalho que usam a Proteção de dados sensíveis.
O Model Armor oferece dois modos de configuração da Proteção de Dados Sensíveis:
Configuração básica da proteção de dados sensíveis: esse modo oferece uma maneira mais simples de configurar a proteção de dados sensíveis especificando diretamente os tipos de dados sensíveis a serem verificados. Ele aceita seis categorias:
CREDIT_CARD_NUMBER
,US_SOCIAL_SECURITY_NUMBER
,FINANCIAL_ACCOUNT_NUMBER
,US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER
,GCP_CREDENTIALS
eGCP_API_KEY
. A configuração básica permite apenas operações de inspeção e não aceita o uso de modelos de proteção de dados sensíveis. Para mais informações, consulte Configuração básica da Proteção de dados sensíveis.Configuração avançada de proteção de dados sensíveis: esse modo oferece mais flexibilidade e personalização, permitindo o uso de modelos de proteção de dados sensíveis. Os modelos de proteção de dados sensíveis são configurações predefinidas que permitem especificar regras de detecção e técnicas de desidentificação mais detalhadas. A configuração avançada oferece suporte a operações de inspeção e desidentificação.
Embora os níveis de confiança possam ser definidos para a Proteção de dados sensíveis, eles funcionam de maneira um pouco diferente dos níveis de confiança para outros filtros. Para mais informações sobre os níveis de confiança da Proteção de dados sensíveis, consulte Probabilidade de correspondência da Proteção de dados sensíveis. Para mais informações sobre a Proteção de Dados Sensíveis em geral, consulte Visão geral da Proteção de Dados Sensíveis.
Detecção de URL malicioso
Os URLs maliciosos geralmente são disfarçados para parecerem legítimos, o que os torna uma ferramenta poderosa para ataques de phishing, distribuição de malware e outras ameaças on-line. Por exemplo, se um PDF tiver um URL malicioso incorporado, ele poderá ser usado para comprometer todos os sistemas downstream que processam saídas de LLM.
Quando a detecção de URL malicioso está ativada, o Model Armor verifica URLs para identificar se eles são maliciosos. Isso permite que você tome medidas e evite que URLs maliciosos sejam retornados.
Níveis de confiança do Model Armor
Os níveis de confiança podem ser definidos para categorias de segurança de IA responsável, como conteúdo sexualmente explícito, perigoso, assédio e discurso de ódio, injeção de comandos e jailbreak e proteção de dados sensíveis, incluindo atualidade.
Para níveis de confiança que permitem limites granulares, o Model Armor os interpreta da seguinte maneira:
- Alta: identifica se a mensagem tem conteúdo com alta probabilidade.
- Médio e acima: identifique se a mensagem tem conteúdo com probabilidade média ou alta.
- Baixa e acima: identifique se a mensagem tem conteúdo com probabilidade baixa, média ou alta.
Filtragem de PDF
O texto em PDFs pode incluir conteúdo malicioso e sensível. O Model Armor pode verificar PDFs em busca de segurança, tentativas de injeção de comando e jailbreak, dados sensíveis e URLs maliciosos.
Configurações do Model Armor Floor
Embora os modelos de proteção de modelos ofereçam flexibilidade para aplicativos individuais, as organizações geralmente precisam estabelecer um nível de proteção básico em todos os aplicativos de IA. É aqui que as configurações de piso do Model Armor são usadas. Elas funcionam como regras que determinam os requisitos mínimos para todos os modelos criados em um ponto específico da hierarquia de recursos Google Cloud , ou seja, no nível da organização, da pasta ou do projeto.
Para mais informações, consulte Configurações de piso do Model Armor.
A seguir
- Saiba mais sobre a visão geral do Model Armor.
- Saiba mais sobre os modelos do Model Armor.
- Saiba mais sobre as configurações de piso do Modelo Armor.
- Limpar comandos e respostas.
- Saiba mais sobre a geração de registros de auditoria do Model Armor.
- Resolver problemas do Model Armor.