Os modelos de IA generativa, como o Gemini, exigem medidas de segurança robustas para reduzir riscos, como geração de conteúdo nocivo, vazamento de informações sensíveis ou uso indevido.A plataforma Vertex AI do Google Cloudoferece um conjunto de ferramentas e práticas para implementar a segurança holística dos seus modelos do Gemini.
Possíveis riscos à segurança e estratégias de redução
Ao implantar modelos do Gemini, é fundamental identificar e mitigar vários riscos potenciais. Uma abordagem proativa para entender esses riscos permite uma implementação mais eficaz de medidas de segurança. Uma abordagem de segurança em várias camadas é essencial, porque pode mitigar ou evitar:
- Riscos de conteúdo:podem incluir conteúdo nocivo, linguagem obscena e sexualização, além de violência e imagens sangrentas.
- Riscos de brand safety:o conteúdo gerado pode não estar alinhado com o tom ou os valores da sua marca, pode endossar concorrentes ou produtos inadequados ou gerar conteúdo que pode resultar em danos à reputação.
- Riscos de alinhamento:o conteúdo gerado pode ser irrelevante ou impreciso.
- Riscos de segurança e privacidade:o conteúdo gerado pode vazar dados ou comandos sensíveis de treinamento, ou usuários mal-intencionados podem tentar forçar o modelo a substituir protocolos de segurança ou se comportar de maneiras não intencionais.
Nossos modelos implantados oferecem vários recursos para resolver esses problemas em potencial:
- O modelo padrão e os filtros não configuráveis oferecem uma proteção geral.
- As instruções do sistema fornecem orientação direta ao modelo sobre o comportamento preferido e os temas a evitar.
- Com os filtros de conteúdo, é possível definir limites específicos para tipos comuns de danos.
- O Gemini como um filtro oferece um ponto de verificação avançado e personalizável para problemas de segurança complexos ou sutis que podem passar despercebidos pelas camadas anteriores ou exigir uma avaliação mais contextualizada.
- A DLP aborda especificamente o risco crítico de vazamento de dados sensíveis, caso o modelo tenha acesso a eles. Também é possível criar listas de bloqueio personalizadas.
Ferramentas de segurança disponíveis na Vertex AI para o Gemini
A Vertex AI oferece várias ferramentas para gerenciar a segurança dos seus modelos do Gemini. Entender como cada uma funciona, as considerações e os casos de uso ideais vai ajudar você a criar uma solução de segurança personalizada.
abordagem | Como funciona | Proteção fornecida | Riscos | Quando usar |
---|---|---|---|---|
Configurações padrão: Gemini + filtros não configuráveis | Os modelos do Gemini são projetados com foco na segurança e na imparcialidade, mesmo quando recebem comandos adversários. O Google investiu em avaliações de segurança abrangentes, incluindo vieses e toxicidade. As configurações padrão incluem uma camada de proteção independente projetada para evitar a geração de conteúdo relacionado a material de abuso sexual infantil (CSAM) ou conteúdo protegido por direitos autorais (recitação). | Proteção básica contra material de abuso sexual infantil e direitos autorais (recitação) | A segurança padrão do Gemini pode não atender às necessidades da sua organização. O modelo pode alucinar ou não seguir instruções. Ainda é possível que invasores motivados consigam fazer jailbreaks e injeções de comandos. | Fluxos de trabalho em que não é esperado nenhum input malicioso |
Filtros configuráveis |
Os filtros de conteúdo pré-criados do Gemini oferecem proteção extra contra várias categorias de conteúdo nocivo, como sexual, de ódio, de assédio ou perigoso. É possível configurar limites de bloqueio para cada categoria de dano
(por exemplo, BLOCK_LOW_AND_ABOVE , BLOCK_MEDIUM_AND_ABOVE , BLOCK_ONLY_HIGH ) com base na probabilidade e/ou gravidade do conteúdo
nocivo. Eles são uma camada independente do modelo e, portanto, são robustos contra
jailbreaks.
|
Resistente a violações de categorias predefinidas, sensibilidade ajustável | Não tem personalização detalhada além das configurações de limite para categorias predefinidas. Pode bloquear conteúdo benigno (falsos positivos) ou não detectar conteúdo nocivo (falsos negativos). Disponível apenas para filtragem de respostas, não de comandos. | Oferecer um nível básico de segurança para aplicativos ou agentes voltados ao usuário. Se a meta for garantir a segurança do conteúdo e da marca, os filtros de conteúdo precisam ser combinados com instruções do sistema. |
Instruções do sistema | Você pode instruir o modelo sobre as diretrizes de segurança da marca e do conteúdo usando instruções do sistema ou preâmbulos. Por exemplo, você pode dizer ao modelo "não responda a perguntas relacionadas à política" ou para seguir diretrizes específicas de voz e tom da marca. As instruções do sistema orientam diretamente o comportamento do modelo. | Personalizável para brand safety e segurança de conteúdo, pode ser altamente eficaz. | O modelo pode alucinar ou não seguir instruções. Ainda é possível que invasores motivados consigam fazer jailbreaks e injeções de comandos. | Aplicativos ou agentes que precisam seguir diretrizes de marca específicas ou políticas de conteúdo detalhadas. Se a meta for garantir a segurança do conteúdo e da marca, as instruções do sistema deverão ser combinadas com filtros de conteúdo. |
DLP para listas de bloqueio personalizadas e proteção de dados sensíveis | A API DLP pode inspecionar texto para identificar e classificar informações sensíveis com base em uma ampla variedade de detectores de infoType predefinidos e personalizados. Depois de identificados, é possível aplicar técnicas de desidentificação, como encobrimento, mascaramento ou tokenização. A API DLP também pode ser usada para bloquear palavras-chave. Proteção de entrada: antes de enviar comandos ou dados do usuário para o Gemini, passe o texto pela API DLP para editar ou mascarar informações sensíveis. Isso evita que dados sensíveis sejam processados ou registrados pelo modelo. Proteção de saída: se houver risco de o Gemini gerar ou revelar informações sensíveis sem querer (por exemplo, se ele estiver resumindo documentos de origem que contenham PII), a saída do modelo poderá ser verificada pela API DLP antes de ser enviada ao usuário. | Filtragem robusta de palavrões ou palavras personalizadas. Filtragem robusta de dados sensíveis. | Adiciona latência. Pode levar ao bloqueio excessivo. | Proteção contra perda de dados para agentes que têm acesso a dados sensíveis. |
Gemini como um filtro | Você pode usar o Gemini para filtrar comandos e respostas do seu agente ou app. Isso envolve fazer uma segunda chamada para um modelo do Gemini rápido e econômico (como o Gemini Flash ou o Flash Lite) para avaliar se a entrada de um usuário ou ferramenta, ou a saída do seu modelo principal do Gemini, é segura. O modelo de filtro recebe instruções para decidir se o conteúdo é seguro ou não com base nas políticas definidas, incluindo segurança de conteúdo, segurança da marca e desalinhamento do agente. Isso oferece proteção robusta e altamente personalizável contra violações de segurança de conteúdo, problemas de brand safety, deriva do modelo e alucinações, além de analisar texto, imagens, vídeo e áudio para uma compreensão holística. | Altamente robusto e personalizável para segurança de conteúdo/marca, desvio, alucinação e compreensão multimodal. | Custo e latência extras. Chance de falsos negativos extremamente raros. | Oferecer um nível personalizado de segurança para aplicativos ou agentes voltados ao usuário |
Abordagem de várias camadas: filtros configuráveis + instruções do sistema + DLP + Gemini como um filtro | Altamente robusto e personalizável para segurança de conteúdo/marca, desvio, alucinação e compreensão multimodal | Custo e latência extras. | Oferecer um nível robusto de segurança para aplicativos ou agentes voltados ao usuário, especialmente quando o uso malicioso e adversário é esperado |
Avaliação contínua de segurança
A avaliação contínua da segurança é crucial para os sistemas de IA, já que o cenário da IA e os métodos de uso indevido estão em constante evolução. As avaliações regulares ajudam a identificar vulnerabilidades, avaliar a eficácia da mitigação, se adaptar a riscos em evolução, garantir o alinhamento com políticas e valores, gerar confiança e manter a conformidade. Vários tipos de avaliação, incluindo avaliações de desenvolvimento, de garantia, de equipe vermelha, externas e testes de comparativo de mercado, ajudam a alcançar esse objetivo. O escopo da avaliação precisa abranger segurança do conteúdo e da marca, relevância, viés e imparcialidade, veracidade e robustez contra ataques adversários. Ferramentas como o serviço de avaliação de IA generativa da Vertex AI podem ajudar nesses esforços, enfatizando que melhorias iterativas com base nos resultados da avaliação são essenciais para o desenvolvimento responsável de IA.