Os modelos de IA generativa, como o Gemini, requerem medidas de segurança robustas para mitigar riscos, como a geração de conteúdo prejudicial, a fuga de informações confidenciais ou a utilização indevida.A plataforma Vertex AI da Google Cloud fornece um conjunto de ferramentas e práticas para implementar a segurança holística para os seus modelos Gemini. Google Cloud
Potenciais riscos de segurança e estratégias de mitigação
Ao implementar modelos Gemini, é fundamental identificar e mitigar vários potenciais riscos. Uma abordagem proativa à compreensão destes riscos permite uma implementação mais eficaz das medidas de segurança. Uma abordagem de várias camadas à segurança é fundamental, uma vez que pode mitigar ou evitar:
- Riscos de conteúdo: estes podem incluir conteúdo prejudicial, linguagem obscena e sexualização, bem como violência e sanguinolência.
- Riscos de segurança da marca: o conteúdo gerado pode não estar alinhado com o tom ou os valores da sua marca, pode promover concorrentes ou produtos impróprios, ou gerar conteúdo que pode resultar em danos na reputação.
- Riscos de alinhamento: o conteúdo gerado pode ser irrelevante ou incorreto.
- Riscos de segurança e privacidade: o conteúdo gerado pode divulgar dados de preparação ou comandos confidenciais, ou os utilizadores adversariais podem tentar forçar o modelo a substituir os protocolos de segurança ou comportar-se de formas não intencionais.
Os nossos modelos implementados oferecem várias funcionalidades para resolver estes potenciais problemas:
- O modelo predefinido e os filtros não configuráveis oferecem uma rede de segurança geral.
- As instruções do sistema fornecem orientações diretas ao modelo sobre o comportamento preferido e os tópicos a evitar.
- Os filtros de conteúdo permitem-lhe definir limites específicos para tipos de danos comuns.
- O Gemini como filtro oferece um ponto de verificação avançado e personalizável para preocupações de segurança complexas ou subtis que podem ser ignoradas pelas camadas anteriores ou exigir uma avaliação mais consciente do contexto.
- A DLP aborda especificamente o risco crítico de fuga de dados confidenciais, caso o modelo tenha acesso a dados confidenciais. Também permite criar listas de bloqueio personalizadas.
Ferramentas de segurança disponíveis no Vertex AI para o Gemini
O Vertex AI oferece várias ferramentas para gerir a segurança dos seus modelos Gemini. Compreender como cada uma funciona, as respetivas considerações e os exemplos de utilização ideais ajuda a criar uma solução de segurança personalizada.
Abordagem | Como funciona | Proteção fornecida | Riscos | Quando usar |
---|---|---|---|---|
Predefinições: Gemini + filtros não configuráveis | Os modelos Gemini são inerentemente concebidos a pensar na segurança e na imparcialidade, mesmo quando confrontados com comandos adversariais. A Google investiu em avaliações de segurança abrangentes, incluindo em termos de parcialidade e toxicidade. As predefinições incluem uma camada de proteção independente concebida para impedir a geração de conteúdo relacionado com material relativo a abuso sexual infantil (CSAM) ou conteúdo protegido por direitos de autor (recitação). | Proteção base contra material relativo a abuso sexual infantil e direitos de autor (recitação) | A segurança predefinida do Gemini pode não satisfazer as necessidades da sua organização. O modelo pode ter alucinações ou não seguir instruções. Os atacantes motivados podem continuar a ter êxito em jailbreaks e injeção de comandos | Fluxos de trabalho em que não são esperadas entradas maliciosas |
Filtros configuráveis |
Os filtros de conteúdo pré-criados do Gemini oferecem proteção adicional contra
várias categorias de conteúdo prejudicial, como conteúdo de natureza sexual, de incitamento ao ódio, de assédio ou
perigoso. Pode configurar limites de bloqueio para cada categoria de conteúdo prejudicial
(por exemplo, BLOCK_LOW_AND_ABOVE , BLOCK_MEDIUM_AND_ABOVE ,
BLOCK_ONLY_HIGH ) com base na probabilidade e/ou gravidade do conteúdo
prejudicial. Estas são uma camada independente do modelo, pelo que são robustas contra
jailbreaks.
|
Robusto contra violações de categorias predefinidas, sensibilidade ajustável | Não tem personalização detalhada além das definições de limite para categorias predefinidas. Pode, ocasionalmente, bloquear conteúdo benigno (falsos positivos) ou não detetar algum conteúdo prejudicial (falsos negativos). Só está disponível para filtragem de respostas e não para filtragem de comandos. | Oferecer um nível base de segurança para aplicações ou agentes virados para o utilizador. Se o seu objetivo for garantir a segurança de marcas e conteúdo, os filtros de conteúdo devem ser usados em conjunto com instruções do sistema. |
Instruções do sistema | Pode dar instruções ao modelo sobre as diretrizes de segurança da marca e de conteúdo através de instruções do sistema ou preâmbulos. Por exemplo, pode dizer ao modelo "não responder a perguntas relacionadas com política" ou seguir diretrizes específicas de tom e voz da marca. As instruções do sistema orientam diretamente o comportamento do modelo. | Personalizável para segurança da marca/conteúdo, pode ser altamente eficaz. | O modelo pode ter alucinações ou não seguir as instruções. Os atacantes motivados podem continuar a ter êxito em jailbreaks e injeção de comandos | Aplicações ou agentes que exigem a conformidade com diretrizes de marcas específicas ou políticas de conteúdo detalhadas. Se o seu objetivo for garantir a segurança de marcas e conteúdo, as instruções do sistema devem ser combinadas com filtros de conteúdo. |
DLP para listas de bloqueio personalizadas e proteção de dados confidenciais | A API DLP pode inspecionar texto para identificar e classificar informações confidenciais com base numa vasta gama de detetores infoType predefinidos e personalizados. Depois de identificados, podem ser aplicadas técnicas de desidentificação, como ocultação, ocultação ou conversão em tokens. A API DLP também pode ser usada para bloquear palavras-chave. Proteção de entrada: antes de enviar comandos ou dados do utilizador para o Gemini, pode transmitir o texto através da API DLP para ocultar ou mascarar informações confidenciais. Isto impede que o modelo processe ou registe dados confidenciais. Proteção de resultados: se existir um risco de o Gemini poder gerar ou revelar inadvertidamente informações confidenciais (por exemplo, se estiver a resumir documentos de origem que contenham PII), os resultados do modelo podem ser analisados pela API DLP antes de serem enviados ao utilizador. | Filtragem robusta de obscenidades ou palavras personalizadas. Filtragem robusta para dados confidenciais. | Adiciona latência. Pode levar a um bloqueio excessivo. | Proteção contra a perda de dados para agentes que têm acesso a dados confidenciais. |
Gemini como filtro | Pode usar o Gemini para filtrar comandos e respostas para o seu agente ou app. Isto envolve fazer uma segunda chamada a um modelo Gemini rápido e económico (como o Gemini Flash ou o Flash Lite) para avaliar se a entrada de um utilizador ou uma ferramenta, ou a saída do seu modelo Gemini principal, é segura. O modelo de filtro recebe instruções para decidir se o conteúdo é seguro ou inseguro com base nas suas políticas definidas, incluindo a segurança do conteúdo, a segurança da marca e o desalinhamento do agente. Isto oferece uma proteção robusta e altamente personalizável contra violações de segurança do conteúdo, problemas de segurança da marca, desvio do modelo e alucinações, e pode analisar texto, imagens, vídeo e áudio para uma compreensão holística. | Altamente robusto e personalizável para segurança de conteúdo/marca, desvio, alucinação; compreensão multimodal. | Custo e latência adicionais. Probabilidade de falsos negativos extremamente raros. | Oferecer um nível de segurança personalizado para aplicações ou agentes virados para o utilizador |
Abordagem de várias camadas: filtros configuráveis + instruções do sistema + DLP + Gemini como filtro | Altamente robusto e personalizável para segurança de conteúdo/marca, desvio, alucinação; compreensão multimodal | Custo e latência adicionais. | Oferecer um nível robusto de segurança para aplicações ou agentes virados para o utilizador, especialmente quando se espera uma utilização hostil e maliciosa |
Avaliação de segurança contínua
A avaliação contínua da segurança é crucial para os sistemas de IA, uma vez que o panorama da IA e os métodos de utilização indevida estão em constante evolução. As avaliações regulares ajudam a identificar vulnerabilidades, avaliar a eficácia da mitigação, adaptar-se aos riscos em evolução, garantir o alinhamento com as políticas e os valores, criar confiança e manter a conformidade. Vários tipos de avaliação, incluindo avaliações de desenvolvimento, avaliações de garantia, testes de equipas vermelhas, avaliações externas e testes de referência, ajudam a alcançar este objetivo. O âmbito da avaliação deve abranger a segurança do conteúdo, a segurança da marca, a relevância, a parcialidade e a imparcialidade, a veracidade e a robustez a ataques adversariais. As ferramentas, como o serviço de avaliação de IA gen da Vertex AI, podem ajudar nestes esforços, enfatizando que as melhorias iterativas baseadas nas conclusões da avaliação são essenciais para o desenvolvimento responsável da IA.