Informações gerais sobre o serviço de avaliação de IA generativa

O serviço de avaliação de IA generativa permite avaliar o desempenho do modelo em casos de uso específicos.

Os rankings podem oferecer uma boa visão geral do desempenho geral de um modelo, mas não podem fornecer informações sobre o desempenho do modelo no caso de uso específico.

Ao desenvolver soluções baseadas em IA, é essencial que os modelos de IA generativa avaliem os dados dos usuários com critérios fixos de acordo com as necessidades de negócios. As avaliações garantem que os modelos possam se adaptar aos requisitos específicos do domínio de diferentes usuários. Ao avaliar modelos em relação a comparativos de mercado e objetivos definidos pelo usuário, é possível aplicar a engenharia de comando e o ajuste de modelos para melhor alinhar com o contexto operacional. sensibilidades culturais e objetivos estratégicos das empresas que você atende. Essas avaliações são usadas para orientar o desenvolvimento e a melhoria de modelos, garantindo que os modelos sejam úteis, seguros e eficazes para os usuários.

Nesta seção, oferecemos casos de uso para avaliação da IA generativa durante todo o ciclo de vida de desenvolvimento. Também apresentamos os principais paradigmas, uma experiência de avaliação on-line em Conheça o guia de início rápido da avaliação on-line e os componentes do pipeline correspondentes que permitem mover a lógica de avaliação para a produção. É possível alternar entre pipelines de avaliação interativa e prontos para produção. Os resultados da avaliação são registrados automaticamente nos Experimentos da Vertex AI. Oferecemos componentes pré-criados para avaliar tarefas, como summarization ou question answering, e avaliar métricas individuais, como coherence ou summarization verbosity. Também é possível definir as métricas e fornecer critérios para o autor.

Exemplos de casos de uso

A avaliação de IA generativa é um processo abrangente que compara o comparativo de modelo e orienta o desenvolvimento e o refinamento estratégico de modelos e aplicativos de IA generativa, ajudando a garantir que os modelos de IA generativa estejam alinhados às necessidades de negócios. É possível usar a IA generativa durante diferentes fases do desenvolvimento:

  • Pré-produção: é possível tomar decisões melhores em relação às preferências de seleção e personalização de modelos, como o ajuste.
  • Durante a produção: é possível monitorar o desempenho do modelo para garantir que ele seja eficaz.

A avaliação da IA generativa pode ser aplicada a uma variedade de cenários de casos de uso, como:

  • Selecionar modelos pré-treinados: escolha um modelo pré-treinado para uma tarefa ou aplicativo específico avaliando o desempenho do modelo nas tarefas de comparativo de mercado associadas.
  • Definir configurações de geração de modelos: é possível otimizar as configurações dos parâmetros de geração de modelos, como temperature, o que pode melhorar o desempenho das tarefas.
  • Engenharia de prompts usando um modelo: é possível criar prompts mais eficazes que levam a uma saída de maior qualidade, o que melhora a interação do usuário com o modelo.
  • Melhoria e proteção do ajuste: os processos de ajuste melhoram o desempenho do modelo, evitando vieses ou comportamentos indesejáveis.

Para mais exemplos, consulte Exemplos de avaliação.

Serviços de avaliação

A Vertex AI oferece duas soluções para realizar avaliações de modelos de IA generativa: um serviço de avaliação on-line avaliação rápida e modelos de avaliação criados no Vertex AI Pipelines (AutoSxS e AutoSxS). Escolha o serviço que melhor se adapta ao seu caso de uso:

Serviço Casos de uso
Avaliação on-line (avaliação rápida) Algumas instâncias para avaliação. Fluxos de trabalho que exigem iterações rápidas.
Avaliação de pipeline (AutoSxS e baseada em computação) Muitas instâncias para avaliar. Fluxos de trabalho assíncronos e MLOps.

Avaliação rápida

O serviço de avaliação rápida produz avaliações síncronas e de baixa latência em pequenos lotes de dados. É possível realizar avaliações sob demanda e integrar o serviço on-line a outros serviços da Vertex AI usando o SDK da Vertex AI para Python. O uso do SDK torna o serviço on-line adaptável a uma variedade de casos de uso.

O serviço on-line é mais adequado para casos de uso que envolvem pequenos lotes de dados ou quando você precisa iterar e testar rapidamente.

Serviços de pipeline: AutoSxS e baseados em computação

Os serviços de pipeline de avaliação oferecem soluções completas para avaliar modelos de IA generativa. Essas soluções usam o Vertex AI Pipelines para orquestrar uma série de etapas relacionadas à avaliação, como gerar respostas de modelo, chamar o serviço de avaliação on-line e calcular métricas. Essas etapas também podem ser chamadas individualmente em pipelines personalizados.

Como o Vertex AI Pipelines não tem servidor, há uma latência de inicialização mais alta associada ao uso de pipelines para avaliação. Portanto, esse serviço é mais adequado para jobs de avaliação maiores, fluxos de trabalho em que as avaliações não são necessárias imediatamente e integração com pipelines de MLOps.

Oferecemos dois pipelines de avaliação separados, como:

Paradigmas de avaliação

As avaliações de IA generativa funcionam devido a dois paradigmas de avaliação de modelos, que incluem:

  • Por pontos: é possível avaliar um modelo.
  • Em pares: é possível comparar dois modelos.

Por pontos

A avaliação por pontos avalia o desempenho de um único modelo. Isso ajuda você a entender o desempenho do modelo em uma tarefa específica, como summarization ou uma dimensão, como instruction following. O processo de avaliação inclui as seguintes etapas:

  1. Os resultados previstos são produzidos a partir do modelo com base no comando de entrada.
  2. A avaliação é realizada com base nos resultados gerados.

Dependendo do método de avaliação, pares de entrada e saída e informações empíricas podem ser necessários. Quando informações empíricas estão disponíveis, as saídas do modelo são avaliadas com base no alinhamento delas com os resultados esperados. Para mais informações, consulte Executar avaliação baseada em computação. Quando usada sem informações empíricas, a avaliação depende da resposta do modelo para os comandos de entrada. Um modelo de autoavaliação separado também é usado. Para mais informações, consulte Executar avaliação baseada em modelo em pares para produzir métricas personalizadas de acordo com a natureza da tarefa. Por exemplo, é possível usar coherence e relevance em text generation ou accuracy em summarization.

Esse paradigma permite a compreensão dos recursos de um modelo na geração de conteúdo, fornecendo insights sobre os pontos fortes e as áreas de melhoria do modelo em um contexto autônomo, sem exigir uma comparação direta com outro modelo.

Em pares

A avaliação em pares é realizada comparando as previsões dos dois modelos. Existe um modelo A para ser avaliado em relação a um modelo B, o modelo de referência de referência. É necessário fornecer prompts de entrada que representem o domínio de entrada usado para a comparação dos modelos. Considerando o mesmo comando de entrada, a comparação lado a lado especifica qual previsão de modelo é a preferida com base nos critérios de comparação. Os resultados finais da avaliação são capturados peo win rate. Esse paradigma também pode funcionar sem a necessidade de uma referência a dados de informações empíricas.

Métodos de avaliação

Há duas categorias de métricas com base no método de avaliação, que incluem:

Métricas baseadas em computação

As métricas baseadas em computação comparam se os resultados gerados pelo LLM são consistentes com um conjunto de dados de informações empíricas de pares de entrada e saída. As métricas mais usadas são categorizadas nos seguintes grupos:

  • Métricas baseadas no léxico: use cálculos para calcular as semelhanças de strings entre os resultados gerados pelo LLM e as informações empíricas, como Exact Match e ROUGE.
  • Métricas baseadas em contagem: agregue o número de linhas que alcançam ou não determinados rótulos de informações empíricas, como F1-score, Accuracy e Tool Name Match.
  • Métricas baseadas em embedding: calcule a distância entre os resultados gerados pelo LLM e as informações empíricas no espaço de embedding, refletindo o nível de semelhança entre eles.

No serviço de avaliação de IA generativa, é possível usar métricas baseadas em computação por meio do SDK do Python de avaliação rápida e o pipeline. A avaliação baseada em computação só pode ser realizada em casos de uso por pontos No entanto, é possível comparar diretamente as pontuações de métricas de dois modelos para uma comparação entre os pares.

Métricas baseadas em modelos

Um modelo de autoavaliação é usado para gerar métricas de avaliação baseadas em modelos. Ele realiza avaliações complexas e diferenciadas, tradicionalmente realizadas por avaliadores humanos que são caros. Os avaliadores automáticos tentam aprimorar a avaliação humana. Nós calibramos a qualidade off-line com avaliadores humanos. Assim como os avaliadores humanos, o avaliador automático determina a qualidade das respostas por meio de uma saída de pontuação numérica e fornece o raciocínio por trás dos julgamentos com um nível de confiança. Para mais informações, consulte Ver os resultados da avaliação.

A avaliação baseada em modelo está disponível sob demanda e avalia modelos de linguagem com desempenho comparável ao de avaliadores humanos. Outros benefícios da avaliação baseada em modelos incluem:

  • Avaliação de modelos de linguagem natural sem dados de preferência humana.
  • Melhor escalabilidade, aumenta a disponibilidade e reduz os custos em comparação com a avaliação de modelos de linguagem com avaliadores humanos.
  • Transparência das classificações capturando explicações de preferências e pontuações de confiança.

Este diagrama ilustra como funciona a avaliação baseada em modelo em pares, que pode ser realizada em casos de uso pontuais e em pares. É possível ver como o avaliador automático realiza a avaliação em pares no serviço de pipeline de avaliação, AutoSxS.

Visão geral do funcionamento do AutoSxS

A seguir