Esta página fornece uma lista completa de métricas baseadas em rubricas geridas oferecidas pelo serviço de avaliação de IA gen, que pode usar no cliente de IA gen no SDK da Vertex AI.
Para mais informações sobre a avaliação orientada por testes, consulte o artigo Defina as métricas de avaliação.
Vista geral
O serviço de avaliação de IA gen oferece uma lista de métricas geridas baseadas em rubricas para a estrutura de avaliação orientada por testes:
Para métricas com rubricas adaptativas, a maioria inclui o fluxo de trabalho para a geração de rubricas para cada comando e a validação de rubricas. Se necessário, pode executá-los separadamente. Consulte o artigo Execute uma avaliação para ver detalhes.
Para métricas com rubricas estáticas, não são geradas rubricas por comando. Para ver detalhes sobre os resultados pretendidos, consulte Detalhes das métricas.
Cada métrica gerida baseada em rubricas tem um número de controlo de versões. A métrica usa a versão mais recente por predefinição, mas pode fixá-la a uma versão específica, se necessário:
from vertexai import types
text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')
Retrocompatibilidade
Para as métricas oferecidas como modelos de comandos de métricas, pode continuar a aceder às métricas ao nível do ponto através do cliente de IA gen no SDK Vertex AI através da mesma abordagem. As métricas aos pares não são suportadas pelo cliente da IA gen no SDK da Vertex AI, mas consulte o artigo Executar uma avaliação para comparar dois modelos na mesma avaliação.
from vertexai import types
# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY
Detalhes das métricas geridas
Esta secção apresenta as métricas geridas com detalhes como o respetivo tipo, entradas obrigatórias e resultado esperado:
- Qualidade geral
- Qualidade do texto
- Seguir instruções
- Aterrar
- Segurança
- Qualidade geral de várias interações
- Qualidade do texto em várias interações
- Correspondência da resposta final do agente
- Agent final response reference free
Qualidade geral
Versão mais recente | general_quality_v1 |
Tipo | Rubricas adaptáveis |
Descrição | Uma métrica de rubricas adaptativas abrangente que avalia a qualidade geral da resposta de um modelo. Gera e avalia automaticamente uma vasta gama de critérios com base no conteúdo do comando. Este é o ponto de partida recomendado para a maioria das avaliações. |
Como aceder no SDK | types.RubricMetric.GENERAL_QUALITY |
Entrada |
|
Saída |
|
Número de chamadas de MDG | 6 chamadas para o Gemini 2.5 Flash |
Qualidade do texto
Versão mais recente | text_quality_v1 |
Tipo | Rubricas adaptáveis |
Descrição | Uma métrica de rubricas adaptativas segmentadas que avalia especificamente a qualidade linguística da resposta. Avalia aspetos como a fluidez, a coerência e a gramática. |
Como aceder no SDK | types.RubricMetric.TEXT_QUALITY |
Entrada |
|
Saída |
|
Número de chamadas de MDG | 6 chamadas para o Gemini 2.5 Flash |
Seguir instruções
Versão mais recente | instruction_following_v1 |
Tipo | Rubricas adaptáveis |
Descrição | Uma métrica de rubricas adaptáveis segmentada que mede a forma como a resposta cumpre as restrições e as instruções específicas fornecidas no comando. |
Como aceder no SDK | types.RubricMetric.INSTRUCTION_FOLLOWING |
Entrada |
|
Saída |
|
Número de chamadas de MDG | 6 chamadas para o Gemini 2.5 Flash |
Fundamentação
Versão mais recente | grounding_v1 |
Tipo | Rubricas estáticas |
Descrição | Uma métrica baseada em pontuação que verifica a factualidade e a consistência. Valida se a resposta do modelo se baseia no contexto. |
Como aceder no SDK | types.RubricMetric.GROUNDING |
Entrada |
|
Saída |
0-1 e representa a taxa de afirmações etiquetadas como supported ou no_rad (que não requerem atribuições factuais, como saudações, perguntas ou exclusões de responsabilidade) para o comando de entrada.
A explicação contém agrupamentos de frases, etiquetas, raciocínio e excertos do contexto. |
Número de chamadas de MDG | 1 chamada para o Gemini 2.5 Flash |
Segurança
Versão mais recente | safety_v1 |
Tipo | Rubricas estáticas |
Descrição |
Uma métrica baseada em pontuação que avalia se a resposta do modelo violou uma ou mais das seguintes políticas:
|
Como aceder no SDK | types.RubricMetric.SAFETY |
Entrada |
|
Saída |
0 não é seguro e 1 é seguro.
O campo de explicação inclui as políticas violadas. |
Número de chamadas de MDG | 10 chamadas para o Gemini 2.5 Flash |
Qualidade geral de várias interações
Versão mais recente | multi_turn_general_quality_v1 |
Tipo | Rubricas adaptáveis |
Descrição | Uma métrica de rubricas adaptativas que avalia a qualidade geral da resposta de um modelo no contexto de um diálogo de várias interações. |
Como aceder no SDK | types.RubricMetric.MULTI_TURN_GENERAL_QUALITY |
Entrada |
|
Saída |
|
Número de chamadas de MDG | 6 chamadas para o Gemini 2.5 Flash |
Qualidade do texto de várias interações
Versão mais recente | multi_turn_text_quality_v1 |
Tipo | Rubricas adaptáveis |
Descrição | Uma métrica de rubricas adaptativas que avalia a qualidade do texto da resposta de um modelo no contexto de um diálogo de várias interações. |
Como aceder no SDK | types.RubricMetric.TEXT_QUALITY |
Entrada |
|
Saída |
|
Número de chamadas de MDG | 6 chamadas para o Gemini 2.5 Flash |
Correspondência da resposta final do agente
Versão mais recente | final_response_match_v2 |
Tipo | Rubricas estáticas |
Descrição | Uma métrica que avalia a qualidade da resposta final de um agente de IA comparando-a com uma resposta de referência fornecida (dados reais). |
Como aceder no SDK | types.RubricMetric.FINAL_RESPONSE_MATCH |
Entrada |
|
Saída |
Pontuação
|
Número de chamadas de MDG | 5 chamadas ao Gemini 2.5 Flash |
Referência da resposta final do agente sem custo financeiro
Versão mais recente | final_response_reference_free_v1 |
Tipo | Rubricas adaptáveis |
Descrição | Uma métrica de rubricas adaptativa que avalia a qualidade da resposta final de um agente de IA sem precisar de uma resposta de referência.
Tem de fornecer rubricas para esta métrica, uma vez que não suporta rubricas geradas automaticamente. |
Como aceder no SDK | types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE |
Entrada |
|
Saída |
|
Número de chamadas de MDG | 5 chamadas ao Gemini 2.5 Flash |