Esta página foi traduzida pela API Cloud Translation.

Veja e interprete os resultados da avaliação

Esta página descreve como ver e interpretar os resultados da avaliação do modelo após executar a avaliação do modelo.

Veja os resultados da avaliação

Depois de definir a tarefa de avaliação, execute-a para obter os resultados da avaliação, da seguinte forma:

from vertexai.evaluation import EvalTask

eval_result = EvalTask(
    dataset=DATASET,
    metrics=[METRIC_1, METRIC_2, METRIC_3],
    experiment=EXPERIMENT_NAME,
).evaluate(
    model=MODEL,
    experiment_run=EXPERIMENT_RUN_NAME,
)

A classe EvalResult representa o resultado de uma execução de avaliação com os seguintes atributos:

summary_metrics: um dicionário de métricas de avaliação agregadas para uma execução de avaliação.
metrics_table: Uma tabela pandas.DataFrame que contém entradas do conjunto de dados de avaliação, respostas, explicações e resultados das métricas por linha.
metadata: o nome da experiência e o nome da execução da experiência para a execução da avaliação.

A classe EvalResult é definida da seguinte forma:

@dataclasses.dataclass
class EvalResult:
    """Evaluation result.

    Attributes:
      summary_metrics: A dictionary of aggregated evaluation metrics for an evaluation run.
      metrics_table: A pandas.DataFrame table containing evaluation dataset inputs,
        responses, explanations, and metric results per row.
      metadata: the experiment name and experiment run name for the evaluation run.
    """

    summary_metrics: Dict[str, float]
    metrics_table: Optional["pd.DataFrame"] = None
    metadata: Optional[Dict[str, str]] = None

Com a utilização de funções auxiliares, os resultados da avaliação podem ser apresentados no bloco de notas do Colab da seguinte forma:

Tabelas para métricas de resumo e métricas baseadas em linhas

Visualize os resultados da avaliação

Pode traçar métricas de resumo num gráfico de radar ou de barras para visualização e comparação entre resultados de diferentes execuções de avaliação. Esta visualização pode ser útil para avaliar diferentes modelos e diferentes modelos de comandos.

No exemplo seguinte, visualizamos quatro métricas (coerência, fluidez, seguimento de instruções e qualidade geral do texto) para respostas geradas com quatro modelos de comandos diferentes. A partir do radar e do gráfico de barras, podemos inferir que o modelo de comando n.º 2 tem um desempenho consistentemente superior ao dos outros modelos nas quatro métricas. Isto é particularmente evidente nas suas classificações significativamente mais elevadas para o seguimento de instruções e a qualidade do texto. Com base nesta análise, o modelo de comando n.º 2 parece ser a escolha mais eficaz entre as quatro opções.

Gráfico de radar a mostrar as pontuações de coerência, seguimento de instruções, qualidade do texto e fluidez para todos os modelos de comandos

Gráfico de barras que mostra a média da coerência, do seguimento de instruções, da qualidade do texto e da fluidez para todos os modelos de comandos

Compreenda os resultados das métricas

As tabelas seguintes apresentam vários componentes dos resultados ao nível da instância e agregados incluídos, respetivamente, em metrics_table e summary_metrics para PointwiseMetric, PairwiseMetric e métricas baseadas em cálculos:

`PointwiseMetric`

Resultados ao nível da instância

Coluna	Descrição
resposta	A resposta gerada para o comando pelo modelo.
pontuação	A classificação atribuída à resposta de acordo com os critérios e a rubrica de classificação. A pontuação pode ser binária (0 e 1), numa escala de Likert (1 a 5 ou -2 a 2) ou flutuante (0, 0 a 1,0).
explicação	O motivo da pontuação do modelo de juiz. Usamos o raciocínio em cadeia de pensamento para orientar o modelo de juiz a explicar o seu raciocínio por detrás de cada veredito. Forçar o modelo de juiz a raciocinar melhora a precisão da avaliação.

Agregue resultados

Coluna	Descrição
pontuação média	Classificação média para todas as instâncias.
desvio padrão	Desvio padrão de todas as pontuações.

`PairwiseMetric`

Resultados ao nível da instância

Coluna	Descrição
resposta	A resposta gerada para o comando pelo modelo candidato.
baseline_model_response	A resposta gerada para o comando pelo modelo de base.
pairwise_choice	O modelo com a melhor resposta. Os valores possíveis são CANDIDATE, BASELINE ou TIE.
explicação	O motivo da escolha do modelo de juiz.

Agregue resultados

Coluna	Descrição
candidate_model_win_rate	Rácio do tempo em que o modelo de juiz decidiu que o modelo candidato tinha a melhor resposta em relação ao total de respostas. Varia entre 0 e 1.
baseline_model_win_rate	Rácio do tempo em que o modelo de avaliação decidiu que o modelo de base tinha a melhor resposta em relação ao total de respostas. Varia entre 0 e 1.

Métricas baseadas em cálculos

Resultados ao nível da instância

Coluna	Descrição
resposta	A resposta do modelo está a ser avaliada.
referência	A resposta de referência.
pontuação	A pontuação é calculada para cada par de respostas e referências.

Agregue resultados

Coluna	Descrição
pontuação média	Classificação média para todas as instâncias.
desvio padrão	Desvio padrão de todas as pontuações.

Exemplos

Os exemplos nesta secção demonstram como ler e compreender os resultados da avaliação.

Exemplo 1: avaliação ponto a ponto

No primeiro exemplo, considere avaliar uma instância de avaliação pontual para TEXT_QUALITY. A pontuação da avaliação pontual da métrica TEXT_QUALITY é 4 (numa escala de 1 a 5), o que significa que a resposta é boa. Além disso, a explicação no resultado da avaliação mostra por que motivo o modelo de juiz considera que a previsão merece a classificação 4 e não uma classificação superior ou inferior.

Conjunto de dados

prompt: "Resume o seguinte texto de forma que uma criança de cinco anos possa compreender: Plataforma de redes sociais enfrenta críticas devido às políticas de moderação de conteúdo\nUma plataforma de redes sociais proeminente encontra-se envolvida em controvérsia, uma vez que os utilizadores e os criadores de conteúdo expressam descontentamento relativamente às respetivas políticas de moderação de conteúdo. As alegações de censura parcial, aplicação inconsistente e supressão de determinados pontos de vista geraram indignação entre os utilizadores que afirmam que a plataforma está a sufocar a liberdade de expressão. Por outro lado, a plataforma afirma que as suas políticas foram concebidas para manter um ambiente online seguro e inclusivo. Esta controvérsia levanta questões mais amplas sobre o papel das redes sociais na formação do discurso público e as responsabilidades das plataformas na curadoria de conteúdo online."
response: "As pessoas estão descontentes com um Website porque consideram que não está a ser justo com o que as pessoas podem publicar. Algumas pessoas afirmam que o Website as impede de dizer o que querem. No entanto, o Website afirma que está a tentar manter a segurança de todos. Isto faz com que as pessoas se perguntem se os Websites devem controlar o que as pessoas podem dizer online."

Resultado

score: 4,
explanation: o resumo na resposta segue a instrução para resumir o contexto de uma forma que uma criança de cinco anos possa compreender. Baseia-se no contexto e fornece detalhes importantes no resumo. No entanto, a linguagem usada na resposta é um pouco prolixa.

Exemplo 2: avaliação aos pares

O segundo exemplo é uma avaliação de comparação aos pares em PAIRWISE_QUESTION_ANSWERING_QUALITY. O resultado pairwise_choice mostra que a resposta candidata "França é um país localizado na Europa Ocidental" é preferida pelo modelo de juiz em comparação com a resposta de base "França é um país" para responder à pergunta na instrução. Tal como nos resultados por pontos, também é fornecida uma explicação para explicar por que motivo a resposta do candidato é melhor do que a resposta de referência (a resposta do candidato é mais útil neste caso).

Conjunto de dados

prompt: "Podes responder onde se situa França com base no seguinte parágrafo? França é um país localizado na Europa Ocidental. Faz fronteira com a Alemanha, Andorra, Bélgica, Espanha, Itália, Luxemburgo, Mónaco e Suíça. A costa de França estende-se ao longo do Canal da Mancha, do Mar do Norte, do Oceano Atlântico e do Mar Mediterrâneo. Conhecida pela sua história rica, monumentos icónicos como a Torre Eiffel e gastronomia deliciosa, a França é uma grande potência cultural e económica na Europa e em todo o mundo."
response: "França é um país localizado na Europa Ocidental.",
baseline_model_response: "França é um país.",

Resultado

pairwise_choice: CANDIDATE,
explanation: A resposta BASELINE é fundamentada, mas não responde totalmente à pergunta. No entanto, a resposta CANDIDATE está correta e fornece detalhes úteis sobre a localização de França.

O que se segue?

Experimente um bloco de notas de exemplo de avaliação.
Saiba mais sobre a avaliação da IA generativa.