Auf dieser Seite erfahren Sie, wie Sie die Ergebnisse der Modellbewertung nach dem Ausführen der Modellbewertung aufrufen und interpretieren.
Bewertungsergebnisse ansehen
Nachdem Sie die Bewertungsaufgabe definiert haben, führen Sie sie so aus, um die Bewertungsergebnisse zu erhalten:
eval_result: EvalResult = eval_task.evaluate(
model=MODEL,
)
Die Klasse EvalResult
stellt das Ergebnis eines Bewertungslaufs mit den folgenden Attributen dar:
metrics_table
: die Ergebnisse pro Instanz.summary_metrics
: Die zusammengefassten Ergebnisse für alle Instanzen aller angeforderten Messwerte.metadata
: Der Name des Tests und des Testlaufs für den Bewertungslauf.
Die Klasse EvalResult
ist so definiert:
@dataclasses.dataclass
class EvalResult:
"""Evaluation result.
Attributes:
summary_metrics: The summary evaluation metrics for an evaluation run.
metrics_table: A table containing eval inputs, ground truth, and metric
results per row.
metadata: The metadata for the evaluation run.
"""
summary_metrics: Dict[str, float]
metrics_table: Optional["pd.DataFrame"] = None
metadata: Optional[Dict[str, str]] = None
Mithilfe von Hilfsfunktionen können die Bewertungsergebnisse im Colab-Notebook so angezeigt werden:
Bewertungsergebnisse visualisieren
Sie können zusammenfassende Messwerte in einem Radar- oder Balkendiagramm darstellen, um die Ergebnisse aus verschiedenen Bewertungsläufen zu visualisieren und zu vergleichen. Diese Visualisierung kann hilfreich sein, um verschiedene Modelle und verschiedene Prompt-Vorlagen zu bewerten.
Im folgenden Beispiel werden vier Messwerte (Kohärenz, Sprachfluss, Befolgung der Anleitung und allgemeine Textqualität) für Antworten visualisiert, die mit vier verschiedenen Prompt-Vorlagen generiert wurden. Aus dem Radar- und Balkendiagramm können wir schließen, dass Promptvorlage 2 bei allen vier Messwerten durchweg besser abschneidet als die anderen Vorlagen. Das zeigt sich besonders an den deutlich höheren Bewertungen für die Befolgung der Anleitung und die Textqualität. Basierend auf dieser Analyse ist Prompt-Vorlage 2 die effektivste Option.
Messwertergebnisse verstehen
In den folgenden Tabellen sind verschiedene Komponenten der Ergebnisse auf Instanzebene und der zusammengefassten Ergebnisse aufgeführt, die in metrics_table
bzw. summary_metrics
für PointwiseMetric
, PairwiseMetric
und berechnungsbasierte Messwerte enthalten sind:
PointwiseMetric
Ergebnisse auf Instanzebene
Spalte | Beschreibung |
---|---|
Antwort | Die vom Modell für den Prompt generierte Antwort. |
Punktzahl | Die Bewertung der Antwort gemäß den Kriterien und der Bewertungsskala. Die Punktzahl kann binär (0 und 1), eine Likert-Skala (1 bis 5 oder -2 bis 2) oder eine Gleitkommazahl (0, 0 bis 1,0) sein. |
Erklärung | Begründung des Bewertungsmodells für die gegebene Punktzahl. Wir verwenden die Chain-of-Thought-Logik, um das Modell anzuweisen, die Überlegungen zu jedem Ergebnis zu erläutern. Es erweist sich, dass die Bewertungsgenauigkeit sich verbessert, wenn das Bewertungsmodell zur Argumentation gezwungen wird. |
Zusammengefasste Ergebnisse
Spalte | Beschreibung |
---|---|
Mittlere Punktzahl | Durchschnittliche Punktzahl für alle Instanzen. |
Standardabweichung | Standardabweichung aller Punktzahlen. |
PairwiseMetric
Ergebnisse auf Instanzebene
Spalte | Beschreibung |
---|---|
Antwort | Die vom Kandidatenmodell für den Prompt generierte Antwort. |
baseline_model_response | Die vom Basismodell für den Prompt generierte Antwort. |
pairwise_choice | Das Modell mit der besseren Antwort. Mögliche Werte sind CANDIDATE, BASELINE oder TIE. |
Erklärung | Begründung des Bewertungsmodells für die Auswahl. |
Zusammengefasste Ergebnisse
Spalte | Beschreibung |
---|---|
candidate_model_win_rate | Verhältnis der Zeit, in der das Bewertungsmodell entschied, dass das CANDIDATE-Modell die bessere Antwort im Vergleich zur Gesamtzahl der Antworten hatte. Liegt zwischen 0 und 1. |
baseline_model_win_rate | Verhältnis der Zeit, in der das Bewertungsmodell entschied, dass das BASELINE-Modell die bessere Antwort im Vergleich zur Gesamtzahl der Antworten hatte. Liegt zwischen 0 und 1. |
Berechnungsbasierte Messwerte
Ergebnisse auf Instanzebene
Spalte | Beschreibung |
---|---|
Antwort | Die Antwort des Modells wird ausgewertet. |
Referenz | Die Referenzantwort. |
Punktzahl | Die Punktzahl wird für jedes Paar aus Antworten und Referenzen berechnet. |
Zusammengefasste Ergebnisse
Spalte | Beschreibung |
---|---|
Mittlere Punktzahl | Durchschnittliche Punktzahl für alle Instanzen. |
Standardabweichung | Standardabweichung aller Punktzahlen. |
Beispiele
Die Beispiele in diesem Abschnitt veranschaulichen, wie Sie die Bewertungsergebnisse lesen und einordnen.
Beispiel 1
Im ersten Beispiel sollten Sie eine punktweise Bewertungsinstanz für TEXT_QUALITY
bewerten. Die Punktzahl aus der punktweisen Bewertung des Messwerts TEXT_QUALITY
ist 4 (aus der Skala 1 bis 5), was bedeutet, dass die Antwort gut ist. Darüber hinaus zeigt die Erklärung im Bewertungsergebnis, warum das Bewertungsmodell der Meinung ist, dass die Vorhersage die Punktzahl 4 und keine höhere oder niedrigere Punktzahl verdient.
Dataset
prompt
: „Fassen Sie den folgenden Text so zusammen, dass ein fünfjähriges Kind ihn verstehen kann: Social-Media-Plattform sieht sich wegen Richtlinien zur Inhaltsmoderation mit Gegenreaktionen konfrontiert\nEine bekannte Social-Media-Plattform gerät in Kontroverse, da Nutzer und Content-Creator ihre Unzufriedenheit mit den Richtlinien zur Inhaltsmoderation zum Ausdruck bringen. Vorwürfe der voreingenommenen Zensur, widersprüchliche Durchsetzung und Unterdrückung bestimmter Standpunkte haben zu Empörung bei Nutzern geführt, die behaupten, dass die Plattform die freie Meinungsäußerung unterbindet. Andererseits behauptet die Plattform, dass ihre Richtlinien darauf ausgerichtet sind, eine sichere und inklusive Onlineumgebung zu schaffen. Diese Kontroverse wirft umfassendere Fragen über die Rolle sozialer Medien bei der Gestaltung des öffentlichen Diskurses und die Verantwortlichkeiten von Plattformen bei der Auswahl von Onlineinhalten auf.“response
: „Nutzer sind wegen einer Website verärgert, weil sie finden, dass sie sich unfair dabei verhält, was Leute posten dürfen. Einige Nutzer sagen, dass sie auf der Website nicht sagen können, was sie wollen. Aber die Website sagt, dass sie versucht, alle zu schützen. Deswegen fragen sich die Leute, ob Websites kontrollieren sollten, was Menschen online sagen dürfen.“
Ergebnis
score
: 4,explanation
: Die Zusammenfassung in der Antwort folgt der Anweisung, den Kontext so zusammenzufassen, dass ein fünfjähriges Kind ihn verstehen kann. Sie ist im Kontext verankert und enthält wichtige Details in der Zusammenfassung. Die in der Antwort verwendete Sprache ist jedoch etwas langatmig.
Beispiel 2
Das zweite Beispiel ist eine paarweise Vergleichsbewertung für PAIRWISE_QUESTION_ANSWERING_QUALITY
. Das Ergebnis pairwise_choice
zeigt, dass das Bewertungsmodell die CANDIDATE-Antwort „Frankreich ist ein Land in Westeuropa“ im Vergleich zur BASELINE-Antwort „Frankreich ist ein Land“ bevorzugt, um die Frage im Prompt zu beantworten. Ähnlich wie bei den punktbezogenen Ergebnissen wird auch erklärt, warum die CANDIDATE-Antwort besser ist als die BASELINE-Antwort (die CANDIDATE-Antwort ist in diesem Fall hilfreicher).
Dataset
prompt
: „Können Sie anhand des folgenden Absatzes sagen, wo Frankreich liegt? Frankreich ist ein Land in Westeuropa. Es grenzt an Belgien, Luxemburg, Deutschland, Italien, Monaco, Spanien und Andorra. Die Küste Frankreichs erstreckt sich entlang des Ärmelkanals, der Nordsee, des Atlantischen Ozeans und des Mittelmeers. Frankreich ist für seine lange Geschichte, seine ikonischen Wahrzeichen wie den Eiffelturm und seine köstliche Küche bekannt, Frankreich ist eine wichtige kulturelle und wirtschaftliche Kraft in Europa und auf der ganzen Welt."response
: „Frankreich ist ein Land in Westeuropa.“baseline_model_response
: „Frankreich ist ein Land.“
Ergebnis
pairwise_choice
: CANDIDATE.explanation
: Die BASELINE-Antwort ist fundiert, beantwortet die Frage aber nicht vollständig. Die CANDIDATE-Antwort ist dagegen korrekt und enthält nützliche Details zum Standort Frankreich.
Nächste Schritte
Probieren Sie ein Bewertungs-Beispielnotebook aus.
Weitere Informationen zur Bewertung mit generativer KI