Bewertungsergebnisse ansehen und interpretieren

Auf dieser Seite erfahren Sie, wie Sie die Ergebnisse der Modellbewertung nach dem Ausführen der Modellbewertung aufrufen und interpretieren.

Bewertungsergebnisse ansehen

Nachdem Sie die Bewertungsaufgabe definiert haben, führen Sie sie so aus, um die Bewertungsergebnisse zu erhalten:

eval_result: EvalResult = eval_task.evaluate(
  model=MODEL,
)

Die Klasse EvalResult stellt das Ergebnis eines Bewertungslaufs mit den folgenden Attributen dar:

metrics_table: die Ergebnisse pro Instanz.
summary_metrics: Die zusammengefassten Ergebnisse für alle Instanzen aller angeforderten Messwerte.
metadata: Der Name des Tests und des Testlaufs für den Bewertungslauf.

Die Klasse EvalResult ist so definiert:

@dataclasses.dataclass
class EvalResult:
    """Evaluation result.

    Attributes:
      summary_metrics: The summary evaluation metrics for an evaluation run.
      metrics_table: A table containing eval inputs, ground truth, and metric
        results per row.
      metadata: The metadata for the evaluation run.
    """

    summary_metrics: Dict[str, float]
    metrics_table: Optional["pd.DataFrame"] = None
    metadata: Optional[Dict[str, str]] = None

Mithilfe von Hilfsfunktionen können die Bewertungsergebnisse im Colab-Notebook so angezeigt werden:

Tabellen für zusammenfassende und zeilenbasierte Messwerte

Bewertungsergebnisse visualisieren

Sie können zusammenfassende Messwerte in einem Radar- oder Balkendiagramm darstellen, um die Ergebnisse aus verschiedenen Bewertungsläufen zu visualisieren und zu vergleichen. Diese Visualisierung kann hilfreich sein, um verschiedene Modelle und verschiedene Prompt-Vorlagen zu bewerten.

Im folgenden Beispiel werden vier Messwerte (Kohärenz, Sprachfluss, Befolgung der Anleitung und allgemeine Textqualität) für Antworten visualisiert, die mit vier verschiedenen Prompt-Vorlagen generiert wurden. Aus dem Radar- und Balkendiagramm können wir schließen, dass Promptvorlage 2 bei allen vier Messwerten durchweg besser abschneidet als die anderen Vorlagen. Das zeigt sich besonders an den deutlich höheren Bewertungen für die Befolgung der Anleitung und die Textqualität. Basierend auf dieser Analyse ist Prompt-Vorlage 2 die effektivste Option.

Radardiagramm mit den Bewertungen für Kohärenz, Befolgung der Anleitung, Textqualität und Sprachfluss für alle Promptvorlagen

Balkendiagramm mit dem Mittelwert für Kohärenz, Befolgung der Anleitung, Textqualität und Sprachfluss für alle Prompt-Vorlagen

Messwertergebnisse verstehen

In den folgenden Tabellen sind verschiedene Komponenten der Ergebnisse auf Instanzebene und der zusammengefassten Ergebnisse aufgeführt, die in metrics_table bzw. summary_metrics für PointwiseMetric, PairwiseMetric und berechnungsbasierte Messwerte enthalten sind:

`PointwiseMetric`

Ergebnisse auf Instanzebene

Spalte	Beschreibung
Antwort	Die vom Modell für den Prompt generierte Antwort.
Punktzahl	Die Bewertung der Antwort gemäß den Kriterien und der Bewertungsskala. Die Punktzahl kann binär (0 und 1), eine Likert-Skala (1 bis 5 oder -2 bis 2) oder eine Gleitkommazahl (0, 0 bis 1,0) sein.
Erklärung	Begründung des Bewertungsmodells für die gegebene Punktzahl. Wir verwenden die Chain-of-Thought-Logik, um das Modell anzuweisen, die Überlegungen zu jedem Ergebnis zu erläutern. Es erweist sich, dass die Bewertungsgenauigkeit sich verbessert, wenn das Bewertungsmodell zur Argumentation gezwungen wird.

Zusammengefasste Ergebnisse

Spalte	Beschreibung
Mittlere Punktzahl	Durchschnittliche Punktzahl für alle Instanzen.
Standardabweichung	Standardabweichung aller Punktzahlen.

`PairwiseMetric`

Ergebnisse auf Instanzebene

Spalte	Beschreibung
Antwort	Die vom Kandidatenmodell für den Prompt generierte Antwort.
baseline_model_response	Die vom Basismodell für den Prompt generierte Antwort.
pairwise_choice	Das Modell mit der besseren Antwort. Mögliche Werte sind CANDIDATE, BASELINE oder TIE.
Erklärung	Begründung des Bewertungsmodells für die Auswahl.

Zusammengefasste Ergebnisse

Spalte	Beschreibung
candidate_model_win_rate	Verhältnis der Zeit, in der das Bewertungsmodell entschied, dass das CANDIDATE-Modell die bessere Antwort im Vergleich zur Gesamtzahl der Antworten hatte. Liegt zwischen 0 und 1.
baseline_model_win_rate	Verhältnis der Zeit, in der das Bewertungsmodell entschied, dass das BASELINE-Modell die bessere Antwort im Vergleich zur Gesamtzahl der Antworten hatte. Liegt zwischen 0 und 1.

Berechnungsbasierte Messwerte

Ergebnisse auf Instanzebene

Spalte	Beschreibung
Antwort	Die Antwort des Modells wird ausgewertet.
Referenz	Die Referenzantwort.
Punktzahl	Die Punktzahl wird für jedes Paar aus Antworten und Referenzen berechnet.

Zusammengefasste Ergebnisse

Spalte	Beschreibung
Mittlere Punktzahl	Durchschnittliche Punktzahl für alle Instanzen.
Standardabweichung	Standardabweichung aller Punktzahlen.

Beispiele

Die Beispiele in diesem Abschnitt veranschaulichen, wie Sie die Bewertungsergebnisse lesen und einordnen.

Beispiel 1

Im ersten Beispiel sollten Sie eine punktweise Bewertungsinstanz für TEXT_QUALITY bewerten. Die Punktzahl aus der punktweisen Bewertung des Messwerts TEXT_QUALITY ist 4 (aus der Skala 1 bis 5), was bedeutet, dass die Antwort gut ist. Darüber hinaus zeigt die Erklärung im Bewertungsergebnis, warum das Bewertungsmodell der Meinung ist, dass die Vorhersage die Punktzahl 4 und keine höhere oder niedrigere Punktzahl verdient.

Dataset

prompt: „Fassen Sie den folgenden Text so zusammen, dass ein fünfjähriges Kind ihn verstehen kann: Social-Media-Plattform sieht sich wegen Richtlinien zur Inhaltsmoderation mit Gegenreaktionen konfrontiert\nEine bekannte Social-Media-Plattform gerät in Kontroverse, da Nutzer und Content-Creator ihre Unzufriedenheit mit den Richtlinien zur Inhaltsmoderation zum Ausdruck bringen. Vorwürfe der voreingenommenen Zensur, widersprüchliche Durchsetzung und Unterdrückung bestimmter Standpunkte haben zu Empörung bei Nutzern geführt, die behaupten, dass die Plattform die freie Meinungsäußerung unterbindet. Andererseits behauptet die Plattform, dass ihre Richtlinien darauf ausgerichtet sind, eine sichere und inklusive Onlineumgebung zu schaffen. Diese Kontroverse wirft umfassendere Fragen über die Rolle sozialer Medien bei der Gestaltung des öffentlichen Diskurses und die Verantwortlichkeiten von Plattformen bei der Auswahl von Onlineinhalten auf.“
response: „Nutzer sind wegen einer Website verärgert, weil sie finden, dass sie sich unfair dabei verhält, was Leute posten dürfen. Einige Nutzer sagen, dass sie auf der Website nicht sagen können, was sie wollen. Aber die Website sagt, dass sie versucht, alle zu schützen. Deswegen fragen sich die Leute, ob Websites kontrollieren sollten, was Menschen online sagen dürfen.“

Ergebnis

score: 4,
explanation: Die Zusammenfassung in der Antwort folgt der Anweisung, den Kontext so zusammenzufassen, dass ein fünfjähriges Kind ihn verstehen kann. Sie ist im Kontext verankert und enthält wichtige Details in der Zusammenfassung. Die in der Antwort verwendete Sprache ist jedoch etwas langatmig.

Beispiel 2

Das zweite Beispiel ist eine paarweise Vergleichsbewertung für PAIRWISE_QUESTION_ANSWERING_QUALITY. Das Ergebnis pairwise_choice zeigt, dass das Bewertungsmodell die CANDIDATE-Antwort „Frankreich ist ein Land in Westeuropa“ im Vergleich zur BASELINE-Antwort „Frankreich ist ein Land“ bevorzugt, um die Frage im Prompt zu beantworten. Ähnlich wie bei den punktbezogenen Ergebnissen wird auch erklärt, warum die CANDIDATE-Antwort besser ist als die BASELINE-Antwort (die CANDIDATE-Antwort ist in diesem Fall hilfreicher).

Dataset

prompt: „Können Sie anhand des folgenden Absatzes sagen, wo Frankreich liegt? Frankreich ist ein Land in Westeuropa. Es grenzt an Belgien, Luxemburg, Deutschland, Italien, Monaco, Spanien und Andorra. Die Küste Frankreichs erstreckt sich entlang des Ärmelkanals, der Nordsee, des Atlantischen Ozeans und des Mittelmeers. Frankreich ist für seine lange Geschichte, seine ikonischen Wahrzeichen wie den Eiffelturm und seine köstliche Küche bekannt, Frankreich ist eine wichtige kulturelle und wirtschaftliche Kraft in Europa und auf der ganzen Welt."
response: „Frankreich ist ein Land in Westeuropa.“
baseline_model_response: „Frankreich ist ein Land.“

Ergebnis

pairwise_choice: CANDIDATE.
explanation: Die BASELINE-Antwort ist fundiert, beantwortet die Frage aber nicht vollständig. Die CANDIDATE-Antwort ist dagegen korrekt und enthält nützliche Details zum Standort Frankreich.

Nächste Schritte

Probieren Sie ein Bewertungs-Beispielnotebook aus.
Weitere Informationen zur Bewertung mit generativer KI