Bewertungsmethoden und -messwerte bestimmen

Diese Seite bietet einen Überblick über unsere aktuellen Bewertungsmesswerte und wie die einzelnen Messwerte verwendet werden.

Punktweise im Vergleich zu paarweise

Sie müssen Ihr Bewertungsziel bestimmen, bevor Sie festlegen, welche Messwerte angewendet werden sollen. Dazu gehört die Bestimmung, ob eine punktweise oder paarweise Bewertung durchgeführt werden soll, wie unter Bewertungsparadigmen beschrieben.

Paradigma Geeignet für
Punktweise Informationen zum Modellverhalten in der Produktion:
  • Die Stärken und Schwächen eines einzelnen Modells erkunden.
  • Herausfinden, auf welches Verhalten Sie bei der Abstimmung den Schwerpunkt legen sollten.
  • Referenzleistung eines Modells abrufen.
Paarweise Modell bestimmen, das in die Produktion aufgenommen werden soll:
  • Wählen Sie einen Modelltyp aus. Beispiel: Gemini-Pro im Vergleich zu Claude 3.
  • Wählen Sie zwischen verschiedenen Prompts.
  • Prüfen Sie, ob durch die Abstimmung ein Basismodell verbessert wurde.

Aufgaben und Messwerte

So ermitteln Sie Ihre Aufgabe und Messwerte:

  1. Legen Sie fest, ob Sie eine paarweise oder eine punktweise Bewertung vornehmen möchten.
  2. Berücksichtigen Sie die Rolle Ihres Modells und welche Aspekte Ihrer Antwort wichtiger sind, um die Bewertungsaufgabe und Messwerte zu ermitteln, die berechnet werden sollen.

Die folgenden Fragen können Ihnen bei der Entscheidung helfen:

  • Identifizieren Sie die Aufgabe.
    • Was macht Ihr Modell?
    • Wird Ihr Modell Fragen beantworten?
    • Wenn Ihr Modell Fragen beantwortet, sollten Sie unsere Angebote für Question Answering-Messwerte in Betracht ziehen.
  • Ermitteln Sie die Messwerte.
    • Machen Sie sich Sorgen wegen der Sicherheit Ihrer Antworten oder der Sprachkompetenz? Wir haben Messwerte sowohl für Antworten als auch für Sprachkompetenz.

Messwert-Bundles

Messwert-Bundles kombinieren häufig verknüpfte Messwerte, um den Bewertungsprozess zu vereinfachen. Die Kombinationen orientieren sich an den folgenden Dimensionen:

  • Bewertungsaufgaben: Zusammenfassung, Question Answering und Textgenerierung
  • Bewertungsperspektiven: Ähnlichkeit, Sicherheit und Qualität
  • Eingabekonsistenz: Alle Messwerte im selben Bundle übernehmen dieselben Dataset-Eingaben.
  • Bewertungsparadigma: Punktweise im Vergleich zu paarweise

Die Messwert-Bundles können direkt im Online-Bewertungs-SDK verwendet werden, um Ihnen dabei zu helfen, Informationen zur Entwicklung Ihres benutzerdefinierten Bewertungs-Workflows zu gewinnen.

Diese Tabelle listet Details zu den verfügbaren Messwert-Bundles auf:

Name des Messwert-Bundles Messwertname Nutzereingabe
text_generation_similarity exact match
bleu
rouge
Vorhersage
Referenz
tool_call_quality tool_call_valid
tool_name_match
tool_parameter_key_match
tool_parameter_kv_match
Vorhersage
Referenz
text_generation_quality coherence
fluency
Vorhersage
text_generation_instruction_following fulfillment Vorhersage
Referenz
text_generation_safety safety Vorhersage
text_generation_factuality groundedness Vorhersage
Kontext
summarization_pointwise_reference_free summarization_quality
summarization_helpfulness
summarization_verbosity
Vorhersage
Kontext
Anweisung
summary_pairwise_reference_free pairwise_summarization_quality Vorhersage
Kontext
Anweisung
qa_pointwise_reference_free question_answering_quality
question_answering_relevance
question_answering_helpfulness
Vorhersage
Kontext
Anweisung
qa_pointwise_reference_based question_answering_correctness Vorhersage
Kontext
Anweisung
Referenz
qa_pairwise_reference_free pairwise_question_answering_quality Vorhersage
Kontext
Anweisung

Informationen zu Messwertergebnissen

Unterschiedliche Messwerte führen zu unterschiedlichen Ausgabeergebnissen. Daher erklären wir die Bedeutung der Ergebnisse und wie sie generiert werden, damit Sie Ihre Bewertungen interpretieren können.

Punktzahl und paarweise Auswahl

Je nach ausgewähltem Bewertungsparadigma wird score in einem punktweisen Bewertungsergebnis oder pairwise_choice in Ihrem paarweisen Bewertungsergebnis angezeigt.

Bei der punktweisen Bewertung ist die Punktzahl im Bewertungsergebnis die numerische Darstellung der Leistung oder der Qualität der bewerteten Modellausgabe. Die Punktzahlskalen unterscheiden sich je nach Messwert: Sie können Binärzahlen (0 und 1), Likert-Skalen (1 bis 5 oder -2 bis 2) oder Gleitkommazahlen (0,0 bis 1,0) sein. Eine ausführliche Beschreibung der Punktzahlwerte für jeden Messwert finden Sie im Abschnitt zu Aufgaben und Messwerten.

Bei paarweisen Messwerten ist die pairwise_choice im Bewertungsergebnis eine Aufzählung, die angibt, ob die Kandidaten- oder die Baseline-Vorhersage mit den folgenden möglichen Werten besser ist:

  • BASELINE: Baseline-Vorhersage ist besser
  • CANDIDATE: Kandidatenvorhersage ist besser

Wenn Sie paarweise Bewertungen mit dem Pipeline-Bewertungsdienst ausführen, sind "A" und "B" Ausgabeauswahloptionen anstelle von Baseline- und Kandidatenvorhersagen.

Erklärung und Konfidenzwert

Erklärung und Konfidenzwert sind Funktionen der modellbasierten Bewertung.

Messwert Definition Typ Funktionsweise
Erklärung Der Grund des Autoraters für seine Wahl. String Wir verwenden die Chain-of-Thought-Logik, um den AutoRater anzuweisen, die Überlegungen zu jedem Ergebnis zu erläutern. Es erweist sich, dass die Bewertungsgenauigkeit sich verbessert, wenn der AutoRater zur Argumentation gezwungen wird.
Konfidenzwert Ein Wert zwischen 0 und 1, der angibt, wie sicher der AutoRater mit seinem Ergebnis war. Ein Wert, der näher an 1 liegt, bedeutet eine höhere Konfidenz. Gleitkommazahl Bei der modellbasierten Bewertung wird die Decodierungsstrategie der Selbstkonsistenz verwendet, um die Bewertungsergebnisse zu bestimmen, wodurch erwiesenermaßen die Bewertungsgenauigkeit verbessert wird. Bei einer einzelnen Bewertungseingabe entnehmen wir dem AutoRater also mehrmals Stichproben und geben das Konsensergebnis zurück. Die Variation dieser Stichprobenergebnisse ist eine Messung der Konfidenz des AutoRaters in Bezug auf sein Ergebnis.

Beispiele

Mithilfe dieser Beispiele können Sie üben, wie Sie die Ergebnisse lesen und einordnen.

Beispiel 1

Im ersten Beispiel sollten Sie eine punktweise Bewertungsinstanz für summarizationQuality bewerten: Die Punktzahl aus der punktweisen Bewertung des Messwerts summarization_quality ist 4 (aus der Skala 1 bis 5), was bedeutet, dass die Vorhersage eine gute Zusammenfassung ist. Darüber hinaus zeigt die explanation im Bewertungsergebnis, warum der Autorater der Meinung ist, dass die Vorhersage die Punktzahl 4 und keine höhere oder niedrigere Punktzahl verdient. Der confidence-Wert aus dem Bewertungsergebnis zeigt an, wie sicher der Autorater in Bezug auf die Punktzahl ist. Ein Konfidenzwert von 0,8 (aus der Skala 0,0 bis 1,0) bedeutet, dass der Autorater sich sicher ist, dass die Zusammenfassung eine Punktzahl von 4 haben sollte.

Dataset

  • instruction: "Fasse den Text so zusammen, dass ein fünfjähriges Kind es verstehen kann."
  • context: „Social-Media-Plattform sieht sich wegen Richtlinien zur Inhaltsmoderation mit Gegenreaktionen konfrontiert\nA bekannte Social-Media-Plattform gerät in Kontroverse, da Nutzer und Content-Creator ihre Unzufriedenheit mit den Richtlinien zur Inhaltsmoderation zum Ausdruck bringen. Vorwürfe der voreingenommenen Zensur, widersprüchliche Durchsetzung und Unterdrückung bestimmter Standpunkte haben zu Empörung bei Nutzern geführt, die behaupten, dass die Plattform die freie Meinungsäußerung unterbindet. Andererseits bestätigt die Plattform, dass ihre Richtlinien darauf ausgelegt sind, eine sichere und inklusive Onlineumgebung zu gewährleisten. Diese Kontroverse wirft umfassendere Fragen über die Rolle sozialer Medien bei der Gestaltung des öffentlichen Diskurses und die Verantwortlichkeiten von Plattformen bei der Auswahl von Onlineinhalten auf.“
  • prediction: „Nutzer sind wegen einer Website verärgert, weil sie finden, dass sie sich unfair dabei verhält, was Leute posten dürfen. Manche Leute sagen, dass die Website sie daran hindert, das zu sagen, was sie wollen. Aber die Website sagt, dass sie versucht, alle zu schützen. Deswegen fragen sich die Leute, ob Websites kontrollieren sollten, was Menschen online sagen dürfen.“

Ergebnis

  • score: 4,
  • explanation: Die Zusammenfassung in der Antwort folgt der Anweisung, den Kontext so zusammenzufassen, dass ein fünfjähriges Kind ihn verstehen kann. Sie baut auf dem Kontext auf und liefert wichtige Details in der Zusammenfassung. Die in der Antwort verwendete Sprache ist jedoch etwas ausführlich.
  • confidence: 0.8

Beispiel 2

Das zweite Beispiel ist eine Bewertung eines paarweisen direkten Vergleichs für pairwiseQuestionAnsweringQuality: Das Ergebnis pairwiseChoice zeigt, dass die Kandidatenantwort "Frankreich ist ein Land in Westeuropa." vom Autorater im Vergleich zur Baseline-Antwort "Frankreich ist ein Land." bevorzugt wird, um die Frage in der instruction mit Hintergrundinformationen aus dem context zu beantworten. Ähnlich wie bei punktweisen Ergebnissen werden auch eine Erläuterung und ein Konfidenzwert bereitgestellt, um zu erläutern, warum die Kandidatenantwort besser als die Baseline-Antwort ist (die Kandidatenantwort ist in diesem Fall hilfreicher) und wie sicher der Autorater sich bei dieser Auswahl ist (der Konfidenzwert 1 bedeutet hier, dass der Autorater sich in Bezug auf diese Auswahl so sicher wie möglich ist).

Dataset

  • prediction: "Frankreich ist ein Land in Westeuropa.",
  • baseline_prediction: "Frankreich ist ein Land.",
  • instruction: "Wo liegt Frankreich?",
  • context: "Frankreich ist ein Land in Westeuropa. Es grenzt an Belgien, Luxemburg, Deutschland, Italien, Monaco, Spanien und Andorra. Die Küste Frankreichs erstreckt sich entlang des Ärmelkanals, der Nordsee, des Atlantischen Ozeans und des Mittelmeers. Frankreich ist für seine lange Geschichte, seine ikonischen Wahrzeichen wie den Eiffelturm und seine köstliche Küche bekannt, Frankreich ist eine wichtige kulturelle und wirtschaftliche Kraft in Europa und auf der ganzen Welt.",

Ergebnis

  • pairwiseChoice: KANDIDAT,
  • explanation: Die BASELINE-Antwort ist fundiert, beantwortet die Frage aber nicht vollständig. Die CANDIDATE-Antwort ist dagegen korrekt und enthält nützliche Details zum Standort Frankreich.
  • confidence: 1

Nächste Schritte