Diese Seite bietet einen Überblick über unsere aktuellen Bewertungsmesswerte und wie die einzelnen Messwerte verwendet werden.
Punktweise im Vergleich zu paarweise
Sie müssen Ihr Bewertungsziel bestimmen, bevor Sie festlegen, welche Messwerte angewendet werden sollen. Dazu gehört die Bestimmung, ob eine punktweise oder paarweise Bewertung durchgeführt werden soll, wie unter Bewertungsparadigmen beschrieben.
Paradigma | Geeignet für |
---|---|
Punktweise | Informationen zum Modellverhalten in der Produktion:
|
Paarweise | Modell bestimmen, das in die Produktion aufgenommen werden soll:
|
Aufgaben und Messwerte
So ermitteln Sie Ihre Aufgabe und Messwerte:
- Legen Sie fest, ob Sie eine paarweise oder eine punktweise Bewertung vornehmen möchten.
- Berücksichtigen Sie die Rolle Ihres Modells und welche Aspekte Ihrer Antwort wichtiger sind, um die Bewertungsaufgabe und Messwerte zu ermitteln, die berechnet werden sollen.
Die folgenden Fragen können Ihnen bei der Entscheidung helfen:
- Identifizieren Sie die Aufgabe.
- Was macht Ihr Modell?
- Wird Ihr Modell Fragen beantworten?
- Wenn Ihr Modell Fragen beantwortet, sollten Sie unsere Angebote für Question Answering-Messwerte in Betracht ziehen.
- Ermitteln Sie die Messwerte.
- Machen Sie sich Sorgen wegen der Sicherheit Ihrer Antworten oder der Sprachkompetenz? Wir haben Messwerte sowohl für Antworten als auch für Sprachkompetenz.
Messwert-Bundles
Messwert-Bundles kombinieren häufig verknüpfte Messwerte, um den Bewertungsprozess zu vereinfachen. Die Kombinationen orientieren sich an den folgenden Dimensionen:
- Bewertungsaufgaben: Zusammenfassung, Question Answering und Textgenerierung
- Bewertungsperspektiven: Ähnlichkeit, Sicherheit und Qualität
- Eingabekonsistenz: Alle Messwerte im selben Bundle übernehmen dieselben Dataset-Eingaben.
- Bewertungsparadigma: Punktweise im Vergleich zu paarweise
Die Messwert-Bundles können direkt im Online-Bewertungs-SDK verwendet werden, um Ihnen dabei zu helfen, Informationen zur Entwicklung Ihres benutzerdefinierten Bewertungs-Workflows zu gewinnen.
Diese Tabelle listet Details zu den verfügbaren Messwert-Bundles auf:
Name des Messwert-Bundles | Messwertname | Nutzereingabe |
---|---|---|
text_generation_similarity |
exact match bleu rouge |
Vorhersage Referenz |
tool_call_quality |
tool_call_valid tool_name_match tool_parameter_key_match tool_parameter_kv_match |
Vorhersage Referenz |
text_generation_quality |
coherence fluency |
Vorhersage |
text_generation_instruction_following |
fulfillment |
Vorhersage Referenz |
text_generation_safety |
safety |
Vorhersage |
text_generation_factuality |
groundedness |
Vorhersage Kontext |
summarization_pointwise_reference_free |
summarization_quality summarization_helpfulness summarization_verbosity |
Vorhersage Kontext Anweisung |
summary_pairwise_reference_free |
pairwise_summarization_quality |
Vorhersage Kontext Anweisung |
qa_pointwise_reference_free |
question_answering_quality question_answering_relevance question_answering_helpfulness |
Vorhersage Kontext Anweisung |
qa_pointwise_reference_based |
question_answering_correctness |
Vorhersage Kontext Anweisung Referenz |
qa_pairwise_reference_free |
pairwise_question_answering_quality |
Vorhersage Kontext Anweisung |
Informationen zu Messwertergebnissen
Unterschiedliche Messwerte führen zu unterschiedlichen Ausgabeergebnissen. Daher erklären wir die Bedeutung der Ergebnisse und wie sie generiert werden, damit Sie Ihre Bewertungen interpretieren können.
Punktzahl und paarweise Auswahl
Je nach ausgewähltem Bewertungsparadigma wird score
in einem punktweisen Bewertungsergebnis oder pairwise_choice
in Ihrem paarweisen Bewertungsergebnis angezeigt.
Bei der punktweisen Bewertung ist die Punktzahl im Bewertungsergebnis die numerische Darstellung der Leistung oder der Qualität der bewerteten Modellausgabe. Die Punktzahlskalen unterscheiden sich je nach Messwert: Sie können Binärzahlen (0 und 1), Likert-Skalen (1 bis 5 oder -2 bis 2) oder Gleitkommazahlen (0,0 bis 1,0) sein. Eine ausführliche Beschreibung der Punktzahlwerte für jeden Messwert finden Sie im Abschnitt zu Aufgaben und Messwerten.
Bei paarweisen Messwerten ist die pairwise_choice
im Bewertungsergebnis eine Aufzählung, die angibt, ob die Kandidaten- oder die Baseline-Vorhersage mit den folgenden möglichen Werten besser ist:
- BASELINE: Baseline-Vorhersage ist besser
- CANDIDATE: Kandidatenvorhersage ist besser
Wenn Sie paarweise Bewertungen mit dem Pipeline-Bewertungsdienst ausführen, sind "A" und "B" Ausgabeauswahloptionen anstelle von Baseline- und Kandidatenvorhersagen.
Erklärung und Konfidenzwert
Erklärung und Konfidenzwert sind Funktionen der modellbasierten Bewertung.
Messwert | Definition | Typ | Funktionsweise |
---|---|---|---|
Erklärung | Der Grund des Autoraters für seine Wahl. | String | Wir verwenden die Chain-of-Thought-Logik, um den AutoRater anzuweisen, die Überlegungen zu jedem Ergebnis zu erläutern. Es erweist sich, dass die Bewertungsgenauigkeit sich verbessert, wenn der AutoRater zur Argumentation gezwungen wird. |
Konfidenzwert | Ein Wert zwischen 0 und 1, der angibt, wie sicher der AutoRater mit seinem Ergebnis war. Ein Wert, der näher an 1 liegt, bedeutet eine höhere Konfidenz. | Gleitkommazahl | Bei der modellbasierten Bewertung wird die Decodierungsstrategie der Selbstkonsistenz verwendet, um die Bewertungsergebnisse zu bestimmen, wodurch erwiesenermaßen die Bewertungsgenauigkeit verbessert wird. Bei einer einzelnen Bewertungseingabe entnehmen wir dem AutoRater also mehrmals Stichproben und geben das Konsensergebnis zurück. Die Variation dieser Stichprobenergebnisse ist eine Messung der Konfidenz des AutoRaters in Bezug auf sein Ergebnis. |
Beispiele
Mithilfe dieser Beispiele können Sie üben, wie Sie die Ergebnisse lesen und einordnen.
Beispiel 1
Im ersten Beispiel sollten Sie eine punktweise Bewertungsinstanz für summarizationQuality
bewerten: Die Punktzahl aus der punktweisen Bewertung des Messwerts summarization_quality
ist 4 (aus der Skala 1 bis 5), was bedeutet, dass die Vorhersage eine gute Zusammenfassung ist. Darüber hinaus zeigt die explanation
im Bewertungsergebnis, warum der Autorater der Meinung ist, dass die Vorhersage die Punktzahl 4 und keine höhere oder niedrigere Punktzahl verdient. Der confidence
-Wert aus dem Bewertungsergebnis zeigt an, wie sicher der Autorater in Bezug auf die Punktzahl ist. Ein Konfidenzwert von 0,8 (aus der Skala 0,0 bis 1,0) bedeutet, dass der Autorater sich sicher ist, dass die Zusammenfassung eine Punktzahl von 4 haben sollte.
Dataset
instruction
: "Fasse den Text so zusammen, dass ein fünfjähriges Kind es verstehen kann."context
: „Social-Media-Plattform sieht sich wegen Richtlinien zur Inhaltsmoderation mit Gegenreaktionen konfrontiert\nA bekannte Social-Media-Plattform gerät in Kontroverse, da Nutzer und Content-Creator ihre Unzufriedenheit mit den Richtlinien zur Inhaltsmoderation zum Ausdruck bringen. Vorwürfe der voreingenommenen Zensur, widersprüchliche Durchsetzung und Unterdrückung bestimmter Standpunkte haben zu Empörung bei Nutzern geführt, die behaupten, dass die Plattform die freie Meinungsäußerung unterbindet. Andererseits bestätigt die Plattform, dass ihre Richtlinien darauf ausgelegt sind, eine sichere und inklusive Onlineumgebung zu gewährleisten. Diese Kontroverse wirft umfassendere Fragen über die Rolle sozialer Medien bei der Gestaltung des öffentlichen Diskurses und die Verantwortlichkeiten von Plattformen bei der Auswahl von Onlineinhalten auf.“prediction
: „Nutzer sind wegen einer Website verärgert, weil sie finden, dass sie sich unfair dabei verhält, was Leute posten dürfen. Manche Leute sagen, dass die Website sie daran hindert, das zu sagen, was sie wollen. Aber die Website sagt, dass sie versucht, alle zu schützen. Deswegen fragen sich die Leute, ob Websites kontrollieren sollten, was Menschen online sagen dürfen.“
Ergebnis
score
: 4,explanation
: Die Zusammenfassung in der Antwort folgt der Anweisung, den Kontext so zusammenzufassen, dass ein fünfjähriges Kind ihn verstehen kann. Sie baut auf dem Kontext auf und liefert wichtige Details in der Zusammenfassung. Die in der Antwort verwendete Sprache ist jedoch etwas ausführlich.confidence
: 0.8
Beispiel 2
Das zweite Beispiel ist eine Bewertung eines paarweisen direkten Vergleichs für pairwiseQuestionAnsweringQuality
: Das Ergebnis pairwiseChoice
zeigt, dass die Kandidatenantwort "Frankreich ist ein Land in Westeuropa." vom Autorater im Vergleich zur Baseline-Antwort "Frankreich ist ein Land." bevorzugt wird, um die Frage in der instruction
mit Hintergrundinformationen aus dem context
zu beantworten. Ähnlich wie bei punktweisen Ergebnissen werden auch eine Erläuterung und ein Konfidenzwert bereitgestellt, um zu erläutern, warum die Kandidatenantwort besser als die Baseline-Antwort ist (die Kandidatenantwort ist in diesem Fall hilfreicher) und wie sicher der Autorater sich bei dieser Auswahl ist (der Konfidenzwert 1 bedeutet hier, dass der Autorater sich in Bezug auf diese Auswahl so sicher wie möglich ist).
Dataset
prediction
: "Frankreich ist ein Land in Westeuropa.",baseline_prediction
: "Frankreich ist ein Land.",instruction
: "Wo liegt Frankreich?",context
: "Frankreich ist ein Land in Westeuropa. Es grenzt an Belgien, Luxemburg, Deutschland, Italien, Monaco, Spanien und Andorra. Die Küste Frankreichs erstreckt sich entlang des Ärmelkanals, der Nordsee, des Atlantischen Ozeans und des Mittelmeers. Frankreich ist für seine lange Geschichte, seine ikonischen Wahrzeichen wie den Eiffelturm und seine köstliche Küche bekannt, Frankreich ist eine wichtige kulturelle und wirtschaftliche Kraft in Europa und auf der ganzen Welt.",
Ergebnis
pairwiseChoice
: KANDIDAT,explanation
: Die BASELINE-Antwort ist fundiert, beantwortet die Frage aber nicht vollständig. Die CANDIDATE-Antwort ist dagegen korrekt und enthält nützliche Details zum Standort Frankreich.confidence
: 1
Nächste Schritte
- Informationen zum schnellen Ausführen des Online-Bewertungsdienstes. Probieren Sie die Kurzanleitung zur Onlinebewertung aus.
- Weitere Informationen zum Online-Bewertungsdienst
- Weitere Informationen zur berechnungsbasierten Bewertung
- Weitere Informationen zur paarweisen modellbasierten Bewertung.
- Foundation Model optimieren