Bewertungsdienst für generative KI – Übersicht

Vertex AI bietet sowohl für Vorhersage- als auch für generative KI-Modelle Modellbewertungs-Messwerte an. Diese Seite bietet einen Überblick über den Bewertungsdienst für generative KI-Modelle. Informationen zum Bewerten eines KI-Vorhersagemodells finden Sie unter Modellbewertung in Vertex AI.

Auf dieser Seite erhalten Sie einen Überblick über den Bewertungsdienst für generative KI, mit dem Sie die Modellleistung für bestimmte Anwendungsfälle bewerten können. Sie können auch die Bewertung als Beobachtbarkeit für die Leistung eines Modells bezeichnen. Mit dem Bewertungsdienst für generative KI können Sie die Modellleistung unter verschiedenen Bedingungen überwachen und Informationen bereitstellen, mit denen Sie Ihr Modell basierend auf Ihrem spezifischen Anwendungsfall optimieren können.

Bestenlisten können Messwerte zur allgemeinen Leistung des Modells liefern, aber nicht zur Leistung des Modells in bestimmten Anwendungsfällen. Wenn Sie große Sprachmodelle (LLMs) entwickeln, ist es wichtig, Ihr Modell anhand von Kriterien zu bewerten, die für Ihren Anwendungsfall spezifisch sind.

Mithilfe von Bewertungen wird sichergestellt, dass Modelle an die domainspezifischen Anforderungen verschiedener Nutzer angepasst werden können. Durch die Bewertung von Modellen anhand benutzerdefinierter Benchmarks und Ziele können Sie Prompt Engineering und Modellabstimmung anwenden, um besser die Anforderungen der Unternehmen zu erfüllen, die Sie bedienen. Diese Bewertungen werden verwendet, um die Entwicklung und Verbesserung von Modellen zu unterstützen und gleichzeitig dafür zu sorgen, dass die Modelle für Ihre Nutzer nützlich, sicher und effektiv sind.

Zu den wichtigsten Messwerten, die vom Dienst zur generativen KI-Modellbewertung bereitgestellt werden, gehören:

  • Genaue Übereinstimmung
  • ROUGE
  • BLEU
  • Zusammenfassung: Nützlichkeit, Qualität und Ausführlichkeit

Beispielanwendungsfälle

Sie bewerten generative KI-Modelle, um eine Benchmark für die Modellleistung zu bieten und die strategische Entwicklung und Optimierung Ihrer Modelle und Anwendungen zu unterstützen. Dadurch wird sichergestellt, dass generative KI-Modelle Ihren Geschäftsanforderungen entsprechen. Die Modellbewertung bietet für verschiedene Entwicklungsphasen unterschiedliche Vorteile. In der Vorproduktion können Sie mithilfe der Modellbewertung ein Modell auswählen und anpassen. Während der Produktion können Sie die Leistung des Modells überwachen, um sicherzustellen, dass die Modelle effektiv sind.

Die Bewertung mit generativer KI kann auf eine Reihe von Anwendungsfallszenarien angewendet werden, darunter:

  • Vortrainierte Modelle auswählen: Wählen Sie ein vortrainiertes Modell für eine bestimmte Aufgabe oder Anwendung aus. Dazu bewerten Sie die Leistung des Modells für die zugehörigen Benchmarkaufgaben.
  • Einstellungen für die Modellgenerierung konfigurieren: Optimieren Sie die Konfigurationseinstellungen von Parametern zur Modellgenerierung, z. B. temperature, um die Leistung von Aufgaben zu verbessern.
  • Prompt Engineering mit einer Vorlage: Entwerfen Sie effektivere Prompts, die zu einer qualitativ höheren Ausgabe führen, was die Interaktion mit dem Modell verbessert.
  • Feinabstimmung verbessern und schützen: Optimieren Sie Prozesse, um die Modellleistung zu verbessern und gleichzeitig Verzerrungen oder unerwünschtes Verhaltensweisen zu vermeiden.

Weitere Informationen zu generativen Sprachmodellen finden Sie unter Bewertungs-Notebooks.

Bewertungsdienste

Vertex AI bietet zwei Dienstoptionen zum Durchführen der Bewertung von generativen KI-Modellen. Wählen Sie den Dienst aus, der am besten zu Ihrem Anwendungsfall passt:

Dienst Anwendungsfall
Onlinebewertung (schnelle Bewertung) Einige Instanzen zur Bewertung. Workflows, die schnelle Iterationen erfordern.
Pipelinebewertung (AutoSxS und berechnungsbasiert) Viele Instanzen, die bewertet werden sollen. Asynchrone Workflows und MLOps. Auf Vertex AI Pipelines basierende Bewertungsvorlagen.

Schnelle Bewertung

Der Dienst für die schnelle Bewertung erzeugt eine niedrige Latenz und eine synchrone Bewertungen für kleine Datenmengen. Sie können bei Bedarf Bewertungen durchführen und den Onlinedienst mithilfe des Vertex AI SDK für Python in andere Vertex AI-Dienste einbinden. Durch die Verwendung des SDK kann der Onlinedienst an eine Vielzahl von Anwendungsfällen angepasst werden.

Der Onlinedienst eignet sich am besten für Anwendungsfälle, die kleine Datenmengen enthalten, oder wenn Sie schnell iterieren und experimentieren müssen.

Pipelinebewertung: AutoSxS und berechnungsbasiert

Bewertungspipeline-Dienste bieten End-to-End-Optionen für die Bewertung generativer KI-Modelle. Bei diesen Optionen werden Vertex AI Pipelines verwendet, um eine Reihe von Schritten im Zusammenhang mit der Bewertung zu orchestrieren, z. B. Generieren von Modellantworten, Aufrufen des Online-Bewertungsdienstes und Berechnen von Messwerten. Diese Schritte können auch einzeln in benutzerdefinierten Pipelines aufgerufen werden.

Da Vertex AI Pipelines serverlos ist, ist mit der Verwendung von Pipelines zur Bewertung eine höhere Startlatenz verbunden. Daher eignet sich dieser Dienst besser für größere Bewertungsjobs, Workflows, bei denen eine Bewertung nicht sofort erforderlich ist, und die Integration in MLOps-Pipelines.

Wir bieten zwei separate Bewertungspipelines:

Bewertungsparadigmen

Die Bewertung von generativer KI funktioniert aufgrund von zwei Paradigmen für die Bewertung von Modellen, darunter:

  • Pointwise: Sie können genau ein Modell bewerten.
  • Paaweise: Sie können zwei Modelle miteinander vergleichen.

Pointwise

Die punktweise Bewertung bewertet die Leistung eines einzelnen Modells. Damit können Sie nachvollziehen, wie gut das Modell bei einer bestimmten Aufgabe wie summarization oder einer Dimension wie instruction following funktioniert. Der Bewertungsprozess umfasst die folgenden Schritte:

  1. Die vorhergesagten Ergebnisse werden aus dem Modell basierend auf dem Eingabe-Prompt generiert.
  2. Die Bewertung wird anhand der generierten Ergebnisse durchgeführt.

Je nach Bewertungsmethode sind möglicherweise Eingabe/Ausgabe-Paare und die Ground-Truth-Daten erforderlich. Wenn Ground Truth verfügbar ist, werden die Ausgaben des Modells basierend darauf bewertet, wie gut sie zu den erwarteten Ergebnissen entsprechen. Weitere Informationen finden Sie unter Berechnungsbasierte Bewertung ausführen. Bei Verwendung ohne Ground Truth basiert die Bewertung auf der Antwort des Modells auf Eingabe-Prompts. Es wird außerdem ein separates Modell zur automatischen Bewertung verwendet. Weitere Informationen finden Sie unter AutoSxS-Bewertung ausführen (paarweise modellbasierte Bewertung), um Messwerte zu erstellen, die an die Art der Aufgabe angepasst sind. Sie können beispielsweise coherence und relevance in text generation oder accuracy in summarization verwenden.

Dieses Modell ermöglicht ein Verständnis der Fähigkeiten eines Modells bei der Generierung von Inhalten und bietet Einblicke in die Stärken und Verbesserungsbereiche des Modells in einem eigenständigen Kontext, ohne dass ein direkter Vergleich mit einem anderen Modell erforderlich ist.

Paarweise

Die paarweise Bewertung wird durch den Vergleich der Vorhersagen von zwei Modellen durchgeführt. Sie haben ein Modell A, das mit einem Modell B, dem Basisreferenzmodell, bewertet werden soll. Sie müssen Eingabe-Prompts angeben, die die Eingabedomain darstellen, die für den Vergleich der Modelle verwendet wird. Bei demselben Eingabe-Prompt gibt der direkte Vergleich an, welche Modellvorhersage anhand Ihrer Vergleichskriterien bevorzugt wird. Die endgültigen Bewertungsergebnisse werden vom win rate erfasst. Dieses Modell funktioniert auch ohne einen Verweis auf Ground-Truth-Daten.

Bewertungsmethoden

Es gibt zwei Kategorien von Messwerten, die auf der Bewertungsmethode basieren:

Berechnungsbasierte Messwerte

Berechnungsbasierte Messwerte vergleichen, ob die von LLM generierten Ergebnisse mit einem Ground Truth-Dataset von Eingabe/Ausgabe-Paaren konsistent sind. Die häufig verwendeten Messwerte können in folgende Gruppen unterteilt werden:

  • Lexikonbasierte Messwerte: Verwenden Sie Berechnungen, um die String-Ähnlichkeiten zwischen von LLM generierten Ergebnissen und Ground Truth zu berechnen, z. B. Exact Match und ROUGE.
  • Zählungsbasierte Messwerte: Aggregieren Sie die Anzahl der Zeilen, die bestimmte Ground-Truth-Labels wie F1-score, Accuracy und Tool Name Match erreichen oder nicht.
  • Einbettungsbasierte Messwerte: Berechnen Sie die Entfernung zwischen den von LLM generierten Ergebnissen und Ground Truth im Einbettungsbereich und geben Sie deren Ähnlichkeitsgrad an.

Im Bewertungsdienst für generative KI können Sie berechnungsbasierte Messwerte über die Pipeline und das Python SDK für die schnelle Bewertung verwenden. Die berechnungsbasierte Bewertung kann nur in punktweisen Anwendungsfällen durchgeführt werden. Sie können jedoch die Messwertwerte zweier Modelle direkt vergleichen, um einen paarweisen Vergleich zu ermöglichen.

Modellbasierte Messwerte

Es wird ein Autoscaling-Modell verwendet, um modellbasierte Bewertungsmesswerte zu generieren. Ähnlich wie menschliche Evaluators führt der Autorater komplexe und differenzierte Bewertungen durch. Autorater versuchen, die menschliche Bewertung zu verbessern, und wir kalibrieren die Qualität der Autorater offline mit menschlichen Evaluatoren. Ähnlich wie menschliche Evaluatoren legt der Autorater die Qualität der Antworten über eine numerische Punktzahlausgabe fest und liefert die Gründe für seine Beurteilungen sowie einen Konfidenzgrad. Weitere Informationen finden Sie unter Bewertungsergebnisse ansehen.

Die modellbasierte Bewertung ist bei Bedarf verfügbar und bewertet Sprachmodelle mit einer vergleichbaren Leistung wie menschliche Beurteiler. Weitere Vorteile der modellbasierten Bewertung:

  • Bewertet Natural Language-Modelle ohne menschliche Präferenzdaten.
  • Erzielt bessere Skalierung, erhöht die Verfügbarkeit und senkt Kosten im Vergleich zur Bewertung von Sprachmodellen mit menschlichen Beurteilern.
  • Erzielt Bewertungstransparenz durch Erfassung von Präferenzerläuterungen und Konfidenzbewertungen.

Dieses Diagramm veranschaulicht, wie die paarweise modellbasierte Bewertung funktioniert, die in punktspezifischen und paarweisen Anwendungsfällen durchgeführt werden kann. Sie können sehen, wie der Autorater die paarweise Bewertung im Bewertungspipelinedienst AutoSxS durchführt.

Übersicht über die Funktionsweise von AutoSxS

Nächste Schritte