Mit dem Gen AI Evaluation Service in Vertex AI können Sie jedes generative Modell oder jede generative Anwendung bewerten und die Bewertungsergebnisse anhand Ihrer eigenen Bewertungskriterien mit Ihrem eigenen Urteil vergleichen.
Bestenlisten und Berichte bieten zwar Einblicke in die Gesamtleistung des Modells, aber nicht, wie ein Modell Ihre spezifischen Anforderungen erfüllt. Der Gen AI Evaluation Service hilft Ihnen, Ihre eigenen Bewertungskriterien zu definieren, damit Sie genau nachvollziehen können, wie gut generative KI-Modelle und ‑Anwendungen zu Ihrem individuellen Anwendungsfall passen.
Die Bewertung ist in jedem Schritt Ihres Entwicklungsprozesses für generative KI wichtig, einschließlich der Modellauswahl, Prompt Engineering und Modellanpassung. Die Bewertung von generativer KI ist in Vertex AI integriert, damit Sie Bewertungen nach Bedarf starten und wiederverwenden können.
Funktionen des Gen AI Evaluation Service
Der Gen AI Evaluation Service kann Ihnen bei den folgenden Aufgaben helfen:
Modellauswahl: Wählen Sie anhand der Benchmark-Ergebnisse und der Leistung des Modells für Ihre spezifischen Daten das beste vorab trainierte Modell für Ihre Aufgabe aus.
Generierungseinstellungen: Sie können Modellparameter (wie die Temperatur) anpassen, um die Ausgabe für Ihre Anforderungen zu optimieren.
Prompt Engineering: Erstellen Sie effektive Prompts und Promptvorlagen, um das Modell zu Ihrem gewünschten Verhalten und Ihren gewünschten Antworten zu führen.
Optimierung und Absicherung der Feinabstimmung: Sie können ein Modell feinabstimmen, um die Leistung für Ihren Anwendungsfall zu verbessern und gleichzeitig Verzerrungen oder unerwünschte Verhaltensweisen zu vermeiden.
RAG-Optimierung: Wählen Sie die effektivste Retrieval Augmented Generation (RAG)-Architektur aus, um die Leistung Ihrer Anwendung zu verbessern.
Migration: Bewerten und verbessern Sie die Leistung Ihrer KI-Lösung kontinuierlich, indem Sie zu neueren Modellen migrieren, wenn diese einen klaren Vorteil für Ihren spezifischen Anwendungsfall bieten.
Bewertungsprozess
Mit dem Gen AI Evaluation Service können Sie jedes generative KI-Modell oder jede generative KI-Anwendung anhand Ihrer Bewertungskriterien bewerten. Gehen Sie dazu so vor:
Bewertungsmesswerte definieren:
Erfahren Sie, wie Sie modellbasierte Messwerte an Ihre Geschäftskriterien anpassen.
Sie können ein einzelnes Modell (punktweise) bewerten oder den Gewinner ermitteln, wenn Sie zwei Modelle (paarweise) vergleichen.
Fügen Sie berechnungsbasierte Messwerte hinzu, um zusätzliche Einblicke zu erhalten.
Bereiten Sie das Bewertungs-Dataset vor.
- Geben Sie ein Dataset an, das Ihren spezifischen Anwendungsfall widerspiegelt.
Führen Sie eine Bewertung durch.
Sie können ganz neu beginnen, eine Vorlage verwenden oder vorhandene Beispiele anpassen.
Definieren Sie Kandidatenmodelle und erstellen Sie einen
EvalTask
, um Ihre Bewertungslogik über Vertex AI wiederzuverwenden.
Sehen Sie sich Ihre Bewertungsergebnisse an und interpretieren Sie sie.
Notebooks für Anwendungsfälle der Bewertung
In der folgenden Tabelle sind Notebooks für das Vertex AI SDK für Python für verschiedene Anwendungsfälle zur Bewertung generativer KI aufgeführt:
Anwendungsfall | Beschreibung | Links zu Notebooks |
---|---|---|
Modelle bewerten | Kurzanleitung: Einführung in das Gen AI Evaluation Service SDK | Erste Schritte mit dem Gen AI Evaluation Service SDK |
Bewerten und wählen Sie eigene (1P) Foundation Models für Ihre Aufgabe aus. | Bewerten und wählen Sie eigene (1P) Foundation Models für Ihre Aufgabe aus. | |
Gen AI-Modelleinstellungen bewerten und auswählen: Passen Sie die Temperatur, das Ausgabetokenlimit, die Sicherheitseinstellungen und andere Konfigurationen der Modellgenerierung von Gemini-Modellen für eine Zusammenfassungsaufgabe an und vergleichen Sie die Bewertungsergebnisse verschiedener Modelleinstellungen anhand mehrerer Messwerte. |
Verschiedene Modellparametereinstellungen für Gemini vergleichen | |
Drittanbietermodelle in Vertex AI Model Garden bewerten In diesem Notebook finden Sie einen umfassenden Leitfaden zur Bewertung der Gemini-Modelle von Google und der Sprachmodelle von Drittanbietern mit dem Gen AI Evaluation Service SDK. Hier erfahren Sie, wie Sie Modelle aus verschiedenen Quellen, einschließlich offener und geschlossener Modelle, Modellendpunkte und Clientbibliotheken von Drittanbietern, mithilfe verschiedener Bewertungsmesswerte und ‑techniken bewerten und vergleichen. Sie sammeln praktische Erfahrungen beim Durchführen kontrollierter Tests und Analysieren der Modellleistung bei einer Vielzahl von Aufgaben. |
Gen AI Evaluation SDK zum Bewerten von Modellen in Vertex AI Studio, Model Garden und Model Registry verwenden | |
Migrieren Sie mit dem Gen AI Evaluation Service SDK von PaLM zu Gemini. In diesem Notebook erfahren Sie, wie Sie PaLM- und Gemini-Foundation Models anhand mehrerer Bewertungsmesswerte bewerten, um Entscheidungen zur Migration von einem Modell zu einem anderen zu unterstützen. Wir visualisieren diese Messwerte, um Einblicke in die Stärken und Schwächen der einzelnen Modelle zu erhalten. So können Sie fundierte Entscheidungen darüber treffen, welches Modell am besten zu den spezifischen Anforderungen Ihres Anwendungsfalls passt. |
PaLM- und Gemini-Modelle vergleichen und migrieren | |
Prompt-Vorlagen bewerten | Prompt Engineering und Prompt-Bewertung mit dem Gen AI Evaluation Service SDK. | Prompt-Vorlagendesign für bessere Ergebnisse auswerten und optimieren |
Generative KI-Anwendungen bewerten | Tool-Nutzung und Funktionsaufrufe für Gemini-Modelle bewerten. | Tool-Nutzung des Gemini-Modells bewerten |
Mit dem Gen AI Evaluation Service SDK generierte Antworten aus der Retrieval-Augmented Generation (RAG) für eine Question-Answering-Aufgabe bewerten. | Generierte Antworten aus der Retrieval-Augmented Generation (RAG) bewerten | |
LangChain-Chatbots mit dem Vertex AI Gen AI Evaluation Service bewerten Dieses Notebook zeigt, wie Sie einen LangChain-Konversations-Chatbot mit dem Vertex AI Gen AI Evaluation Service SDK bewerten. Sie erfahren darin unter anderem, wie Sie Daten vorbereiten, eine LangChain-Kette einrichten, benutzerdefinierte Bewertungsmesswerte erstellen und Ergebnisse analysieren. In der Anleitung wird anhand eines Rezeptvorschlag-Chatbots gezeigt, wie sich die Leistung durch Iterationen am Prompt-Design verbessern lässt. |
LangChain bewerten | |
Messwertanpassung | Mit den folgenden Funktionen können Sie modellbasierte Messwerte anpassen und ein generatives KI-Modell anhand Ihrer spezifischen Kriterien bewerten:
|
Modellbasierte Messwerte für die Bewertung eines generativen KI-Modells anpassen |
Bewerten Sie generative KI-Modelle mit Ihrem lokal definierten benutzerdefinierten Messwert und verwenden Sie Ihr eigenes Bewertungsmodell, um eine modellbasierte Messwertbewertung durchzuführen. | Bring-Your-Own-Autorater mit benutzerdefiniertem Messwert | |
Sie können berechnungsbasierte benutzerdefinierte Messwertfunktionen definieren und mit dem Gen AI Evaluation Service SDK für die Bewertung verwenden. | Eigenen berechnungsbasierten benutzerdefinierten Messwert verwenden | |
Weitere Themen | Leitfaden zur Migration des Gen AI Evaluation Service SDK von der Vorabversion zur GA-Version. In dieser Anleitung werden Sie durch den Migrationsprozess von der Vorabversion zur neuesten GA-Version des Vertex AI SDK für Python für den Gen AI Evaluation Service geführt. Außerdem wird gezeigt, wie Sie mit dem SDK in der GA-Version die Retrieval-Augmented Generation (RAG) bewerten und zwei Modelle mithilfe der paarweisen Bewertung vergleichen können. |
Leitfaden zur Migration des Gen AI Evaluation Service SDK von der Vorabversion zur GA-Version |
Unterstützte Modelle und Sprachen
Der Vertex AI Generative AI Evaluation Service unterstützt die Foundation Models von Google, Modelle von Drittanbietern und Open-Source-Modelle. Sie können vorab generierte Vorhersagen direkt bereitstellen oder Antworten von Modellkandidaten auf folgende Arten automatisch generieren:
Generieren Sie automatisch Antworten für die Foundation Models von Google (z. B. Gemini 1.5 Pro) und alle in der Vertex AI Model Registry bereitgestellten Modelle.
Binden Sie SDK-Texterstellungs-APIs von anderen Drittanbieter- und offenen Modellen ein.
Binden Sie Modellendpunkte anderer Anbieter mit dem Vertex AI SDK ein.
Der Bewertungsdienst für generative KI unterstützt alle Eingabesprachen, die von Gemini 1.5 Pro unterstützt werden. Die Qualität der Bewertungen für nicht englische Eingaben ist möglicherweise nicht so hoch wie bei englischen Eingaben.