Diese Seite wurde von der Cloud Translation API übersetzt.

Gen AI Evaluation Service – Übersicht

Mit dem Gen AI Evaluation Service in Vertex AI können Sie alle auf generativer KI basierende Modelle oder Anwendungen bewerten und die entsprechenden Ergebnisse anhand Ihrer eigenen Bewertungskriterien mit Ihrer eigenen Einschätzung vergleichen.

Bestenlisten und Berichte bieten zwar Einblicke in die Gesamtleistung des Modells, aber nicht, wie ein Modell Ihre spezifischen Anforderungen erfüllt. Der Gen AI Evaluation Service hilft Ihnen dabei, Ihre eigenen Bewertungskriterien zu definieren. So können Sie genau nachvollziehen, wie gut generative KI-Modelle und ‑Anwendungen zu Ihrem individuellen Anwendungsfall passen.

Die Bewertung ist in jedem Schritt Ihres Entwicklungsprozesses für generative KI wichtig, einschließlich der Modellauswahl, Prompt Engineering und Modellanpassung. Die Bewertung von generativer KI ist in Vertex AI integriert, damit Sie Bewertungen nach Bedarf starten und wiederverwenden können.

Funktionen des Gen AI Evaluation Service

Der Gen AI Evaluation Service kann Ihnen bei den folgenden Aufgaben helfen:

Modellauswahl: Wählen Sie anhand der Benchmark-Ergebnisse und der Leistung des Modells für Ihre spezifischen Daten das beste vorab trainierte Modell für Ihre Aufgabe aus.
Generierungseinstellungen: Sie können Modellparameter (wie die Temperatur) anpassen, um die Ausgabe für Ihre Anforderungen zu optimieren.
Prompt Engineering: Erstellen Sie effektive Prompts und Promptvorlagen, um das Modell zu Ihrem gewünschten Verhalten und Ihren gewünschten Antworten zu führen.
Optimierung und Absicherung der Feinabstimmung: Sie können ein Modell feinabstimmen, um die Leistung für Ihren Anwendungsfall zu verbessern und gleichzeitig Verzerrungen oder unerwünschte Verhaltensweisen zu vermeiden.
RAG-Optimierung: Wählen Sie die effektivste Retrieval Augmented Generation (RAG)-Architektur aus, um die Leistung Ihrer Anwendung zu verbessern.
Migration: Bewerten und verbessern Sie die Leistung Ihrer KI-Lösung kontinuierlich, indem Sie zu neueren Modellen migrieren, wenn diese einen klaren Vorteil für Ihren spezifischen Anwendungsfall bieten.
Übersetzung (Vorabversion): Bewerten Sie die Qualität der Übersetzungen Ihres Modells.
Kundenservicemitarbeiter bewerten: Mit dem Gen AI Evaluation Service können Sie die Leistung Ihrer Kundenservicemitarbeiter bewerten.

Bewertungsprozess

Mit dem Gen AI Evaluation Service können Sie jedes generative KI-Modell oder jede generative KI-Anwendung anhand Ihrer Bewertungskriterien bewerten. Gehen Sie dazu so vor:

Bewertungsmesswerte definieren:
- Erfahren Sie, wie Sie modellbasierte Messwerte an Ihre Geschäftskriterien anpassen.
- Sie können ein einzelnes Modell (punktweise) bewerten oder den Gewinner ermitteln, wenn Sie zwei Modelle (paarweise) vergleichen.
- Fügen Sie berechnungsbasierte Messwerte hinzu, um zusätzliche Einblicke zu erhalten.
Bereiten Sie das Bewertungs-Dataset vor.
- Geben Sie ein Dataset an, das Ihren spezifischen Anwendungsfall widerspiegelt.
Führen Sie eine Bewertung aus.
- Sie können ganz neu beginnen, eine Vorlage verwenden oder vorhandene Beispiele anpassen.
- Definieren Sie Kandidatenmodelle und erstellen Sie einen EvalTask, um Ihre Bewertungslogik über Vertex AI wiederzuverwenden.
Sehen Sie sich Ihre Bewertungsergebnisse an und interpretieren Sie sie.

Notebooks für Bewertungsfälle

In der folgenden Tabelle sind Notebooks für das Vertex AI SDK for Python für verschiedene Anwendungsfälle zur Bewertung generativer KI aufgeführt:

Anwendungsfall	Beschreibung	Links zu Notebooks
Modelle bewerten	Kurzanleitung: Einführung in das Gen AI Evaluation Service SDK	Erste Schritte mit dem Gen AI Evaluation Service SDK
	Bewerten und wählen Sie eigene (1P) Foundation Models für Ihre Aufgabe aus.	Bewerten und wählen Sie eigene (1P) Foundation Models für Ihre Aufgabe aus.
	Gen AI-Modelleinstellungen bewerten und auswählen: Passen Sie die Temperatur, das Ausgabetokenlimit, die Sicherheitseinstellungen und andere Konfigurationen der Modellgenerierung von Gemini-Modellen für eine Zusammenfassungsaufgabe an und vergleichen Sie die Bewertungsergebnisse verschiedener Modelleinstellungen anhand mehrerer Messwerte.	Verschiedene Modellparametereinstellungen für Gemini vergleichen
	Drittanbietermodelle in Vertex AI Model Garden bewerten In diesem Notebook finden Sie einen umfassenden Leitfaden zur Bewertung der Gemini-Modelle von Google und der Sprachmodelle von Drittanbietern mit dem Gen AI Evaluation Service SDK. Hier erfahren Sie, wie Sie Modelle aus verschiedenen Quellen, einschließlich offener und geschlossener Modelle, Modellendpunkte und Clientbibliotheken von Drittanbietern, mithilfe verschiedener Bewertungsmesswerte und -techniken bewerten und vergleichen. Sie sammeln praktische Erfahrungen beim Durchführen kontrollierter Tests und Analysieren der Modellleistung bei einer Vielzahl von Aufgaben.	Gen AI Evaluation Service SDK zum Bewerten von Modellen in Vertex AI Studio, Model Garden und Model Registry verwenden
	Migrieren Sie mit dem Gen AI Evaluation Service SDK von PaLM zu Gemini. In diesem Notebook erfahren Sie, wie Sie PaLM- und Gemini-Foundation Models anhand mehrerer Bewertungsmesswerte bewerten, um Entscheidungen zur Migration von einem Modell zu einem anderen zu unterstützen. Wir visualisieren diese Messwerte, um Einblicke in die Stärken und Schwächen der einzelnen Modelle zu erhalten. So können Sie fundierte Entscheidungen darüber treffen, welches Modell am besten zu den spezifischen Anforderungen Ihres Anwendungsfalls passt.	PaLM- und Gemini-Modelle vergleichen und von PaLM zu Gemini migrieren
	Übersetzungsmodelle bewerten In diesem Notebook erfahren Sie, wie Sie mit dem Vertex AI SDK für den Gen AI Evaluation Service die Übersetzungsqualität der Antworten Ihres Large Language Model (LLM) mit BLEU, MetricX und COMET messen.	Übersetzungsmodell bewerten
Prompt-Vorlagen bewerten	Prompt Engineering und Prompt-Bewertung mit dem Gen AI Evaluation Service SDK.	Prompt-Vorlagendesign für bessere Ergebnisse auswerten und optimieren
Generative KI-Anwendungen bewerten	Tool-Nutzung und Funktionsaufrufe für Gemini-Modelle bewerten.	Tool-Nutzung des Gemini-Modells bewerten
	Mit dem Gen AI Evaluation Service SDK generierte Antworten aus der Retrieval-Augmented Generation (RAG) für eine Question-Answering-Aufgabe bewerten.	Generierte Antworten aus der Retrieval-Augmented Generation (RAG) bewerten
	LangChain-Chatbots mit dem Vertex AI Gen AI Evaluation Service bewerten Dieses Notebook zeigt, wie Sie einen LangChain-Konversations-Chatbot mit dem Vertex AI Gen AI Evaluation Service SDK bewerten. Sie erfahren darin unter anderem, wie Sie Daten vorbereiten, eine LangChain-Kette einrichten, benutzerdefinierte Bewertungsmesswerte erstellen und Ergebnisse analysieren. In der Anleitung wird anhand eines Rezeptvorschlag-Chatbots gezeigt, wie sich die Leistung durch Iterationen am Prompt-Design verbessern lässt.	LangChain bewerten
Gen AI-Agenten bewerten	Einen mit Agent-Frameworks wie LangGraph und CrewAI erstellten Agenten bewerten	LangGraph-Agenten bewerten CrewAI-Kundenservicemitarbeiter bewerten
Gen AI-Agenten bewerten	Verwenden Sie den Gen AI-Bewertungsdienst und die Vertex AI-Agent Engine, um mithilfe von Agent-Frameworks erstellte Agents zu bewerten.	LangChain-Agent mit Agent Engine bewerten LangGraph-Agent mit Agent Engine bewerten CrewAI-Kundenservicemitarbeiter mit der Agent Engine bewerten
Messwertanpassung	Mit den folgenden Funktionen können Sie modellbasierte Messwerte anpassen und ein generatives KI-Modell anhand Ihrer spezifischen Kriterien bewerten: Anpassung mit Vorlagen: Mit vordefinierten Feldern können Sie Ihre punkt- und paarweisen modellbasierten Messwerte definieren. Vollständige Anpassung: Sie haben die volle Kontrolle über die Gestaltung Ihrer punkt- und paarweisen modellbasierten Messwerte.	Modellbasierte Messwerte für die Bewertung eines generativen KI-Modells anpassen
	Bewerten Sie generative KI-Modelle mit Ihren lokal definierten benutzerdefinierten Messwerten und verwenden Sie Ihr eigenes Bewertungsmodell, um eine modellbasierte Messwertbewertung durchzuführen.	Eigenen automatischen Rater mit benutzerdefiniertem Messwert verwenden
	Definieren Sie eigene berechnungsbasierte benutzerdefinierte Messwertfunktionen und verwenden Sie sie für die Bewertung mit dem Gen AI Evaluation Service SDK.	Eigenen berechnungsbasierten benutzerdefinierten Messwert verwenden
Weitere Themen	Leitfaden zur Migration des Gen AI Evaluation Service SDK von der Vorabversion zur GA-Version In diesem Leitfaden erfahren Sie, wie Sie das Vertex AI SDK for Python für den Gen AI Evaluation Service von der Vorabversion zur neuesten GA-Version migrieren. Außerdem wird gezeigt, wie Sie mit dem SDK in der GA-Version die Retrieval-Augmented Generation (RAG) bewerten und zwei Modelle mithilfe der paarweisen Bewertung vergleichen können.	Leitfaden zur Migration des Gen AI Evaluation Service SDK von der Vorabversion zur GA-Version

Unterstützte Modelle und Sprachen

Der Vertex AI Gen AI Evaluation Service unterstützt die Foundation Models von Google, Modelle von Drittanbietern und Open-Source-Modelle. Sie können vorgenerierte Vorhersagen direkt angeben oder Modellantworten auf folgende Arten automatisch generieren:

Generieren Sie automatisch Antworten für die Foundation Models von Google (z. B. Gemini 1.5 Pro) und alle in der Vertex AI Model Registry bereitgestellten Modelle.
Binden Sie SDK-Texterstellungs-APIs von anderen Drittanbieter- und offenen Modellen ein.
Binden Sie Modellendpunkte anderer Anbieter mit dem Vertex AI SDK ein.

Für modellbasierte Gemini-Messwerte unterstützt der Gen AI Evaluation Service alle Eingabesprachen, die von Gemini 1.5 Pro unterstützt werden. Die Qualität der Bewertungen für nicht englische Eingaben ist möglicherweise nicht so hoch wie bei englischen Eingaben.

Der Gen AI-Bewertungsdienst unterstützt die folgenden Sprachen für modellbasierte Übersetzungsmesswerte:

Messwert X

Unterstützte Sprachen für MetricX: Afrikaans, Albanisch, Amharisch, Arabisch, Armenisch, Aserbaidschanisch, Baskisch, Belarussisch, Bengali, Bulgarisch, Birmanisch, Katalanisch, Cebuano, Chichewa, Chinesisch, Korsisch, Tschechisch, Dänisch, Niederländisch, Englisch, Esperanto, Estnisch, Filipino, Finnisch, Französisch, Galizisch, Georgisch, Deutsch, Griechisch, Gujarati, Haitianisch-Kreolisch, Hausa, Hawaiianisch, Hebräisch, Hindi, Hmong, Ungarisch, Isländisch, Igbo, Indonesisch, Irisch, Italienisch, Japanisch, Javanisch, Kannada, Kasachisch, Khmer, Koreanisch, Kurdisch, Kirgisisch, Lao, Latein, Lettisch, Litauisch, Luxemburgisch, Mazedonisch, Malagasy, Malaysisch, Malayalam, Maltesisch, Maori, Marathi, Mongolisch, Nepalesisch, Norwegisch, Paschtu, Persisch, Polnisch, Portugiesisch, Punjabi, Rumänisch, Russisch, Samoanisch, Schottisch-Gälisch, Serbisch, Shona, Sindhi, Sinhala, Slowakisch, Slowenisch, Somali, Sotho, Spanisch, Sundanesisch, Swahili, Schwedisch, Tadschikisch, Tamil, Telugu, Thai, Türkisch, Ukrainisch, Urdu, Usbekisch, Vietnamesisch, Walisisch, Westfriesisch, Xhosa, Jiddisch, Yoruba, Zulu.

COMET

Unterstützte Sprachen für COMET: Afrikaans, Albanisch, Amharisch, Arabisch, Armenisch, Assamesisch, Aserbaidschanisch, Baskisch, Belarussisch, Bengali, Bengali (romanisiert), Bosnisch, Bretonisch, Bulgarisch, Burmese, Burmese, Katalanisch, Chinesisch (vereinfacht), Chinesisch (traditionell), Kroatisch, Tschechisch, Dänisch, Niederländisch, Englisch, Esperanto, Estnisch, Filipino, Finnisch, Französisch, Galizisch, Georgisch, Deutsch, Griechisch, Gujarati, Hausa, Hebräisch, Hindi, Hindi (romanisiert), Ungarisch, Isländisch, Indonesisch, Irisch, Italienisch, Japanisch, Javanisch, Kannada, Kasachisch, Khmer, Koreanisch, Kurdisch (Kurmanji), Kirgisisch, Lao, Latein, Lettisch, Litauisch, Mazedonisch, Malagasy, Malaysisch, Malayalam, Marathi, Mongolisch, Nepalesisch, Norwegisch, Oriya, Oromo, Paschtu, Persisch, Polnisch, Portugiesisch, Punjabi, Rumänisch, Russisch, Sanskrit, Schottisch-Gälisch, Serbisch, Sindhi, Sinhala, Slowakisch, Slowenisch, Somali, Spanisch, Sundanesisch, Suaheli, Schwedisch, Tamil, Tamil (romanisiert), Telugu, Telugu (romanisiert), Thai, Türkisch, Ukrainisch, Urdu, Urdu (romanisiert), Uigurisch, Usbekisch, Vietnamesisch, Walisisch, Westfriesisch, Xhosa, Jiddisch.