Gen AI Evaluation Service – Übersicht

Mit dem Gen AI Evaluation Service in Vertex AI können Sie jedes generative Modell oder jede generative Anwendung bewerten und die Bewertungsergebnisse anhand Ihrer eigenen Bewertungskriterien mit Ihrem eigenen Urteil vergleichen.

Bestenlisten und Berichte bieten zwar Einblicke in die Gesamtleistung des Modells, aber nicht, wie ein Modell Ihre spezifischen Anforderungen erfüllt. Der Gen AI Evaluation Service hilft Ihnen dabei, Ihre eigenen Bewertungskriterien zu definieren. So können Sie genau nachvollziehen, wie gut generative KI-Modelle und ‑Anwendungen zu Ihrem individuellen Anwendungsfall passen.

Die Bewertung ist in jedem Schritt Ihres Entwicklungsprozesses für generative KI wichtig, einschließlich der Modellauswahl, Prompt Engineering und Modellanpassung. Die Bewertung von generativer KI ist in Vertex AI integriert, damit Sie Bewertungen nach Bedarf starten und wiederverwenden können.

Funktionen des Gen AI Evaluation Service

Der Gen AI Evaluation Service kann Ihnen bei den folgenden Aufgaben helfen:

  • Modellauswahl: Wählen Sie anhand der Benchmark-Ergebnisse und der Leistung des Modells für Ihre spezifischen Daten das beste vorab trainierte Modell für Ihre Aufgabe aus.

  • Generierungseinstellungen: Sie können Modellparameter (wie die Temperatur) anpassen, um die Ausgabe für Ihre Anforderungen zu optimieren.

  • Prompt Engineering: Erstellen Sie effektive Prompts und Promptvorlagen, um das Modell zu Ihrem gewünschten Verhalten und Ihren gewünschten Antworten zu führen.

  • Optimierung und Absicherung der Feinabstimmung: Sie können ein Modell feinabstimmen, um die Leistung für Ihren Anwendungsfall zu verbessern und gleichzeitig Verzerrungen oder unerwünschte Verhaltensweisen zu vermeiden.

  • RAG-Optimierung: Wählen Sie die effektivste Retrieval Augmented Generation (RAG)-Architektur aus, um die Leistung Ihrer Anwendung zu verbessern.

  • Migration: Bewerten und verbessern Sie die Leistung Ihrer KI-Lösung kontinuierlich, indem Sie zu neueren Modellen migrieren, wenn diese einen klaren Vorteil für Ihren spezifischen Anwendungsfall bieten.

  • Übersetzung (Vorabversion): Bewerten Sie die Qualität der Übersetzungen Ihres Modells.

Bewertungsprozess

Mit dem Gen AI Evaluation Service können Sie jedes generative KI-Modell oder jede generative KI-Anwendung anhand Ihrer Bewertungskriterien bewerten. Gehen Sie dazu so vor:

  1. Bewertungsmesswerte definieren:

    • Erfahren Sie, wie Sie modellbasierte Messwerte an Ihre Geschäftskriterien anpassen.

    • Sie können ein einzelnes Modell (punktweise) bewerten oder den Gewinner ermitteln, wenn Sie zwei Modelle (paarweise) vergleichen.

    • Fügen Sie berechnungsbasierte Messwerte hinzu, um zusätzliche Einblicke zu erhalten.

  2. Bereiten Sie das Bewertungs-Dataset vor.

    • Geben Sie ein Dataset an, das Ihren spezifischen Anwendungsfall widerspiegelt.
  3. Führen Sie eine Bewertung durch.

    • Sie können ganz neu beginnen, eine Vorlage verwenden oder vorhandene Beispiele anpassen.

    • Definieren Sie Kandidatenmodelle und erstellen Sie einen EvalTask, um Ihre Bewertungslogik über Vertex AI wiederzuverwenden.

  4. Sehen Sie sich Ihre Bewertungsergebnisse an und interpretieren Sie sie.

Notebooks für Anwendungsfälle der Bewertung

In der folgenden Tabelle sind Notebooks für das Vertex AI SDK for Python für verschiedene Anwendungsfälle zur Bewertung generativer KI aufgeführt:

Anwendungsfall Beschreibung Links zu Notebooks
Modelle bewerten Kurzanleitung: Einführung in das Gen AI Evaluation Service SDK Erste Schritte mit dem Gen AI Evaluation Service SDK
Bewerten und wählen Sie eigene (1P) Foundation Models für Ihre Aufgabe aus. Bewerten und wählen Sie eigene (1P) Foundation Models für Ihre Aufgabe aus.
Gen AI-Modelleinstellungen bewerten und auswählen:

Passen Sie die Temperatur, das Ausgabetokenlimit, die Sicherheitseinstellungen und andere Konfigurationen der Modellgenerierung von Gemini-Modellen für eine Zusammenfassungsaufgabe an und vergleichen Sie die Bewertungsergebnisse verschiedener Modelleinstellungen anhand mehrerer Messwerte.
Verschiedene Modellparametereinstellungen für Gemini vergleichen
Drittanbietermodelle in Vertex AI Model Garden bewerten

In diesem Notebook finden Sie einen umfassenden Leitfaden zur Bewertung der Gemini-Modelle von Google und der Sprachmodelle von Drittanbietern mit dem Gen AI Evaluation Service SDK. Hier erfahren Sie, wie Sie Modelle aus verschiedenen Quellen, einschließlich offener und geschlossener Modelle, Modellendpunkte und Clientbibliotheken von Drittanbietern, mithilfe verschiedener Bewertungsmesswerte und -techniken bewerten und vergleichen. Sie sammeln praktische Erfahrungen mit kontrollierten Tests und der Analyse der Modellleistung bei einer Vielzahl von Aufgaben.
Gen AI Evaluation Service SDK zum Bewerten von Modellen in Vertex AI Studio, Model Garden und Model Registry verwenden
Mit dem Gen AI Evaluation Service SDK von PaLM zu Gemini migrieren.

In diesem Notebook erfahren Sie, wie Sie PaLM- und Gemini-Foundation Models anhand mehrerer Bewertungsmesswerte bewerten, um Entscheidungen zur Migration von einem Modell zu einem anderen zu unterstützen. Wir visualisieren diese Messwerte, um Einblicke in die Stärken und Schwächen der einzelnen Modelle zu erhalten. So können Sie fundierte Entscheidungen darüber treffen, welches Modell am besten zu den spezifischen Anforderungen Ihres Anwendungsfalls passt.
PaLM-Modell mit Gemini-Modell vergleichen und migrieren
Übersetzungsmodelle bewerten

In diesem Notebook erfahren Sie, wie Sie mit dem Vertex AI SDK für den Gen AI-Bewertungsdienst die Übersetzungsqualität der Antworten Ihres Large Language Model (LLM) mit BLEU, MetricX und COMET messen.
Übersetzungsmodell bewerten
Prompt-Vorlagen bewerten Prompt Engineering und Prompt-Bewertung mit dem Gen AI Evaluation Service SDK. Prompt-Vorlagendesign für bessere Ergebnisse auswerten und optimieren
Generative KI-Anwendungen bewerten Tool-Nutzung und Funktionsaufrufe für Gemini-Modelle bewerten. Tool-Nutzung des Gemini-Modells bewerten
Mit dem Gen AI Evaluation Service SDK generierte Antworten aus der Retrieval-Augmented Generation (RAG) für eine Question-Answering-Aufgabe bewerten. Generierte Antworten aus der Retrieval-Augmented Generation (RAG) bewerten
LangChain-Chatbots mit dem Vertex AI Gen AI Evaluation Service bewerten

Dieses Notebook zeigt, wie Sie einen LangChain-Konversations-Chatbot mit dem SDK für den Vertex AI Gen AI-Bewertungsdienst bewerten. Sie erfahren darin unter anderem, wie Sie Daten vorbereiten, eine LangChain-Kette einrichten, benutzerdefinierte Bewertungsmesswerte erstellen und Ergebnisse analysieren. In der Anleitung wird anhand eines Rezeptvorschlag-Chatbots gezeigt, wie sich die Leistung durch Iterationen am Prompt-Design verbessern lässt.
LangChain bewerten
Messwertanpassung Mit den folgenden Funktionen können Sie modellbasierte Messwerte anpassen und ein generatives KI-Modell anhand Ihrer spezifischen Kriterien bewerten:

  • Anpassung mit Vorlagen: Mit vordefinierten Feldern können Sie Ihre punkt- und paarweisen modellbasierten Messwerte definieren.
  • Vollständige Anpassung: Sie haben die volle Kontrolle über das Design Ihrer punkt- und paarweisen modellbasierten Messwerte.
Modellbasierte Messwerte für die Bewertung eines generativen KI-Modells anpassen
Bewerten Sie generative KI-Modelle mit Ihren lokal definierten benutzerdefinierten Messwerten und verwenden Sie Ihr eigenes Bewertungsmodell, um eine modellbasierte Messwertbewertung durchzuführen. Eigenen automatischen Rater mit benutzerdefiniertem Messwert verwenden
Definieren Sie eigene berechnungsbasierte benutzerdefinierte Messwertfunktionen und verwenden Sie sie für die Bewertung mit dem Gen AI Evaluation Service SDK. Eigenen berechnungsbasierten benutzerdefinierten Messwert verwenden
Weitere Themen Leitfaden zur Migration des Gen AI Evaluation Service SDK von der Vorabversion zur GA-Version.

In dieser Anleitung werden Sie durch den Migrationsprozess von der Vorabversion zur neuesten GA-Version des Vertex AI SDK for Python für den Gen AI-Bewertungsdienst geführt. Außerdem wird gezeigt, wie Sie mit dem SDK in der GA-Version die Retrieval-Augmented Generation (RAG) bewerten und zwei Modelle mithilfe der paarweisen Bewertung vergleichen können.
Leitfaden zur Migration des Gen AI Evaluation Service SDK von der Vorabversion zur GA-Version

Unterstützte Modelle und Sprachen

Der Vertex AI Gen AI Evaluation Service unterstützt die Foundation Models von Google, Modelle von Drittanbietern und Open-Source-Modelle. Sie können vorab generierte Vorhersagen direkt bereitstellen oder automatisch Antworten von Modellkandidaten generieren. Dazu haben Sie folgende Möglichkeiten:

  • Generieren Sie automatisch Antworten für die Foundation Models von Google (z. B. Gemini 1.5 Pro) und alle in der Vertex AI Model Registry bereitgestellten Modelle.

  • Binden Sie SDK-Texterstellungs-APIs von anderen Drittanbieter- und offenen Modellen ein.

  • Binden Sie Modellendpunkte anderer Anbieter mit dem Vertex AI SDK ein.

Für modellbasierte Gemini-Messwerte unterstützt der Gen AI Evaluation Service alle Eingabesprachen, die von Gemini 1.5 Pro unterstützt werden. Die Qualität der Bewertungen für nicht englische Eingaben ist möglicherweise nicht so hoch wie bei englischen Eingaben.

Der Gen AI-Bewertungsdienst unterstützt die folgenden Sprachen für modellbasierte Übersetzungsmesswerte:

MetricX

Unterstützte Sprachen für MetricX: Afrikaans, Albanisch, Amharisch, Arabisch, Armenisch, Aserbaidschanisch, Baskisch, Belarussisch, Bengali, Bulgarisch, Birmanisch, Katalanisch, Cebuano, Chichewa, Chinesisch, Korsisch, Tschechisch, Dänisch, Niederländisch, Englisch, Esperanto, Estnisch, Filipino, Finnisch, Französisch, Galizisch, Georgisch, Deutsch, Griechisch, Gujarati, Haitianisch-Kreolisch, Hausa, Hawaiianisch, Hebräisch, Hindi, Hmong, Ungarisch, Isländisch, Igbo, Indonesisch, Irisch, Italienisch, Japanisch, Javanisch, Kannada, Kasachisch, Khmer, Koreanisch, Kurdisch, Kirgisisch, Lao, Latein, Lettisch, Litauisch, Luxemburgisch, Mazedonisch, Malagasy, Malaysisch, Malayalam, Maltesisch, Maori, Marathi, Mongolisch, Nepalesisch, Norwegisch, Paschtu, Persisch, Polnisch, Portugiesisch, Punjabi, Rumänisch, Russisch, Samoanisch, Schottisch-Gälisch, Serbisch, Shona, Sindhi, Sinhala, Slowakisch, Slowenisch, Somali, Sotho, Spanisch, Sundanesisch, Swahili, Schwedisch, Tadschikisch, Tamil, Telugu, Thai, Türkisch, Ukrainisch, Urdu, Usbekisch, Vietnamesisch, Walisisch, Westfriesisch, Xhosa, Jiddisch, Yoruba, Zulu.

COMET

Unterstützte Sprachen für COMET: Afrikaans, Albanisch, Amharisch, Arabisch, Armenisch, Assamesisch, Aserbaidschanisch, Baskisch, Belarussisch, Bengali, Bengali (romanisiert), Bosnisch, Bretonisch, Bulgarisch, Birmanisch, Katalanisch, Chinesisch (vereinfacht), Chinesisch (traditionell), Kroatisch, Tschechisch, Dänisch, Niederländisch, Englisch, Esperanto, Estnisch, Filipino, Finnisch, Französisch, Galizisch, Georgisch, Deutsch, Griechisch, Gujarati, Hausa, Hebräisch, Hindi, Hindi (romanisiert), Ungarisch, Isländisch, Indonesisch, Irisch, Italienisch, Japanisch, Javanisch, Kannada, Kasachisch, Khmer, Koreanisch, Kurdisch (Kurmanji), Kirgisisch, Lao, Latein, Lettisch, Litauisch, Mazedonisch, Malagasy, Malaysisch, Malayalam, Marathi, Mongolisch, Nepalesisch, Norwegisch, Oriya, Oromo, Paschtu, Persisch, Polnisch, Portugiesisch, Punjabi, Rumänisch, Russisch, Sanskrit, Schottisch-Gälisch, Serbisch, Sindhi, Sinhala, Slowakisch, Slowenisch, Somali, Spanisch, Sundanesisch, Suaheli, Schwedisch, Tamil, Tamil (romanisiert), Telugu, Telugu (romanisiert), Thai, Türkisch, Ukrainisch, Urdu, Urdu (romanisiert), Uigurisch, Usbekisch, Vietnamesisch, Walisisch, Westfriesisch, Xhosa, Jiddisch.

Nächste Schritte