Modellbewertung in Vertex AI

Vertex AI bietet sowohl für Vorhersage- als auch für generative KI-Modelle Modellbewertungs-Messwerte an. Diese Seite bietet einen Überblick über den Bewertungsdienst für KI-Vorhersagemodelle. Informationen zum Bewerten eines generativen KI-Modells finden Sie unter Übersicht über den generative KI-Bewertungsdienst.

Mit dem KI-Vorhersagedienst können Sie die Modellleistung über bestimmte Anwendungsfälle hinweg bewerten. Sie können die Bewertung auch als Beobachtbarkeit in Sachen Leistung eines Modells bezeichnen. Die von Vertex AI bereitgestellte Modellbewertung kann in den typischen ML-Workflow auf verschiedene Weise eingebunden werden:

  • Prüfen Sie nach dem Trainieren des Modells erst einmal die Modellbewertungsmesswerte, bevor Sie das Modell bereitstellen. Sie können die Bewertungsmesswerte mehrerer Modelle vergleichen und danach entscheiden, welches Modell bereitgestellt werden soll.

  • Wenn das Modell für die Produktion bereitgestellt wurde, sollten Sie es regelmäßig mit neuen eingehenden Daten bewerten. Wenn die Bewertungsmesswerte zeigen, dass sich die Modellleistung verschlechtert hat, sollten Sie Ihr Modell eventuell noch einmal trainieren. Dieser Vorgang wird als kontinuierliche Evaluierung bezeichnet.

Wie diese Messwerte interpretiert und verwendet werden, hängt von Ihren geschäftlichen Anforderungen und dem Problem ab, für dessen Lösung das Modell trainiert wurde. So kann Toleranz für falsch positive Ergebnisse geringer sein als für falsch negative und umgekehrt. Diese Aspekte haben Einfluss darauf, welche Messwerte bei der Iteration des Modells wichtig sind.

Zu den wichtigsten Messwerten, die vom Dienst zur Vorhersage-KI-Modellbewertung bereitgestellt werden, gehören:

Features

Für das Bewerten eines Modells mit Vertex AI benötigen Sie ein trainiertes Modell, eine Ausgabe für die Batchvorhersage und ein Ground Truth-Dataset. Das folgende Beispiel zeigt einen typischen Modellbewertungs-Workflow mit Vertex AI:

  1. Modell trainieren. Dies ist in Vertex AI mit AutoML- oder benutzerdefiniertem Training möglich.

  2. Führen Sie einen Batchvorhersagejob für das Modell aus, um Vorhersageergebnisse zu generieren.

  3. Bereiten Sie die Ground-Truth-Daten vor, also die „korrekt mit Labels versehenen“ Daten, wie sie von Menschen festgelegt werden. Die Ground-Truth-Daten liegen in der Regel als Test-Dataset vor, das Sie für das Modelltraining verwendet haben.

  4. Führen Sie für das Modell einen Bewertungsjob aus, der die Genauigkeit der Batchvorhersageergebnisse im Vergleich zu den Ground-Truth-Daten bewertet.

  5. Analysieren Sie die Messwerte, die sich aus dem Bewertungsjob ergeben.

  6. Führen Sie eine Iteration für Ihr Modell aus, um zu prüfen, ob sich die Genauigkeit des Modells verbessern lässt. Sie können mehrere Bewertungsjobs ausführen und die Ergebnisse mehrerer Jobs für verschiedene Modellen oder Modellversionen vergleichen.

Die Modellbewertung in Vertex AI lässt sich auf unterschiedliche Weise ausführen:

  • Erstellen Sie in der Google Cloud Console Bewertungen über die Vertex AI Model Registry.

  • Verwenden Sie Modellbewertungen von Vertex AI als Pipeline-Komponente mit Vertex AI Pipelines. Sie können Pipelineausführungen und -vorlagen erstellen, die Modellbewertungen im Rahmen Ihres automatischen MLOps-Workflows enthalten.

    Sie können die Modellbewertungskomponente allein oder mit anderen Pipelinekomponenten wie der Batchvorhersagekomponente ausführen.

Vertex AI unterstützt die Bewertung der folgenden Modelltypen:

Image

Klassifizierung

Sie können Schemadateien unter dem folgenden Cloud Storage-Speicherort ansehen und herunterladen:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: Der Bereich unter der Precision-/Recall-Kurve (Area Under the Precision/Recall Curve, AuPRC), auch als durchschnittliche Precision bezeichnet. Dieser Wert reicht von null bis eins, wobei ein höherer Wert auf ein Modell von höherer Qualität verweist.
  • Logarithmischer Verlust: Die Kreuzentropie zwischen den Modellvorhersagen und den Zielwerten. Dieser Wert reicht von null bis unendlich, wobei ein niedrigerer Wert auf ein Modell von höherer Qualität hinweist.
  • Konfidenzgrenzwert: Ein Konfidenzwert, der bestimmt, welche Vorhersagen zurückgegeben werden. Ein Modell gibt Vorhersagen mit diesem Wert oder höher zurück. Ein höherer Konfidenzgrenzwert erhöht die Precision, verringert aber den Recall. Vertex AI gibt Konfidenzmesswerte mit unterschiedlichen Grenzwerten zurück, um festzustellen, wie sich der Grenzwert auf die Precision und den Recall auswirkt.
  • Recall: Der Anteil an Vorhersagen mit dieser Klasse, die das Modell korrekt vorhergesagt hat. Wird als Rate richtig positiver Ergebnisse bezeichnet.
  • Präzision: Der Anteil an Klassifizierungsvorhersagen des Modells, die richtig waren.
  • Wahrheitsmatrix: Eine Wahrheitsmatrix gibt an, wie oft ein Modell ein Ergebnis korrekt vorhergesagt hat. Bei falsch vorhergesagten Ergebnissen zeigt die Matrix, was das Modell stattdessen vorhergesagt hat. Die Wahrheitsmatrix hilft Ihnen zu verstehen, wo Ihr Modell zwei Ergebnisse „vermischt“.

Tabellarisch

Klassifizierung

Sie können Schemadateien unter dem folgenden Cloud Storage-Speicherort ansehen und herunterladen:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: Der Bereich unter der Precision-/Recall-Kurve (Area Under the Precision/Recall Curve, AuPRC), auch als durchschnittliche Precision bezeichnet. Dieser Wert reicht von null bis eins, wobei ein höherer Wert auf ein Modell von höherer Qualität verweist.
  • AuROC: Die Fläche unter der Grenzwertoptimierungskurve (Receiver Operating Characteristic Curve, ROC).. Dieser Wert reicht von null bis eins, wobei ein höherer Wert auf ein Modell von höherer Qualität verweist.
  • Logarithmischer Verlust: Die Kreuzentropie zwischen den Modellvorhersagen und den Zielwerten. Dieser Wert reicht von null bis unendlich, wobei ein niedrigerer Wert auf ein Modell von höherer Qualität hinweist.
  • Konfidenzgrenzwert: Ein Konfidenzwert, der bestimmt, welche Vorhersagen zurückgegeben werden. Ein Modell gibt Vorhersagen mit diesem Wert oder höher zurück. Ein höherer Konfidenzgrenzwert erhöht die Precision, verringert aber den Recall. Vertex AI gibt Konfidenzmesswerte mit unterschiedlichen Grenzwerten zurück, um festzustellen, wie sich der Grenzwert auf die Precision und den Recall auswirkt.
  • Recall: Der Anteil an Vorhersagen mit dieser Klasse, die das Modell korrekt vorhergesagt hat. Wird als Rate richtig positiver Ergebnisse bezeichnet.
  • Rückruf bei 1: Die Trefferquote unter alleiniger Berücksichtigung des Labels, das für jedes Beispiel den höchsten Vorhersagewert hat, der nicht unter dem Konfidenzwert liegt.
  • Präzision: Der Anteil an Klassifizierungsvorhersagen des Modells, die richtig waren.
  • Genauigkeit bei 1: Die Genauigkeit, wenn nur das Label mit dem höchsten Vorhersagewert und nicht der Konfidenzwert für jedes Beispiel berücksichtigt wird.
  • F1-Wert: der harmonische Mittelwert von Precision und Recall. F1 ist ein nützlicher Messwert, wenn Sie ein Gleichgewicht zwischen Precision und Recall anstreben und die Klassenverteilung ungleichmäßig ist
  • F1-Wert bei 1: Der harmonische Mittelwert von Trefferquote bei 1 und Genauigkeit bei 1.
  • Wahrheitsmatrix: Eine Wahrheitsmatrix gibt an, wie oft ein Modell ein Ergebnis korrekt vorhergesagt hat. Bei falsch vorhergesagten Ergebnissen zeigt die Matrix, was das Modell stattdessen vorhergesagt hat. Die Wahrheitsmatrix hilft Ihnen zu verstehen, wo Ihr Modell zwei Ergebnisse „vermischt“.
  • Anzahl echt negativer Ergebnisse: Die Häufigkeit, mit der ein Modell eine negative Klasse richtig vorhergesagt hat.
  • Anzahl echt positiver Ergebnisse: Die Häufigkeit, mit der ein Modell eine positive Klasse richtig vorhergesagt hat.
  • Anzahl falsch negativer Ergebnisse: Die Häufigkeit, mit der ein Modell eine negative Klasse falsch vorhergesagt hat.
  • Anzahl falsch positiver Ergebnisse: Die Häufigkeit, mit der ein Modell eine positive Klasse falsch vorhergesagt hat.
  • Rate falsch positiver Ergebnisse: Der Anteil falsch vorhergesagter Ergebnisse aus allen vorhergesagten Ergebnissen.
  • Rate falsch positiver Ergebnisse bei 1: Die Rate falsch positiver Ergebnisse, wenn nur das Label mit dem höchsten Vorhersagewert und nicht der Konfidenzwert für jedes Beispiel berücksichtigt wird.
  • Modell-Featureattributionen: In Vertex AI sehen Sie, wie stark sich die einzelnen Features auf ein Modell auswirken. Die Werte werden für jedes Feature als Prozentsatz angegeben. Je höher der Prozentsatz, desto stärker wirkt sich das Feature auf das Modelltraining aus. Prüfen Sie diese Informationen, damit alle wichtigen Funktionen für Ihr Daten- und Geschäftsproblem sinnvoll sind.

Regression

Sie können Schemadateien unter dem folgenden Cloud Storage-Speicherort ansehen und herunterladen:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • MAE: Der mittlere absolute Fehler (Mean Absolute Error) ist die durchschnittliche absolute Differenz zwischen den Zielwerten und den vorhergesagten Werten. Dieser Messwert reicht von null bis unendlich. Ein niedrigerer Wert gibt ein höheres Qualitätsmodell an.
  • RMSE: Der RMSE (Root Mean Squared Error) ist der Durchschnitt der Differenz zum Quadrat zwischen dem Zielwert und den tatsächlichen Werten. RMSE reagiert empfindlicher auf Ausreißer als MAE. Wenn Sie also große Fehler befürchten, ist es möglicherweise sinnvoller, RMSE als Messwert für die Auswertung zu nutzen. Ähnlich wie bei MAE zeigt ein kleinerer Wert ein Modell mit höherer Qualität an (0 steht für einen perfekten Prädiktor).
  • RMSLE: Dieser Messwert der Wurzel des mittleren quadratischen logarithmischen Fehlers ähnelt RMSE, verwendet jedoch den natürlichen Logarithmus der vorhergesagten und tatsächlichen Werte plus 1. RMSLE bestraft eine unterdurchschnittliche Vorhersage stärker als eine überdurchschnittliche Vorhersage. Er kann auch ein guter Messwert sein, wenn Sie nicht möchten, dass Unterschiede bei großen Vorhersagewerten stärker als bei kleinen Vorhersagewerten bestraft werden. Dieser Messwert reicht von null bis unendlich. Ein niedrigerer Wert gibt ein Modell mit höherer Qualität an. Der RMSLE-Bewertungsmesswert wird nur zurückgegeben, wenn alle Label- und Vorhersagewerte nicht negativ sind.
  • r^2: r-Quadrat ist das Quadrat des Pearson-Korrelationskoeffizienten zwischen den Labels und vorhergesagten Werten. Dieser Messwert liegt zwischen null und eins. Ein höherer Wert bedeutet eine bessere Anpassung an die Regressionslinie.
  • MAPE: Der mittlere absolute prozentuale Fehler (Mean Absolute Percentage Error) ist die durchschnittliche absolute prozentuale Differenz zwischen den Labels und den vorhergesagten Werten. Dieser Messwert liegt zwischen null und unendlich. Ein niedrigerer Wert gibt ein höheres Qualitätsmodell an.
    MAPE wird nicht angezeigt, wenn die Zielspalte Nullwerte enthält. In diesem Fall ist MAPE nicht definiert.
  • Modell-Featureattributionen: In Vertex AI sehen Sie, wie stark sich die einzelnen Features auf ein Modell auswirken. Die Werte werden für jedes Feature als Prozentsatz angegeben. Je höher der Prozentsatz, desto stärker wirkt sich das Feature auf das Modelltraining aus. Prüfen Sie diese Informationen, damit alle wichtigen Funktionen für Ihr Daten- und Geschäftsproblem sinnvoll sind.

Prognosen

Sie können Schemadateien unter dem folgenden Cloud Storage-Speicherort ansehen und herunterladen:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • MAE: Der mittlere absolute Fehler (Mean Absolute Error) ist die durchschnittliche absolute Differenz zwischen den Zielwerten und den vorhergesagten Werten. Dieser Messwert reicht von null bis unendlich. Ein niedrigerer Wert gibt ein höheres Qualitätsmodell an.
  • RMSE: Der RMSE (Root Mean Squared Error) ist der Durchschnitt der Differenz zum Quadrat zwischen dem Zielwert und den tatsächlichen Werten. RMSE reagiert empfindlicher auf Ausreißer als MAE. Wenn Sie also große Fehler befürchten, ist es möglicherweise sinnvoller, RMSE als Messwert für die Auswertung zu nutzen. Ähnlich wie bei MAE zeigt ein kleinerer Wert ein Modell mit höherer Qualität an (0 steht für einen perfekten Prädiktor).
  • RMSLE: Dieser Messwert der Wurzel des mittleren quadratischen logarithmischen Fehlers ähnelt RMSE, verwendet jedoch den natürlichen Logarithmus der vorhergesagten und tatsächlichen Werte plus 1. RMSLE bestraft eine unterdurchschnittliche Vorhersage stärker als eine überdurchschnittliche Vorhersage. Er kann auch ein guter Messwert sein, wenn Sie nicht möchten, dass Unterschiede bei großen Vorhersagewerten stärker als bei kleinen Vorhersagewerten bestraft werden. Dieser Messwert reicht von null bis unendlich. Ein niedrigerer Wert gibt ein Modell mit höherer Qualität an. Der RMSLE-Bewertungsmesswert wird nur zurückgegeben, wenn alle Label- und Vorhersagewerte nicht negativ sind.
  • r^2: r-Quadrat ist das Quadrat des Pearson-Korrelationskoeffizienten zwischen den Labels und vorhergesagten Werten. Dieser Messwert liegt zwischen null und eins. Ein höherer Wert bedeutet eine bessere Anpassung an die Regressionslinie.
  • MAPE: Der mittlere absolute prozentuale Fehler (Mean Absolute Percentage Error) ist die durchschnittliche absolute prozentuale Differenz zwischen den Labels und den vorhergesagten Werten. Dieser Messwert liegt zwischen null und unendlich. Ein niedrigerer Wert gibt ein höheres Qualitätsmodell an.
    MAPE wird nicht angezeigt, wenn die Zielspalte Nullwerte enthält. In diesem Fall ist MAPE nicht definiert.
  • WAPE: Der gewichtete absolute Prozentfehler (WAPE) ist der Gesamtunterschied zwischen dem von einem Modell vorhergesagten Wert und den beobachteten Werten. Im Vergleich zu RMSE wird der WAPE anhand der Gesamtunterschiede statt der individuellen Unterschiede gewichtet, welche sehr von geringen oder periodischen Werten beeinflusst werden können. Ein niedrigerer Wert deutet auf ein Modell höherer Qualität hin.
  • RMSPE: Der mittlere quadratische Prozentfehler (RMPSE) zeigt RMSE als Prozentsatz der tatsächlichen Werte anstelle einer absoluten Zahl an. Ein niedrigerer Wert deutet auf ein Modell höherer Qualität hin.
  • Quantil: Das prozentuale Quantil, das die Wahrscheinlichkeit angibt, dass ein beobachteter Wert unter dem vorhergesagten Wert liegt. Beispielsweise wird erwartet, dass die beobachteten Werte am 0,5-Quantil in 50 % der Zeit niedriger als die vorhergesagten Werte sind.
  • Beobachtetes Quantil: Zeigt den Prozentsatz der wahren Werte an, die für ein bestimmtes Quantil unter dem vorhergesagten Wert lagen.
  • Skalierter Pinball-Loss: Der skalierte Pinball-Loss bei einem bestimmten Quantil. Ein niedrigerer Wert deutet auf ein Modell höherer Qualität am angegebenen Quantil hin.

Text

.

Klassifizierung

Sie können Schemadateien unter dem folgenden Cloud Storage-Speicherort ansehen und herunterladen:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: Der Bereich unter der Precision-/Recall-Kurve (Area Under the Precision/Recall Curve, AuPRC), auch als durchschnittliche Precision bezeichnet. Dieser Wert reicht von null bis eins, wobei ein höherer Wert auf ein Modell von höherer Qualität verweist.
  • Logarithmischer Verlust: Die Kreuzentropie zwischen den Modellvorhersagen und den Zielwerten. Dieser Wert reicht von null bis unendlich, wobei ein niedrigerer Wert auf ein Modell von höherer Qualität hinweist.
  • Konfidenzgrenzwert: Ein Konfidenzwert, der bestimmt, welche Vorhersagen zurückgegeben werden. Ein Modell gibt Vorhersagen mit diesem Wert oder höher zurück. Ein höherer Konfidenzgrenzwert erhöht die Precision, verringert aber den Recall. Vertex AI gibt Konfidenzmesswerte mit unterschiedlichen Grenzwerten zurück, um festzustellen, wie sich der Grenzwert auf die Precision und den Recall auswirkt.
  • Recall: Der Anteil an Vorhersagen mit dieser Klasse, die das Modell korrekt vorhergesagt hat. Wird als Rate richtig positiver Ergebnisse bezeichnet.
  • Rückruf bei 1: Die Trefferquote unter alleiniger Berücksichtigung des Labels, das für jedes Beispiel den höchsten Vorhersagewert hat, der nicht unter dem Konfidenzwert liegt.
  • Präzision: Der Anteil an Klassifizierungsvorhersagen des Modells, die richtig waren.
  • Genauigkeit bei 1: Die Genauigkeit, wenn nur das Label mit dem höchsten Vorhersagewert und nicht der Konfidenzwert für jedes Beispiel berücksichtigt wird.
  • Wahrheitsmatrix: Eine Wahrheitsmatrix gibt an, wie oft ein Modell ein Ergebnis korrekt vorhergesagt hat. Bei falsch vorhergesagten Ergebnissen zeigt die Matrix, was das Modell stattdessen vorhergesagt hat. Die Wahrheitsmatrix hilft Ihnen zu verstehen, wo Ihr Modell zwei Ergebnisse „vermischt“.
  • F1-Wert: der harmonische Mittelwert von Precision und Recall. F1 ist ein nützlicher Messwert, wenn Sie ein Gleichgewicht zwischen Precision und Recall anstreben und die Klassenverteilung ungleichmäßig ist
  • F1-Wert bei 1: Der harmonische Mittelwert von Trefferquote bei 1 und Genauigkeit bei 1.

Video

Klassifizierung

Sie können Schemadateien unter dem folgenden Cloud Storage-Speicherort ansehen und herunterladen:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: Der Bereich unter der Precision-/Recall-Kurve (Area Under the Precision/Recall Curve, AuPRC), auch als durchschnittliche Precision bezeichnet. Dieser Wert reicht von null bis eins, wobei ein höherer Wert auf ein Modell von höherer Qualität verweist.
  • Konfidenzgrenzwert: Ein Konfidenzwert, der bestimmt, welche Vorhersagen zurückgegeben werden. Ein Modell gibt Vorhersagen mit diesem Wert oder höher zurück. Ein höherer Konfidenzgrenzwert erhöht die Precision, verringert aber den Recall. Vertex AI gibt Konfidenzmesswerte mit unterschiedlichen Grenzwerten zurück, um festzustellen, wie sich der Grenzwert auf die Precision und den Recall auswirkt.
  • Recall: Der Anteil an Vorhersagen mit dieser Klasse, die das Modell korrekt vorhergesagt hat. Wird als Rate richtig positiver Ergebnisse bezeichnet.
  • Präzision: Der Anteil an Klassifizierungsvorhersagen des Modells, die richtig waren.
  • Wahrheitsmatrix: Eine Wahrheitsmatrix gibt an, wie oft ein Modell ein Ergebnis korrekt vorhergesagt hat. Bei falsch vorhergesagten Ergebnissen zeigt die Matrix, was das Modell stattdessen vorhergesagt hat. Die Wahrheitsmatrix hilft Ihnen zu verstehen, wo Ihr Modell zwei Ergebnisse „vermischt“.
  • F1-Wert: der harmonische Mittelwert von Precision und Recall. F1 ist ein nützlicher Messwert, wenn Sie ein Gleichgewicht zwischen Precision und Recall anstreben und die Klassenverteilung ungleichmäßig ist

Notebook-Anleitungen

AutoML: Tabellarisch

AutoML: Text

.

AutoML: Video

Benutzerdefiniertes Training: Tabellarisch

Vertex AI Model Registry

Nächste Schritte