Diese Seite wurde von der Cloud Translation API übersetzt.

Modellbewertung in Vertex AI

Mit dem Bewertungsdienst für Inferenz-KI können Sie die Modellleistung über bestimmte Anwendungsfälle hinweg bewerten. Sie können die Bewertung auch als Beobachtbarkeit in Sachen Leistung eines Modells bezeichnen. Die von Vertex AI bereitgestellte Modellbewertung kann in den typischen ML-Workflow auf verschiedene Weise eingebunden werden:

Prüfen Sie nach dem Trainieren des Modells erst einmal die Modellbewertungsmesswerte, bevor Sie das Modell bereitstellen. Sie können die Bewertungsmesswerte mehrerer Modelle vergleichen und danach entscheiden, welches Modell bereitgestellt werden soll.
Wenn das Modell für die Produktion bereitgestellt wurde, sollten Sie es regelmäßig mit neuen eingehenden Daten bewerten. Wenn die Bewertungsmesswerte zeigen, dass sich die Modellleistung verschlechtert hat, sollten Sie Ihr Modell eventuell noch einmal trainieren. Dieser Vorgang wird als kontinuierliche Evaluierung bezeichnet.

Wie diese Messwerte interpretiert und verwendet werden, hängt von Ihren geschäftlichen Anforderungen und dem Problem ab, für dessen Lösung das Modell trainiert wurde. So kann Toleranz für falsch positive Ergebnisse geringer sein als für falsch negative und umgekehrt. Diese Aspekte haben Einfluss darauf, welche Messwerte bei der Iteration des Modells wichtig sind.

Zu den wichtigsten Messwerten, die vom Dienst zur Bewertung von KI-Vorhersagemodellen bereitgestellt werden, gehören die folgenden:

Features

Für die Bewertung eines Modells mit Vertex AI benötigen Sie ein trainiertes Modell, eine Ausgabe für die Batchinferenz und ein Ground Truth-Dataset. Das folgende Beispiel zeigt einen typischen Modellbewertungs-Workflow mit Vertex AI:

Modell trainieren. Dies ist in Vertex AI mit AutoML- oder benutzerdefiniertem Training möglich.
Führen Sie einen Batchinferenzjob für das Modell aus, um Inferenz-Ergebnisse zu generieren.
Bereiten Sie die Ground-Truth-Daten vor, also die „korrekt mit Labels versehenen“ Daten, wie sie von Menschen festgelegt werden. Die Ground-Truth-Daten liegen in der Regel als Test-Dataset vor, das Sie für das Modelltraining verwendet haben.
Führen Sie für das Modell einen Bewertungsjob aus, der die Genauigkeit der Batchinferenzergebnisse im Vergleich zu den Ground-Truth-Daten bewertet.
Analysieren Sie die Messwerte, die sich aus dem Bewertungsjob ergeben.
Führen Sie eine Iteration für Ihr Modell aus, um zu prüfen, ob sich die Genauigkeit des Modells verbessern lässt. Sie können mehrere Bewertungsjobs ausführen und die Ergebnisse mehrerer Jobs für verschiedene Modellen oder Modellversionen vergleichen.

Die Modellbewertung in Vertex AI lässt sich auf unterschiedliche Weise ausführen:

Erstellen Sie in derGoogle Cloud Console Bewertungen über die Vertex AI Model Registry.
Verwenden Sie Modellbewertungen von Vertex AI als Pipeline-Komponente mit Vertex AI Pipelines. Sie können Pipelineausführungen und -vorlagen erstellen, die Modellbewertungen im Rahmen Ihres automatischen MLOps-Workflows enthalten.

Sie können die Modellbewertungskomponente allein oder mit anderen Pipelinekomponenten wie der Batchinferenzkomponente ausführen.

Vertex AI unterstützt die Bewertung der folgenden Modelltypen:

Image

Klassifizierung

Sie können Schemadateien unter dem folgenden Cloud Storage-Speicherort ansehen und herunterladen:
gs://google-cloud-aiplatform/schema/modelevaluation/

AuPRC: Der Bereich unter der Precision-/Recall-Kurve (Area Under the Precision/Recall Curve, AuPRC), auch als durchschnittliche Precision bezeichnet. Dieser Wert reicht von null bis eins, wobei ein höherer Wert auf ein Modell von höherer Qualität verweist.
Logarithmischer Verlust: Die Kreuzentropie zwischen den Modellinferenzen und den Zielwerten. Dieser Wert reicht von null bis unendlich, wobei ein niedrigerer Wert auf ein Modell von höherer Qualität hinweist.
Konfidenzgrenzwert: Ein Konfidenzwert, der bestimmt, welche Inferenz zurückgegeben werden. Ein Modell gibt Vorhersagen mit diesem Wert oder höher zurück. Ein höherer Konfidenzgrenzwert erhöht die Precision, verringert aber den Recall. Vertex AI gibt Konfidenzmesswerte mit unterschiedlichen Grenzwerten zurück, um festzustellen, wie sich der Grenzwert auf die Precision und den Recall auswirkt.
Trefferquote: Der Anteil an Vorhersagen mit dieser Klasse, die das Modell korrekt vorhergesagt hat. Wird als Rate richtig positiver Ergebnisse bezeichnet.
Präzision: Der Anteil an Klassifizierungsvorhersagen des Modells, die richtig waren.
Wahrheitsmatrix: Eine Wahrheitsmatrix gibt an, wie oft ein Modell ein Ergebnis korrekt vorhergesagt hat. Bei falsch vorhergesagten Ergebnissen zeigt die Matrix, was das Modell stattdessen vorhergesagt hat. Die Wahrheitsmatrix hilft Ihnen zu verstehen, wo Ihr Modell zwei Ergebnisse „vermischt“.

Tabellarisch

Klassifizierung

Sie können Schemadateien unter dem folgenden Cloud Storage-Speicherort ansehen und herunterladen:
gs://google-cloud-aiplatform/schema/modelevaluation/

AuPRC: Der Bereich unter der Precision-/Recall-Kurve (Area Under the Precision/Recall Curve, AuPRC), auch als durchschnittliche Precision bezeichnet. Dieser Wert reicht von null bis eins, wobei ein höherer Wert auf ein Modell von höherer Qualität verweist.
AuROC: Die Fläche unter der Grenzwertoptimierungskurve (Receiver Operating Characteristic Curve, ROC).. Dieser Wert reicht von null bis eins, wobei ein höherer Wert auf ein Modell von höherer Qualität verweist.
Logarithmischer Verlust: Die Kreuzentropie zwischen den Modellinferenzen und den Zielwerten. Dieser Wert reicht von null bis unendlich, wobei ein niedrigerer Wert auf ein Modell von höherer Qualität hinweist.
Konfidenzgrenzwert: Ein Konfidenzwert, der bestimmt, welche Inferenz zurückgegeben werden. Ein Modell gibt Vorhersagen mit diesem Wert oder höher zurück. Ein höherer Konfidenzgrenzwert erhöht die Precision, verringert aber den Recall. Vertex AI gibt Konfidenzmesswerte mit unterschiedlichen Grenzwerten zurück, um festzustellen, wie sich der Grenzwert auf die Precision und den Recall auswirkt.
Trefferquote: Der Anteil an Vorhersagen mit dieser Klasse, die das Modell korrekt vorhergesagt hat. Wird als Rate richtig positiver Ergebnisse bezeichnet.
Rückruf bei 1: Die Trefferquote unter alleiniger Berücksichtigung des Labels, das für jedes Beispiel den höchsten Inferenzwert hat, der nicht unter dem Konfidenzwert liegt.
Präzision: Der Anteil an Klassifizierungsvorhersagen des Modells, die richtig waren.
Genauigkeit bei 1: Die Genauigkeit, wenn nur das Label mit dem höchsten Inferenzwert und nicht der Konfidenzwert für jedes Beispiel berücksichtigt wird.
F1-Wert: der harmonische Mittelwert von Precision und Recall. F1 ist ein nützlicher Messwert, wenn Sie ein Gleichgewicht zwischen Precision und Recall anstreben und die Klassenverteilung ungleichmäßig ist
F1-Wert bei 1: Der harmonische Mittelwert von Trefferquote bei 1 und Genauigkeit bei 1.
Wahrheitsmatrix: Eine Wahrheitsmatrix gibt an, wie oft ein Modell ein Ergebnis korrekt vorhergesagt hat. Bei falsch vorhergesagten Ergebnissen zeigt die Matrix, was das Modell stattdessen vorhergesagt hat. Die Wahrheitsmatrix hilft Ihnen zu verstehen, wo Ihr Modell zwei Ergebnisse „vermischt“.
Anzahl echt negativer Ergebnisse: Die Häufigkeit, mit der ein Modell eine negative Klasse richtig vorhergesagt hat.
Anzahl echt positiver Ergebnisse: Die Häufigkeit, mit der ein Modell eine positive Klasse richtig vorhergesagt hat.
Anzahl falsch negativer Ergebnisse: Die Häufigkeit, mit der ein Modell eine negative Klasse falsch vorhergesagt hat.
Anzahl falsch positiver Ergebnisse: Die Häufigkeit, mit der ein Modell eine positive Klasse falsch vorhergesagt hat.
Rate falsch positiver Ergebnisse: Der Anteil falsch vorhergesagter Ergebnisse aus allen vorhergesagten Ergebnissen.
Rate falsch positiver Ergebnisse bei 1: Die Rate falsch positiver Ergebnisse, wenn nur das Label mit dem höchsten Inferenzwert und nicht der Konfidenzwert für jedes Beispiel berücksichtigt wird.
Modell-Featureattributionen: In Vertex AI sehen Sie, wie stark sich die einzelnen Features auf ein Modell auswirken. Die Werte werden für jedes Feature als Prozentsatz angegeben. Je höher der Prozentsatz, desto stärker wirkt sich das Feature auf das Modelltraining aus. Prüfen Sie diese Informationen, damit alle wichtigen Funktionen für Ihr Daten- und Geschäftsproblem sinnvoll sind.

Regression

Sie können Schemadateien unter dem folgenden Cloud Storage-Speicherort ansehen und herunterladen:
gs://google-cloud-aiplatform/schema/modelevaluation/

MAE: Der mittlere absolute Fehler (Mean Absolute Error) ist die durchschnittliche absolute Differenz zwischen den Zielwerten und den vorhergesagten Werten. Dieser Messwert reicht von null bis unendlich. Ein niedrigerer Wert gibt ein höheres Qualitätsmodell an.
RMSE: Der RMSE (Root Mean Squared Error) ist der Durchschnitt der Differenz zum Quadrat zwischen dem Zielwert und den tatsächlichen Werten. RMSE reagiert empfindlicher auf Ausreißer als MAE. Wenn Sie also große Fehler befürchten, ist es möglicherweise sinnvoller, RMSE als Messwert für die Auswertung zu nutzen. Ähnlich wie bei MAE zeigt ein kleinerer Wert ein Modell mit höherer Qualität an (0 steht für einen perfekten Prädiktor).
RMSLE: Dieser Messwert der Wurzel des mittleren quadratischen logarithmischen Fehlers ähnelt RMSE, verwendet jedoch den natürlichen Logarithmus der vorhergesagten und tatsächlichen Werte plus 1. RMSLE bestraft eine Unterinferenz stärker als eine Überinferenz. Er kann auch ein guter Messwert sein, wenn Sie nicht möchten, dass Unterschiede bei großen Inferenzwerten stärker als bei kleinen Inferenzwerten bestraft werden. Dieser Messwert reicht von null bis unendlich. Ein niedrigerer Wert gibt ein Modell mit höherer Qualität an. Der RMSLE-Bewertungsmesswert wird nur zurückgegeben, wenn alle Label- und Vorhersagewerte nicht negativ sind.
r^2: r-Quadrat ist das Quadrat des Pearson-Korrelationskoeffizienten zwischen den Labels und vorhergesagten Werten. Dieser Messwert liegt zwischen null und eins. Ein höherer Wert bedeutet eine bessere Anpassung an die Regressionslinie.
MAPE: Der mittlere absolute prozentuale Fehler (Mean Absolute Percentage Error) ist die durchschnittliche absolute prozentuale Differenz zwischen den Labels und den vorhergesagten Werten. Dieser Messwert liegt zwischen null und unendlich. Ein niedrigerer Wert gibt ein höheres Qualitätsmodell an.
MAPE wird nicht angezeigt, wenn die Zielspalte Nullwerte enthält. In diesem Fall ist MAPE nicht definiert.
Modell-Featureattributionen: In Vertex AI sehen Sie, wie stark sich die einzelnen Features auf ein Modell auswirken. Die Werte werden für jedes Feature als Prozentsatz angegeben. Je höher der Prozentsatz, desto stärker wirkt sich das Feature auf das Modelltraining aus. Prüfen Sie diese Informationen, damit alle wichtigen Funktionen für Ihr Daten- und Geschäftsproblem sinnvoll sind.

Prognosen

Sie können Schemadateien unter dem folgenden Cloud Storage-Speicherort ansehen und herunterladen:
gs://google-cloud-aiplatform/schema/modelevaluation/

MAE: Der mittlere absolute Fehler (Mean Absolute Error) ist die durchschnittliche absolute Differenz zwischen den Zielwerten und den vorhergesagten Werten. Dieser Messwert reicht von null bis unendlich. Ein niedrigerer Wert gibt ein höheres Qualitätsmodell an.
RMSE: Der RMSE (Root Mean Squared Error) ist der Durchschnitt der Differenz zum Quadrat zwischen dem Zielwert und den tatsächlichen Werten. RMSE reagiert empfindlicher auf Ausreißer als MAE. Wenn Sie also große Fehler befürchten, ist es möglicherweise sinnvoller, RMSE als Messwert für die Auswertung zu nutzen. Ähnlich wie bei MAE zeigt ein kleinerer Wert ein Modell mit höherer Qualität an (0 steht für einen perfekten Prädiktor).
RMSLE: Dieser Messwert der Wurzel des mittleren quadratischen logarithmischen Fehlers ähnelt RMSE, verwendet jedoch den natürlichen Logarithmus der vorhergesagten und tatsächlichen Werte plus 1. RMSLE bestraft eine Unterinferenz stärker als eine Überinferenz. Er kann auch ein guter Messwert sein, wenn Sie nicht möchten, dass Unterschiede bei großen Inferenzwerten stärker als bei kleinen Inferenzwerten bestraft werden. Dieser Messwert reicht von null bis unendlich. Ein niedrigerer Wert gibt ein Modell mit höherer Qualität an. Der RMSLE-Bewertungsmesswert wird nur zurückgegeben, wenn alle Label- und Vorhersagewerte nicht negativ sind.
r^2: r-Quadrat ist das Quadrat des Pearson-Korrelationskoeffizienten zwischen den Labels und vorhergesagten Werten. Dieser Messwert liegt zwischen null und eins. Ein höherer Wert bedeutet eine bessere Anpassung an die Regressionslinie.
MAPE: Der mittlere absolute prozentuale Fehler (Mean Absolute Percentage Error) ist die durchschnittliche absolute prozentuale Differenz zwischen den Labels und den vorhergesagten Werten. Dieser Messwert liegt zwischen null und unendlich. Ein niedrigerer Wert gibt ein höheres Qualitätsmodell an.
MAPE wird nicht angezeigt, wenn die Zielspalte Nullwerte enthält. In diesem Fall ist MAPE nicht definiert.
WAPE: Der gewichtete absolute Prozentfehler (WAPE) ist der Gesamtunterschied zwischen dem von einem Modell vorhergesagten Wert und den beobachteten Werten. Im Vergleich zu RMSE wird der WAPE anhand der Gesamtunterschiede statt der individuellen Unterschiede gewichtet, welche sehr von geringen oder periodischen Werten beeinflusst werden können. Ein niedrigerer Wert deutet auf ein Modell höherer Qualität hin.
RMSPE: Der mittlere quadratische Prozentfehler (RMPSE) zeigt RMSE als Prozentsatz der tatsächlichen Werte anstelle einer absoluten Zahl an. Ein niedrigerer Wert deutet auf ein Modell höherer Qualität hin.
Quantil: Das prozentuale Quantil, das die Wahrscheinlichkeit angibt, dass ein beobachteter Wert unter dem vorhergesagten Wert liegt. Beispielsweise wird erwartet, dass die beobachteten Werte am 0,5-Quantil in 50 % der Zeit niedriger als die vorhergesagten Werte sind.
Beobachtetes Quantil: Zeigt den Prozentsatz der wahren Werte an, die für ein bestimmtes Quantil unter dem vorhergesagten Wert lagen.
Skalierter Pinball-Loss: Der skalierte Pinball-Loss bei einem bestimmten Quantil. Ein niedrigerer Wert deutet auf ein Modell höherer Qualität am angegebenen Quantil hin.

Notebook-Anleitungen

AutoML: Tabellarisch

Führen Sie die folgenden Notebooks in der Umgebung Ihrer Wahl aus, um mehr zu erfahren:

„Vertex AI: Evaluieren von Batchvorhersageergebnissen aus einem AutoML Tabular-Klassifizierungsmodell“:
In Colab öffnen | In Colab Enterprise öffnen | In Vertex AI Workbench öffnen | Auf GitHub ansehen
„Vertex AI Pipelines: Evaluieren von Batchvorhersageergebnissen aus dem AutoML Tabular-Regressionsmodell“:
In Colab öffnen | In Colab Enterprise öffnen | In Vertex AI Workbench öffnen | Auf GitHub ansehen

Benutzerdefiniertes Training: Tabellarisch

Führen Sie die folgenden Notebooks in der Umgebung Ihrer Wahl aus, um mehr zu erfahren:

„Vertex AI Pipelines: Evaluieren von BatchPrediction-Ergebnissen aus einem benutzerdefinierten tabellarischen Klassifizierungsmodell“:
In Colab öffnen | In Colab Enterprise öffnen | In Vertex AI Workbench öffnen | Auf GitHub ansehen
„Vertex AI Pipelines: Ergebnisse der Batchvorhersage aus dem benutzerdefinierten tabellarischen Regressionsmodell bewerten“:
In Colab öffnen | In Colab Enterprise öffnen | In Vertex AI Workbench öffnen | Auf GitHub ansehen

Vertex AI Model Registry

Nächste Schritte

Modellbewertung mit Vertex AI ausführen