Einführung in Vertex Explainable AI

Vertex Explainable AI integriert Feature-Attributionen in Vertex AI. Diese Seite bietet eine kurze konzeptionelle Übersicht über die Methoden zur Attribution von Features, die mit Vertex AI verfügbar sind. Eine ausführliche technische Erläuterung finden Sie in unserem Whitepaper zu AI Explanations.

Vertex Explainable AI unterstützt das Verständnis der Ausgaben Ihres Modells bei Klassifizierungs- und Regressionsaufgaben. Vertex AI gibt an, wie stark die einzelnen Features in den Daten zum vorhergesagten Ergebnis beigetragen haben. Anhand dieser Informationen können Sie prüfen, ob das Modell wie erwartet funktioniert, Verzerrungen in Ihren Modellen erkennen und Ideen zur Verbesserung Ihres Modells und Ihrer Trainingsdaten gewinnen.

Vertex AI unterstützt Vertex Explainable AI für die folgenden Modelltypen:

  • AutoML-Bildmodelle (nur Klassifizierungsmodelle)
  • Tabellarische AutoML-Modelle (nur Klassifizierungs- und Regressionsmodelle)
  • Benutzerdefinierte Modelle auf der Grundlage von Tabellendaten
  • Benutzerdefinierte Modelle auf der Grundlage von Bilddaten

Bei tabellarischen AutoML-Modellen werden Feature-Attributionen in der Google Cloud Console als Merkmalwichtigkeit angezeigt. Dabei gilt die Merkmalwichtigkeit des Modells für das gesamte Modell und die lokale Merkmalwichtigkeit für Onlinevorhersagen und Batchvorhersagen.

Feature-Attributionen

Feature-Attributionen geben an, wie viel jedes Feature in Ihrem Modell zu den Vorhersagen für die jeweilige Instanz beigetragen hat. Wenn Sie Vorhersagen anfordern, erhalten Sie entsprechende vorhergesagte Werte für Ihr Modell. Wenn Sie Erläuterungen anfordern, erhalten Sie die Vorhersagen zusammen mit Informationen zur Feature-Attribution.

Feature-Attributionen arbeiten mit tabellarischen Daten und beinhalten integrierte Visualisierungsfunktionen für Bilddaten. Betrachten Sie folgende Beispiele:

  • Ein neuronales Deep-Learning-Netzwerk wird trainiert, damit es die Dauer einer Fahrradtour auf Basis von Wetterdaten und früheren geteilten Daten vorhersagt. Wenn Sie nur Vorhersagen von diesem Modell anfordern, erhalten Sie die vorhergesagte Dauer von Fahrradtouren in Minuten. Wenn Sie Erläuterungen anfordern, erhalten Sie die vorhergesagte Fahrzeit sowie einen Attributionswert für jedes Feature in Ihrer Erläuterungsanfrage. Die Attributionswerte geben an, wie stark sich das Feature relativ zum von Ihnen angegebenen Referenzwert auf die Änderung des Vorhersagewerts auswirkt. Wählen Sie eine aussagekräftige Referenz für Ihr Modell aus. In diesem Fall die mittlere Fahrtzeit. Sie können die Feature-Attributionswerte grafisch darstellen, um zu sehen, welche Features am stärksten zur resultierenden Vorhersage beigetragen haben:

    Diagramm mit Attributionen von Attributen für eine vorhergesagte Fahrtzeit

  • Ein Bildklassifizierungsmodell wird trainiert, um vorherzusagen, ob ein bestimmtes Bild einen Hund oder eine Katze enthält. Wenn Sie Vorhersagen von diesem Modell für einen neuen Satz von Bildern anfordern, erhalten Sie eine Vorhersage für jedes Bild ("Hund" oder "Katze"). Wenn Sie Erläuterungen anfordern, erhalten Sie die vorhergesagte Klasse zusammen mit einem Overlay für das Bild, das zeigt, welche Pixel im Bild am stärksten zur resultierenden Vorhersage beigetragen haben:

    Ein Foto einer Katze mit Attributionsoverlay von Attributen
    Ein Foto einer Katze mit Feature-Attributionsoverlay
    Ein Foto von einem Hund mit Attributionsoverlay von Attributen
    Ein Foto von einem Hund mit Feature-Attributionsoverlay
  • Ein Bildklassifizierungsmodell wird trainiert, um die Gattung einer Blume in dem Bild vorherzusagen. Wenn Sie Vorhersagen von diesem Modell für einen neuen Satz von Bildern anfordern, erhalten Sie eine Vorhersage für jedes Bild ("Gänseblümchen" oder "Löwenzahn"). Wenn Sie Erläuterungen anfordern, erhalten Sie die vorhergesagte Klasse zusammen mit einem Overlay für das Bild, das zeigt, welche Bereiche im Bild am stärksten zur resultierenden Vorhersage beigetragen haben:

    Ein Foto eines Gänseblümchens mit Feature-Attributionsoverlay
    Foto eines Gänseblümchens mit Feature-Attributionsoverlay

Vorteile

Wenn Sie bestimmte Instanzen prüfen und darüber hinaus Feature-Attributionen in Ihrem Trainings-Dataset erzeugen, erhalten Sie genauere Einblicke in die Funktionsweise Ihres Modells. Beachten Sie die folgenden Vorteile:

  • Fehlerbehebungsmodelle: Mithilfe von Feature-Attributionen können Probleme in den Daten erkannt werden, die mit den Standardtechniken der Modellbewertung in der Regel nicht ermittelt werden.

    So hat z. B. ein Bildpathologiemodell in einem Test-Dataset von Bruströntgenbildern erstaunlich gute Ergebnisse ergeben. Die Attributionen von Attributen ergaben, dass die hohe Genauigkeit des Modells von den Stiftmarkierungen des Radiologen im Bild abhing. Weitere Informationen zu diesem Beispiel finden Sie im Whitepaper zu AI Explanations.

  • Modelle optimieren: Sie können weniger wichtige Features identifizieren und entfernen, was zu effizienteren Modellen führt.

Konzeptionelle Einschränkungen

Berücksichtigen Sie die folgenden Einschränkungen für Attributionen von Attributen:

  • Feature-Attributionen, einschließlich der lokalen Merkmalwichtigkeit für AutoML, gelten für einzelne Vorhersagen. Die Prüfung der Feature-Attributionen für eine einzelne Vorhersage bietet möglicherweise einen guten Einblick, aber die Informationen sind eventuell nicht für die gesamte Klasse dieser einzelnen Instanz oder für das gesamte Modell verallgemeinerbar.

    Verallgemeinerbare Informationen zu AutoML-Modellen finden Sie in der Merkmalwichtigkeit des Modells. Für verallgemeinerbare Informationen zu anderen Modellen aggregieren Sie Attributionen für Teilmengen des Datasets oder für das gesamte Dataset.

  • Obwohl Feature-Attributionen bei der Fehlerbehebung für Modelle hilfreich sein können, geben sie nicht immer deutlich genug an, ob ein Problem durch das Modell oder die Daten entsteht, auf denen das Modell trainiert wird. Gehen Sie nach bestem Wissen vor und diagnostizieren Sie häufige Datenprobleme, um mögliche Ursachen zu minimieren.

  • Feature-Attributionen unterliegen ähnlichen kontradiktorischen Angriffen wie Vorhersagen in komplexen Modellen.

Weitere Informationen zu Einschränkungen finden Sie in der Liste der allgemeinen Einschränkungen und im Whitepaper zu AI Explanations.

Methoden zur Featureattribution vergleichen

Vertex Explainable AI bietet drei Methoden für Feature-Attributionen: Sampled Shapley, Integrierte Gradienten und XRAI.

Methode Grundlegende Erläuterung Empfohlene Modelltypen Beispielanwendungsfälle Kompatible Vertex-AI-Model-Ressourcen
Sampled Shapley Weist jedem Feature eine Gewichtung für das Ergebnis zu und berücksichtigt verschiedene Varianten der Features. Diese Methode liefert eine Stichprobenapproximation für exakte Shapley-Werte. Nicht unterscheidbare Modelle, z. B. Ensembles von Baumstrukturen und neuronalen Netzwerken
  • Klassifizierung und Regression für Tabellendaten
  • Benutzerdefinierte Modelle (beliebiger Vorhersagecontainer)
  • Tabellarische AutoML-Modelle
Integrierte Gradienten Eine auf Verläufen basierende Methode zur effizienten Berechnung von Feature-Attributionen mit denselben axiomatischen Eigenschaften wie der Shapley-Wert. Unterscheidbare Modelle, z. B. neuronale Netzwerke Besonders für Modelle mit großen Feature-Bereichen empfohlen.
Empfohlen für Bilder mit geringem Kontrast, z. B. Röntgenaufnahmen.
  • Klassifizierung und Regression für Tabellendaten
  • Klassifizierung für Bilddaten
XRAI (eXplanation with Ranked Area Integrals) Auf Grundlage der Methode "Integrierte Gradienten" werden bei XRAI sich überschneidende Bereiche des Bildes bewertet, um eine Karte mit Ausprägungen zu erstellen, die relevante Regionen des Bildes statt Pixel hervorhebt. Modelle, die Bildeingaben akzeptieren. Besonders empfohlen für natürliche Bilder, also Szenen aus der realen Welt, die mehrere Objekte enthalten.
  • Klassifizierung für Bilddaten

Einen detaillierteren Vergleich der Attributionsmethoden finden Sie im Whitepaper zu AI Explanations.

Unterscheidbare und nicht unterscheidbare Modelle

In unterscheidbaren Modellen können Sie die Ableitung aller Vorgänge in Ihrer TensorFlow-Grafik berechnen. Diese Eigenschaft ermöglicht die Rückpropagierung bei solchen Modellen. Neuronale Netzwerke sind beispielsweise unterscheidbar. Verwenden Sie die Methode "Integrierte Gradienten", um Feature-Attributionen für unterscheidbare Modelle zu erhalten.

Die Methode "Integrierte Gradienten" funktioniert nicht bei nicht unterscheidbaren Modellen. Weitere Informationen zur Codierung nicht unterscheidbarer Eingaben, um dafür die Methode "Integrierte Gradienten" nutzen zu können, finden Sie in diesem Artikel.

Nicht unterscheidbare Modelle enthalten nicht unterscheidbare Vorgänge in der TensorFlow-Grafik, z. B. Vorgänge, die Decodierungs- und Rundungsaufgaben ausführen. Ein Modell, das aus einer Gruppe von Bäumen und neuronalen Netzwerken besteht, ist beispielsweise nicht unterscheidbar. Verwenden Sie die Sampled Shapley-Methode, um Feature-Attributionen für nicht unterscheidbare Modelle zu erhalten. Sampled Shapley funktioniert auch bei unterscheidbaren Modellen, erfordert in diesem Fall jedoch mehr Rechenleistung als nötig.

Methoden zur Featureattribution

Jede Methode der Feature-Attribution basiert auf Shapley-Werten. Dabei handelt es sich um einen Algorithmus der Spieltheorie, der jedem Spieler in einem Spiel eine Gewichtung für ein bestimmtes Ergebnis zuweist. Auf ML-Modelle angewendet bedeutet dies, dass jedes Modellmerkmal als "Spieler" im Spiel behandelt wird. Vertex Explainable AI weist jedem Feature eine proportionale Gewichtung für das Ergebnis einer bestimmten Vorhersage zu.

Methode "Sampled Shapley"

Die Methode Sampled Shapley bietet eine Stichprobenapproximation für exakte Shapley-Werte. Tabellarische AutoML-Modelle verwenden die Methode "Sampled Shapley" für die Merkmalwichtigkeit. Sampled Shapley eignet sich gut für diese Modelle, die Metaensembles von Baumstrukturen und neuronalen Netzwerken darstellen.

Ausführliche Informationen zur Sampled-Shapley-Methode finden Sie im Artikel Bounding the Emulationation Error of Sampling-based Shapley Value Approximation (nur auf Englisch verfügbar).

Methode "Integrierte Gradienten"

Bei der Methode Integrierte Gradienten wird der Gradient der Vorhersageausgabe in Bezug auf die Features der Eingabe entlang eines integralen Pfads berechnet.

  1. Die Gradienten werden in verschiedenen Intervallen eines Skalierungsparameters berechnet. Die Größe jedes Intervalls wird mithilfe der Gauß-Quadratur bestimmt. Stellen Sie sich diesen Skalierungsparameter für Bilddaten als "Schieberegler" vor, der alle Pixel des Bildes auf Schwarz skaliert.
  2. Die Gradienten sind folgendermaßen eingebunden:
    1. Das Integral wird mit einem gewichteten Durchschnitt approximiert.
    2. Das elementweise Produkt der gemittelten Gradienten und der ursprünglichen Eingabe wird berechnet.

Eine intuitive Erklärung dieses Prozesses für Bilder finden Sie im Blogpost Attributing a deep network's prediction to its input features. Die Autoren des ursprünglichen Artikels über integrierte Farbverläufe (Axiomatic Attribution for Deep Networks) zeigen im vorherigen Blogpost, wie die Bilder bei jedem Schritt des Prozesses aussehen.

XRAI-Methode

Die Methode XRAI kombiniert die Methode "Integrierte Gradienten" mit zusätzlichen Schritten, um zu bestimmen, welche Regionen des Bildes am meisten zu einer bestimmten Klassenvorhersage beitragen.

  1. Attribution auf Pixelebene: XRAI führt eine Attribution auf Pixelebene für das Eingabebild durch. In diesem Schritt verwendet XRAI die Methode "Integrierte Gradienten" mit jeweils einer Referenz für Schwarz und für Weiß.
  2. Übersegmentierung: Unabhängig von der Attribution auf Pixelebene wird das Bild von XRAI übersegmentiert, um ein Flickwerk aus kleinen Regionen zu erstellen. XRAI verwendet zum Erstellen der Bildsegmente die auf Diagrammen beruhende Methode von Felzenszwalb.
  3. Regionsauswahl: XRAI aggregiert die Attribution auf Pixelebene innerhalb jedes Segments, um die Attributionsdichte zu bestimmen. Anhand dieser Werte ordnet XRAI jedem Segment einen Rang zu und ordnet dann die Segmente vom positivsten zum am wenigsten positiven Segment an. Dadurch wird bestimmt, welche Bereiche des Bildes am auffälligsten sind oder am stärksten zu einer bestimmten Klassenvorhersage beitragen.

Bilder, die die Schritte des XRAI-Algorithmus zeigen

Verweise

Die Implementierungen von Sampled Shapley, Integrierte Gradienten und XRAI beruhen jeweils auf den folgenden Referenzen:

Weitere Informationen zur Implementierung von Vertex Explainable AI finden Sie im Whitepaper zu AI Explanations.

Bildungsressourcen

Die folgenden Ressourcen bieten weitere nützliche Lehrmaterialien:

Nächste Schritte