Inklusiver ML-Leitfaden – AutoML

Bei Google denken wir viel darüber nach, welche Prinzipien unsere Arbeit im Bereich künstliche Intelligenz (KI) motivieren und prägen. Wir bekennen uns zu einem humanistischen Ansatz und legen Wert auf Responsible AI-Praktiken und -Produkte, die sich für alle Menschen und Kontexte gut eignen. Diese Werte – verantwortungsbewusste und inklusive KI – liegen den AutoML-Produkten für maschinelles Lernen zugrunde. In den folgenden Abschnitten erfahren Sie, wie sie konkret umgesetzt werden.

Schnelle und einfache Einrichtung

AutoML unterstützt Organisationen und Menschen, die KI für sich nutzen wollen. Es ist leicht zu bedienen, erfordert keinen Code und ist auch ohne Erfahrung mit maschinellem Lernen anwendbar.

AutoML

Mithilfe von Algorithmentechniken wie Lerntransfer und Learning to Learn erleichtert AutoML Organisationen den Einstieg in ML. Für die Erstellung eigener Modelle genügen dabei kleinere Datasets als normalerweise erforderlich.

Kleidung

Mit AutoML haben Sie die Möglichkeit, ganz einfach aussagekräftige und kontextrelevante ML-Systeme zu erstellen. Sollten Sie beispielsweise bei der Sprachverarbeitung feststellen, dass unser generisches Modell weder Slang noch die Sprache Ihres Anwendungsbereichs erfasst, haben Sie die Möglichkeit, ein benutzerdefiniertes Modell zu erstellen, das genau die linguistischen Funktionen enthält, die Ihnen wichtig sind. Und falls die generischen Modelle zur Klassifizierung von Kleidungsstücken nicht für die Kleidung funktionieren, die von Ihren Kunden getragen wird, können Sie das Modell trainieren, damit auch das in Zukunft besser klappt.

Fairness beim maschinellen Lernen

Eines unserer Anliegen besteht darin, die Vorteile des maschinellen Lernens für alle zugänglich zu machen. Aus diesem Grund ist es uns sehr wichtig, vorhandenen Vorurteilen gegen gesellschaftliche Gruppen entgegenzutreten, da diese das Leben aller Menschen prägen und beeinflussen. Dieser Forschungsbereich heißt bei Google Fairness beim maschinellen Lernen. Auf dieser Seite teilen wir Ihnen unsere aktuellen Gedanken zum Thema mit und geben Empfehlungen, wie man mit AutoML den Aspekt der Fairness beim maschinellen Lernen voranbringen kann.

Fairness weltweit

Was bedeutet Fairness beim maschinellen Lernen?

Fairness beim maschinellen Lernen ist ein spannendes und lebendiges Forschungsfeld, das in der Wissenschaft, unter Fachleuten und in der breiten Öffentlichkeit viel diskutiert wird. Es geht darum, eine ungerechte oder von Vorurteilen beeinflusste Behandlung von Menschen aufgrund ihrer Herkunft, ihres Einkommens, ihrer sexuellen Orientierung, ihrer Religion, ihres Geschlechts und anderer Merkmale, die historisch mit Diskriminierung und Ausgrenzung verbunden waren, dort zu erkennen und zu verhindern, wo sie sich in Algorithmen oder bei der Entscheidungsfindung durch algorithmische Systeme bemerkbar machen.

Algorithmen stellen uns vor viele Herausforderungen. Beispielsweise treten Verzerrungen in Trainings-Datasets auf, in denen sich gesellschaftliche Vorurteile niedergeschlagen haben, in Entscheidungen, die bei der Entwicklung eines ML-Systems getroffen wurden, oder in komplexen Feedbackschleifen, die entstehen, wenn ein ML-System in der realen Welt eingesetzt wird.

In der Frage nach Fairness beim maschinellen Lernen gibt es eine Vielzahl erstrebenswerter Perspektiven und Ziele. Beispielsweise kann man versuchen, ML-Klassifikatoren so zu trainieren, dass die Vorhersagen durch das ML-System in allen sozialen Gruppen gleichermaßen gut zutreffen. Ein anderes Ziel besteht darin, die Auswirkungen historischer Ungleichheiten zu untersuchen und auf dieser Basis ein ML-System zu schaffen, das künftig versucht, nachteilige Ergebnisse zu korrigieren oder abzumildern. Diese und andere Ansätze sind wichtig und oft miteinander verknüpft.

Weitere Informationen finden Sie in unseren englischsprachigen Ressourcen zu den verantwortungsbewussten KI-Praktiken von Google und den empfohlenen fairen Vorgehensweisen, im Google-Video zu maschinellem Lernen und menschlichen Vorurteilen sowie im Tutorial zu Fairness beim maschinellen Lernen von Moritz Hardt und Solon Barocas.

Schuhe

Fairness beim maschinellen Lernen und in AutoML

Mit AutoML haben wir die Möglichkeit, Inklusion und Fairness auf unterschiedliche Weise zu fördern. Falls wie bereits erwähnt die aktuellen ML-Modelle aufgrund historischer Lücken oder einer nicht repräsentativen Datenebene nicht vollständig auf die Bedürfnisse Ihrer Gemeinschaft oder Ihrer Nutzer zugeschnitten sind, können Sie benutzerdefinierte Modelle erstellen, die bessere Ergebnisse erzielen. In jedem mit AutoML erstellten benutzerdefinierten Modell haben Sie die Möglichkeit, Ziele für Fairness einzubauen und zu erreichen. Hierzu können Sie dann Daten heranziehen, die dem Modell helfen, in allen für Sie relevanten Kategorien gleichmäßig gute Vorhersagen zu treffen. Solche Maßnahmen im Sinne der Fairness helfen, das Risiko der im Folgenden beschriebenen negativen Konsequenzen, die mit einigen ML-Systemen in Verbindung gebracht werden, zu senken.

Antenne

Schaden durch falsche Darstellung

Ein solcher Schaden entsteht, wenn ein ML-System bestehende negative Stereotypen über bestimmte Gruppen weiterträgt oder verstärkt. Beispielsweise werden ML-Modelle zur Bildersuche oder für automatische Textvorschläge oft anhand des vorherigen Nutzerverhaltens trainiert (d. h. anhand von häufig verwendeten Suchbegriffen oder Kommentaren). Dies kann zu diskriminierenden Ergebnissen führen. Außerdem kann Schaden durch falsche Darstellung – über die Diskriminierung eines individuellen Nutzers in einem bestimmten Moment hinaus – auch schwer greifbare und langfristige gesellschaftliche Auswirkungen auf große Menschengruppen haben.

Kleidung

Vorenthaltung von Chancen

ML-Systeme werden immer öfter verwendet, um Vorhersagen und Entscheidungen zu treffen, die im echten Leben Konsequenzen haben und sich darauf auswirken, ob ein Mensch Zugang zu Chancen und Ressourcen hat und wie sich die allgemeine Lebensqualität für diesen Menschen weiterentwickelt.

Ausrufezeichen

Unverhältnismäßige Minderung des Produktnutzens

In manchen Fällen ist Ungerechtigkeit eine Frage der grundlegenden Nutzerfreundlichkeit und Nutzbarkeit von Produkten. Beispielsweise wurde festgestellt, dass einige Seifenspender in öffentlichen Toiletten überproportional hohe Fehlerraten für Personen mit dunkler Haut aufweisen.

Im Folgenden erklären wir einige Lösungsansätze, auf die Sie beim Erstellen Ihrer benutzerdefinierten Modelle in AutoML zurückgreifen können. Dabei liegt unser Fokus darauf, Verzerrungen in Trainings-Datasets zu reduzieren sowie Ihre benutzerdefinierten Modelle auf Leistungsunterschiede und daraufhin zu bewerten, welche Aspekte bei der Nutzung Ihrer benutzerdefinierten Modelle zu berücksichtigen sind.

Wie lässt sich Fairness beim maschinellen Lernen bewerten?

Wozu und in welchem Kontext wird Ihr Produkt verwendet?

Nutzerfreundlichkeit

In manchen Fällen ist Fairness eine Frage der grundlegenden Nutzerfreundlichkeit und Nutzbarkeit von Produkten.

Gesetze

In anderen Fällen hat Fairness mit Gesetzen und Vorschriften zu tun, die die Verwendung von statistisch relevanten Daten, die bestimmte sensible Merkmale direkt identifizieren oder mit ihnen stark korrelieren, einschränken. Personen mit bestimmten Merkmalen können in einigen Kontexten auch rechtlichen Schutz gegen Diskriminierung genießen (z. B. „geschützte Gruppen“).

Sprechblasen

In anderen Fällen ist Ungerechtigkeit nicht sofort offensichtlich, sondern erfordert differenzierte soziale, politische und ethische Fragestellungen darüber, wie Ihr ML-System in der Praxis eingesetzt wird oder wie sich Voreingenommenheit im Laufe der Zeit einschleichen kann. Wenn Sie beispielsweise künstliche Intelligenz zum Generieren von automatisierten Texten oder Übersetzungen verwenden: Welche Arten von Verzerrungen oder Stereotypen könnten dabei ethisch problematisch sein – z. B. die Assoziation des Geschlechts mit bestimmten Berufstypen oder einer Religion mit bestimmten politischen Ansichten?

Wenn Sie mit dem Aufbau Ihres eigenen ML-Systems beginnen, prüfen Sie die rechtlichen Vorgaben bezüglich Diskriminierung in Ihrer Region und an den Orten, an denen die Anwendung eingesetzt werden soll. Sie sollten sich über bestehende Forschungs- und Produktinformationen in Ihrem Tätigkeitsbereich informieren, damit Sie auch über den rechtlichen Rahmen und häufig auftretende Probleme in Bezug auf Fairness im Bilde sind.

Einige typische Aspekte auf den Prüfstand stellen

Hier sind einige weitere wichtige Fragen, die Sie sich stellen können. Wenn Sie eine der Fragen mit „Ja“ beantworten, empfehlen wir Ihnen eine gründlichere Analyse Ihres Anwendungsfalls in Bezug auf mögliche Verzerrungen.

Spielen in Ihrem Anwendungsfall oder Ihrem Produkt eine der folgenden Datenkategorien eine Rolle: Biometrie, ethnische Herkunft, Hautfarbe, Religion, sexuelle Orientierung, sozioökonomischer Status, Einkommen, Land, Standort, Gesundheit, Sprache oder Dialekt?

Werden in Ihrem Anwendungsfall oder in Ihrem Produkt Daten verwendet, die wahrscheinlich mit den oben aufgeführten persönlichen Merkmalen stark korrelieren? Beispielsweise werden Postleitzahlen und andere räumliche Daten häufig mit dem sozioökonomischen Status oder dem Einkommen in Verbindung gebracht. Gleichermaßen können Bild- und Videodaten Informationen über ethnische Herkunft, Geschlecht und Alter preisgeben.

Ist es möglich, dass durch Ihren Anwendungsfall oder Ihr Produkt die wirtschaftlichen Möglichkeiten oder andere wichtige Chancen im Leben von Menschen negativ beeinflusst werden?

Im Folgenden werden einige Ansätze vorgestellt, wie Sie Aspekte der Fairness in den verschiedenen Phasen des AutoML-Workflows beim maschinellen Lernen einbauen können.

Datenrichtlinien

Der erste Schritt in AutoML: die Erstellung des Trainings-Datasets. Trainingsdaten werden nie vollkommen verzerrungsfrei sein. Im Allgemeinen erhalten Sie aber ein besseres und faireres Produkt, wenn Sie mögliche Verzerrungsquellen in Ihren Daten gründlich betrachten und entsprechende Schritte dagegen unternehmen.

Welche Arten von Verzerrungen können in Daten auftreten?

Verzerrte Verteilung

Verzerrte Datenverteilung

Eine verzerrte Datenverteilung tritt auf, wenn Ihre Trainingsdaten die Zielgruppe, für die sie da sein sollen, nicht wirklichkeitsgetreu darstellen. Sie müssen genau überlegen, wie Ihre Daten gesammelt wurden. Wenn Sie beispielsweise ein Dataset mit Bildern haben, die von Nutzern eingereicht wurden, und Sie dieses Dataset auf Bildklarheit filtern, kann dies zu einer Verzerrung Ihrer Daten führen, da die Anzahl der Nutzer mit teuren Kameras zu stark repräsentiert wird. Generell sollten Sie im Hinblick auf die geplanten Nutzer Ihres Produkts darüber nachdenken, wie die Verteilung von Merkmalen in den Daten aussieht. Haben Sie für jede relevante Gruppe genügend Daten? Es gibt oft subtile, systemische Gründe dafür, warum Ihr Dataset möglicherweise nicht die gesamte Vielfalt Ihres Anwendungsfalls in der realen Welt erfasst.

Um dies auszugleichen, können Sie versuchen, Daten aus mehreren Quellen zu erfassen oder Daten sorgfältig zu filtern, damit Sie aus überrepräsentierten Gruppen nur die nützlichsten Beispiele verwenden.

Verzerrte Darstellung

Verzerrte Datendarstellung

Es ist möglich, dass Sie für jede demografische Gruppe eine angemessene Menge an Daten vorliegen haben und manche Gruppen weniger positiv repräsentiert werden als andere. Nehmen wir als Beispiel ein Dataset von Mikroblog-Posts über Schauspieler. Es könnte sein, dass Sie etwa 50 % an Beiträgen zu männlichen und 50 % zu weiblichen Schauspielern zusammengetragen haben. Beim genaueren Ansehen der Inhalte merken Sie aber, dass die Schauspielerinnen im Vergleich zu den Schauspielern negativer dargestellt werden. Dies könnte dazu führen, dass Ihr Modell geschlechtsspezifisch verzerrt wird.

Bei manchen Anwendungen sind unterschiedliche Darstellungen von Gruppen möglicherweise kein Problem, sondern erwünscht. Bei medizinischen Klassifikationen beispielsweise sind subtile demografische Unterschiede wichtig, um genaue Diagnosen stellen zu können. In anderen Anwendungen jedoch können durch Verzerrung bedingte negative Assoziationen finanzielle oder pädagogische Auswirkungen haben, wirtschaftliche Möglichkeiten einschränken und emotionale und psychische Ängste auslösen.

Sie könnten sich überlegen, Ihre Daten falls möglich hinsichtlich negativer Assoziationen einzeln zu überprüfen oder – wenn Sie dies für Ihre Anwendung richtig finden – regelbasierte Filter anzuwenden, um negative Darstellungen auszuschließen.

Proxy-Variablen

Auch nach dem Entfernen von Variablen, die geschützte demografische Informationen codieren, ist Ihr Modell nicht unbedingt frei von Verzerrungen. Viele Variablen stehen in engem Zusammenhang mit demografischen Merkmalen, darunter Standort, Bildungsstand und Einkommen. Wenn Sie Zugriff auf demografische Informationen zu Ihren Daten haben, analysieren Sie Ihre Ergebnisse möglichst basierend auf diesen Informationen. Auf diese Weise sorgen Sie dafür, dass Ihr Modell unterschiedliche Gruppen gleich behandelt.

Verzerrtes Label

Verzerrte Labels

Bei der Erstellung von Trainingsdaten für AutoML ist es notwendig, Ihre Daten relevanten Kategorien zuzuordnen. Verzerrungen bei diesen Labels so niedrig wie möglich zu halten ist ebenso wichtig, wie dafür zu sorgen, dass Ihre Daten repräsentativ sind. Sie müssen verstehen, wer Ihre Labels vergibt. Wo befinden sich diese Menschen? Was ist ihre Muttersprache? Welches Alter und welches Geschlecht haben sie? Wenn homogene Gruppen die Labels verteilen, kann es zu falschen oder verzerrten Labels kommen, die möglicherweise nicht sofort offensichtlich sind.

Sie sollten möglichst dafür sorgen, dass Ihre Labelverteiler Experten in Ihrem Bereich sind, oder Ihnen für wichtige Aspekte Trainingsanweisungen an die Hand geben. Außerdem sollten Sie eine zweite Überprüfung durchführen, um die Qualität der Labels zu testen. Je komplizierter die Kennzeichnung der Daten ist, desto wichtiger ist es, dass die Labelverteiler ihre Arbeit gut verstehen: Das Zeichnen von Begrenzungsrahmen und das Kennzeichnen von Textentitäten stellt möglicherweise nicht für jeden eine intuitive Aufgabe dar. Achten Sie also darauf, dass jede Aufgabe unterteilt und häufige Fragen im Voraus beantwortet werden. Ziel ist es, bei der Entscheidungsfindung Objektivität gegenüber Subjektivität walten zu lassen. Die Schulung von Labelverteilern auf „unbewusste Verzerrungen“ hat zur Vergabe von vielfältigeren Labels beigetragen. Außerdem können Labelverteiler, die Probleme selbst melden und klärende Fragen zu Anleitungen stellen, auch dazu beitragen, Verzerrungen im Labelverteilungsprozess zu minimieren.

Tipp: Wenn Sie Menschen als Labelverteiler für AutoML einsetzen, beachten Sie beim Verfassen von Anleitungen die folgenden Richtlinien.

Planer

Erstellen Sie Anleitungen zur Labelverteilung und Schulungsmaterialien mit genauem Kontext zu Ihrem Anwendungsfall, einer Beschreibung Ihrer Endnutzer und anschaulichen Beispielen, die Labelverteilern helfen, die Vielfalt Ihrer Nutzer beizubehalten.

Lautsprecher

Damit Sie Bereiche mit Unklarheiten identifizieren können, müssen Sie alle Kommentare prüfen, die Sie von Beurteilern erhalten. Dabei sollten Sie sorgfältig auf alle sensiblen Kategorien achten, wenn Sie die erhaltenen Datenlabels prüfen, genehmigen oder ablehnen.

Überlegen Sie sich, ob Sie die Test-/Trainingsaufteilung manuell angeben möchten, sobald Ihr Dataset fertig ist

In den Leitfäden für Vertex AI und Translation AutoML Anfänger haben wir erläutert, wie Ihr Dataset im Prozess des maschinellen Lernens aufgeteilt wird. Bei AutoML haben Sie die Möglichkeit, entweder Google Ihr Dataset automatisch aufteilen zu lassen oder die Aufteilung zwischen Test und Training manuell anzugeben. Wenn es für Ihren Anwendungsfall gerechtfertigt scheint, sollten Sie die zweite Option in Betracht ziehen.

Datentest

Berücksichtigen Sie bei der manuellen Aufteilung Ihrer Daten die bisher behandelten Schritte zur Erstellung vielfältiger und inklusiver Test-Datasets. Wenn Sie nun aber alle Ihre besten Daten in der Trainingsphase verwenden, leidet die Modellqualität während der Testphase, wenn Sie ein zu positives Bild der Modellleistung für unterrepräsentierte Untergruppen bekommen. Sollten Ihnen nur wenige Daten zu einer bestimmten Untergruppe vorliegen, können Sie die Test-/Trainingsaufteilung selbst durchführen, um dafür zu sorgen, dass Ihre Daten repräsentativ zwischen den Trainings- und Test-Datasets verteilt werden. In einigen AutoML-Produkten, z. B. AutoML Tables, können Sie auch versuchen, benutzerdefinierte Gewichtungen für seltene Datentypen anzugeben, um ihnen im Trainingsprozess mehr Bedeutung zu verleihen.

Trainingsdaten überprüfen

  • Haben alle Ihre Kategorien die empfohlene Anzahl von Datenelementen? Repräsentieren Ihre Kategorien und Bilder/Texte die Vielfalt Ihrer Nutzer? Ist die Verteilung der sozialen Kategorien ungefähr gleich? Entsprechen Ihre Trainingsdaten (Bilder, Videos, Text, Satzpaare) den Daten, anhand derer Ihr Modell Vorhersagen treffen soll?
  • Bewertung: Die Leistung Ihres Modells einschätzen

    Bei der Überprüfung Ihres Modells auf Fairness müssen Sie sich genaue Gedanken über Ihren speziellen Anwendungsfall sowie darüber machen, welche Auswirkungen auf Ihre Endnutzer zu erwarten sind, falls Ihr Modell nicht richtig funktioniert. Sie müssen also die Auswirkungen verschiedener Fehlerarten für verschiedene Nutzergruppen verstehen. An dieser Stelle ist es wichtig, sich Gedanken über Fairness zu machen. Betreffen Modellfehler beispielsweise alle Nutzer gleichermaßen oder sind sie für bestimmte Nutzergruppen schädlicher?

    Wenn Sie dieses Problem einmal durchdacht haben, können Sie besser entscheiden, für welche Leistungsmesswerte eine Optimierung sinnvoll ist (z. B. Genauigkeit vs. Trefferquote), Kompromisse zwischen ihnen auswerten und Fehlerbeispiele auf Verzerrungen überprüfen.

    Anwendungsfall: Passfotobewertung

    Angenommen, Sie möchten ein Tool erstellen, mit dem Nutzer Passfotos bearbeiten und drucken können. Jedes Land hat seine eigenen Regeln zu den Maßen des Fotos, zum Rahmen, zu akzeptablen Hintergrundfarben, akzeptablen Gesichtsausdrücken und anderen Dingen, die auf dem Bild zu sehen sind oder nicht. Sie möchten Personen warnen, dass ihr Foto möglicherweise nicht geeignet ist, bevor es für eine Reisepassbewerbung eingereicht wird.

    Falsch-positiv

    Falsch-positiv:

    Ein falsch-positiver Fall wäre, wenn das System ein Foto als inakzeptabel markiert, obwohl die Passbehörde des Landes es akzeptiert hätte. Keine große Sache – ein neues Foto ist wahrscheinlich noch brauchbarer.

    Falsch-negativ

    Falsch-negativ:

    Ein falsch-negativer Fall wäre, wenn ein unbrauchbares Bild nicht erkannt würde. Der Kunde lässt ein Foto kostenpflichtig drucken, reicht den Antrag ein und dieser wird abgelehnt. Im schlimmsten Fall kann er eine geplante Reise nicht wahrnehmen, weil er seinen Reisepass nicht rechtzeitig bekommen hat.

    Fairnessüberlegungen: In diesem Fall wäre es wichtig zu prüfen, ob das Modell für bestimmte Personengruppen häufiger falsch-negative Ergebnisse liefert, beispielsweise aufgrund von Hautfarbe oder Geschlecht. In AutoML können einzelne falsch-negative Fälle überprüft werden, um problematische Muster zu ermitteln.

    Optimierung: In diesem Fall würden Sie wahrscheinlich die Trefferquote optimieren. Ziel ist hierbei, die Anzahl der falsch-negativen Ergebnisse zu reduzieren, die in diesem Szenario die problematischeren Fehler sind.

    Anwendungsfall: Inhaltsfilter für Kinder

    Angenommen, Sie erstellen eine Lese-App für Kinder und möchten eine digitale Bibliothek mit altersgerechten Büchern hinzufügen. Sie möchten einen Textklassifikator entwerfen, der Kinderbücher aus einer Datenbank von Erwachsenen- und Kinderbüchern nach Titel und Beschreibung des jeweiligen Buches auswählt.

    Text falsch-positiv

    Falsch-positiv:

    Ein falsch-positiver Fall wäre, wenn ein Buch für Erwachsene fälschlich als Kinderbuch eingestuft wird und es daher in die Lese-App für Kinder aufgenommen wird, wodurch sie möglicherweise Inhalten ausgesetzt werden, die nicht ihrem Alter entsprechen. Manche Eltern wären sicherlich verärgert und würden die App löschen.

    Text falsch-negativ

    Falsch-negativ:

    Ein falsch-negativer Fall wäre, wenn ein Kinderbuch fälschlicherweise als Buch für Erwachsene eingestuft und daher aus der Bibliothek in der App ausgeschlossen würde. Je nach Buch kann dies eine unbedeutende Unannehmlichkeit darstellen (z. B. der Ausschluss einer unbedeutenden Fortsetzung aus einer unbeliebten Buchreihe) oder aber eine komplexere Problematik nach sich ziehen. Ein Beispiel für die zweite Option wäre, wenn das Kinderbuch Inhalte enthält, die von manchen als kontrovers betrachtet, jedoch allgemein akzeptiert werden, da sie einen deutlichen erzieherischen oder sozialen Wert haben.

    Fairnessaspekt: Auf den ersten Blick mag das Obige wie ein einfacher Fall erscheinen, aber hier wird die Komplexität bei der Bewertung von Anwendungsfällen auf Fairness deutlich. Einerseits gibt es eine klare Notwendigkeit, falsch-positive Ergebnisse zu vermeiden. Denn so minimieren Sie die Wahrscheinlichkeit, dass Kinder Inhalte sehen, die nicht ihrem Alter entsprechen. Auf der anderen Seite können falsch-negative Ergebnisse auch schädlich sein. Wenn der Textklassifikator beispielsweise Kinderbücher mit LGBTQ-Themen (zum Beispiel Geschichten über Kinder gleichgeschlechtlicher Eltern) als unangemessen kennzeichnet, ist dies problematisch. Ähnlich sieht es aus, wenn Bücher über bestimmte Kulturen oder Orte häufiger ausgeschlossen werden als andere.

    Optimierung: In diesem Fall würden Sie wahrscheinlich die Genauigkeit optimieren. Von allen Kinderbüchern auf der Welt wird Ihre App nur einen Bruchteil abdecken, sodass Sie es sich leisten können, wählerisch bei der Auswahl von empfohlenen Büchern für Ihre Nutzer zu sein. Sie sollten jedoch auch Lösungen in Betracht ziehen, wie mit Büchern umzugehen ist, bei denen eventuell ein Elternteil mitlesen muss. Es besteht z. B. die Möglichkeit, eine Funktion hinzuzufügen, die Eltern empfiehlt, ein Buch mit ihren Kindern zusammen zu lesen. So könnten sie über die Dinge sprechen, die im Buch vorkommen.

    Anwendungsfall: Umfrageverteilung

    Angenommen, Sie arbeiten an der Verteilung einer Umfrage und möchten ein Modell erstellen, um Teilnehmer auszuwählen, die am wahrscheinlichsten antworten. Sie dürfen das Einkommen nicht als Faktor für die Auswahl der Teilnehmer betrachten, aber Ihre Daten enthalten eine Spalte „Einkommen“. In AutoML Tables entfernen Sie die Spalte „Einkommen“ aus dem Training. Als Sie die Daten jedoch nach dem Einkommen aufteilen, um zu überprüfen, dass dieser Faktor die Ergebnisse nicht beeinflusst hat, stellen Sie fest, dass Ihr Modell ungleichmäßig verteilt über die Einkommensbereiche gewählt hat. Wie kam es dazu?

    Proxy-Variablen: Obwohl Sie die Spalte „Einkommen“ aus der Betrachtung entfernt haben, enthalten Ihre Daten möglicherweise noch viele andere Variablen, die Hinweise auf das Einkommen der Personen in Ihrem Dataset geben. Kennen Sie Postleitzahl, Bildungsstand oder sogar Alter der Personen? Jede dieser Variablen kann mit dem Einkommen korreliert werden. Damit Ihr Modell eine Stichprobe auswählt, bei der alle demografischen Bereiche gleichermaßen berücksichtigt werden, überprüfen Sie den Tab „Analysieren“ von AutoML Tables auf Korrelationen. Achten Sie darauf, Ihr Modell sorgfältig auf Verzerrungen zu prüfen, bevor Sie es in der Produktion einsetzen.

    Vorhersage: Smoke Testing für Ihr Modell

    Checkliste

    Nachdem Sie die Leistung des Modells unter Verwendung der Messwerte für maschinelles Lernen in AutoML auf Fairness geprüft haben, können Sie Ihr benutzerdefiniertes Modell mit neuem Inhalt auf dem Tab „Vorhersage“ testen. Berücksichtigen Sie dabei die folgenden Empfehlungen zur Fairness:

    Grafik

    Denken Sie sorgfältig über Ihren Problembereich und dessen Potenzial für Ungerechtigkeit und Voreingenommenheit nach. Sie kennen Ihr Fachgebiet am besten. Meinen Sie, dass Ihr Bild- oder Videoklassifikator von der Hautfarbe oder dem Geschlecht der Personen in den Bildern beeinflusst wird? Ist Ihr Textklassifikator voraussichtlich für Begriffe anfällig, die sich auf demografische Gruppen beziehen? Hat das Sprachenpaar, für das Sie einen Übersetzer erstellen, kulturelle Unterschiede, die hervorgehoben werden könnten, oder verschiedene Pronomen, die eine unterschwellige gesellschaftliche Verzerrung betonen würden? Am besten stellen Sie sich Fälle vor, die sich nachteilig auf Ihre Nutzer auswirken würden, wenn sie in der Produktion gefunden werden. Diese Fälle testen Sie im Tab „Vorhersage“ oder mit Ihren eigenen Unittests.

    Beachten Sie, dass nicht nur durch anstößige oder unfaire Vorhersagen, sondern auch durch das Fehlen klarer Vorhersagen (falsch-negative Ergebnisse) negative Folgen für Ihre Nutzer entstehen können. Sollten sich die Ergebnisse nicht mit dem decken, was Sie allen Endnutzern bieten möchten, können Sie in Ihrem Dataset weitere Fehler beheben. Sie haben die Möglichkeit, den entsprechenden Klassen weitere Daten hinzuzufügen oder Ihr Modell so zu nutzen, dass ermittelte Probleme korrigiert werden.

    Einsatz: Ihr Modell in der Produktion

    Schere

    Implementieren Sie einfache Korrekturen. Bei Fehleranfälligkeit des Modells ist das erneute Trainieren mit neuen Daten nicht die einzige Möglichkeit, denn manchmal kann eine einfache Vor- oder Nachbearbeitung eine effektive Lösung sein, um bestimmte Wörter oder Bildarten zu entfernen.

    Grenzwerte

    Passen Sie die Grenzwerte der Punktzahlen für eine akzeptable Balance zwischen Genauigkeit und Trefferquote an. Diese Werte sollten Ihrem Verständnis entsprechen, wie verschiedene Fehlerarten sich auf Ihre Nutzer auswirken.

    Mischpult

    Nachdem Ihr Modell erstellt ist und Vorhersagen bereitstellt, kann sich die Datenverteilung im Laufe der Zeit geringfügig ändern. Ihr Modell spiegelt dann möglicherweise nicht mehr die relevanten Kontexte Ihrer Anwendung wider. Die Leistung des Modells sollten Sie im Zeitverlauf beobachten, um zu prüfen, ob es Ihren Erwartungen entsprechend funktioniert. Feedback von Ihren Nutzern ermöglicht Ihnen, potenzielle Fehler zu beheben, die neue Daten und ein neues Trainieren des Modells erfordern.

    Rettungsring

    Es können auch Ausnahmefälle auftreten, über die Sie noch nicht nachgedacht haben. Wenn Sie befürchten, dass sich Ihr Modell falsch verhalten und sich dies nachteilig auf Ihre Nutzer und Ihren Anwendungsfall auswirken könnte, stellen Sie einen Reaktionsplan für Vorfälle zusammen.

    Feedback

    Dieses Dokument wird ständig überarbeitet, da wir uns selbst noch in der Lernphase befinden. Wir würden uns über Ihr Feedback zu unseren Anleitungen sehr freuen. Mit einer E-Mail an inclusive-ml-feedback@google.com können Sie uns berichten, was beim Erstellen Ihrer benutzerdefinierten Modelle funktioniert hat und was nicht. Wir freuen uns auf Ihr Feedback.