Erste Schritte mit AutoML Tables

Einführung

Stellen Sie sich vor, Sie arbeiten in der Marketingabteilung eines digitalen Einzelhändlers. Sie und Ihr Team erstellen ein personalisiertes E-Mail-Programm, das auf Kunden-Personas basiert. Sie haben die Personas erstellt und die Marketing-E-Mails sind einsatzbereit. Jetzt müssen Sie ein System erstellen, das Kunden je nach ihren Einzelhandelsvorlieben und ihrem Kaufverhalten in die einzelnen Personas einsortiert, auch wenn sie als Kunden neu sind. Sie möchten auch deren Ausgabegewohnheiten vorhersagen, damit Sie die optimale Zeit zum Versenden der E-Mails finden, um das Interesse zu maximieren.

Beispiel-Images für das Sortieren von Kunden nach Kategorien

Da Sie ein digitaler Einzelhändler sind, haben Sie Daten zu Ihren Kunden und den von ihnen getätigten Einkäufen. Doch wie steht es mit Neukunden? Herkömmliche Ansätze können diese Werte für bestehende Kunden mit langer Kaufhistorie berechnen, eignen sich jedoch nicht für Kunden mit wenigen historischen Daten. Was wäre, wenn Sie ein System erstellen könnten, um diese Werte vorherzusagen und die Geschwindigkeit zu erhöhen, mit der Sie personalisierte Marketingprogramme für Kunden bereitstellen?

Genau auf diesem Gebiet sind maschinelles Lernen (ML) und AutoML Tables sehr gut geeignet. In diesem Leitfaden erfahren Sie, wie AutoML Tables funktioniert und welche Probleme damit gelöst werden sollen.

Wie funktioniert AutoML Tables?

Grafische Darstellung eines einfachen neuronalen Netzwerks AutoML Tables ist ein Dienst für überwachtes Lernen. Dies bedeutet, dass Sie ein Modell für maschinelles Lernen mit Beispieldaten trainieren. AutoML Tables verwendet tabellarische (strukturierte) Daten, um ein Modell für maschinelles Lernen so zu trainieren, dass es Vorhersagen für neue Daten treffen kann. Für eine Spalte aus Ihrem Dataset, die als Ziel bezeichnet wird, soll das Modell dann die Vorhersage treffen. Einige der anderen Datenspalten sind Eingaben (sogenannte Features), aus denen das Modell Muster lernt. Sie können dieselben Eingabe-Features zum Erstellen mehrerer Arten von Modellen verwenden, indem Sie einfach das Ziel ändern. Im E-Mail-Marketing-Beispiel bedeutet dies, dass Sie zwei Modelle mit denselben Eingabefeatures erstellen können: Ein Modell könnte die Persona eines Kunden (ein kategoriales Ziel) und das andere seine monatlichen Ausgaben (ein numerisches Ziel) vorhersagen.

Tabellarische Daten

Workflow für AutoML Tables

AutoML Tables verwendet einen Standard-Workflow für maschinelles Lernen:

  1. Daten erfassen: Bestimmen Sie abhängig vom gewünschten Ergebnis die Daten, die Sie zum Trainieren und Testen Ihres Modells benötigen.
  2. Daten vorbereiten: Achten Sie darauf, dass Ihre Daten vor und nach dem Datenimport ordnungsgemäß formatiert sind.
  3. Trainieren: Legen Sie Parameter fest und erstellen Sie Ihr Modell.
  4. Auswerten: Überprüfen Sie die Modellmesswerte.
  5. Testen: Testen Sie Ihr Modell anhand von Testdaten.
  6. Bereitstellen und Vorhersagen: Machen Sie Ihr Modell für die Verwendung verfügbar.

Bevor Sie jedoch mit dem Erfassen von Daten beginnen, sollten Sie über das Problem nachdenken, das Sie lösen möchten, um dies in Ihre Datenanforderungen einfließen zu lassen.

Anwendungsfall betrachten

Start- und Endpunktgrafik

Beginnen Sie mit dem Problem: Was möchten Sie erreichen? Welche Art von Daten befinden sich in der Zielspalte? Auf wie viele Daten haben Sie Zugriff?

Abhängig von Ihren Antworten erstellt AutoML Tables das erforderliche Modell, um Ihren Anwendungsfall zu lösen:

  • Ein binäres Klassifizierungsmodell sagt ein binäres Ergebnis vorher (eine von zwei Klassen). Verwenden Sie diese Option für Ja- oder Nein-Fragen, um beispielsweise vorherzusagen, ob ein Kunde ein Abo erwerben würde (oder nicht). Wenn alles andere gleich ist, erfordert ein binäres Klassifizierungsproblem weniger Daten als andere Modelltypen.

  • Ein Klassifizierungsmodell mit mehreren Klassen sagt aus drei oder mehr diskreten Klassen eine voraus. Verwenden Sie diese Option, um Dinge zu kategorisieren. Für das Einzelhandelsbeispiel sollten Sie ein Klassifizierungsmodell mit mehreren Klassen erstellen, um Kunden in verschiedene Personas zu unterteilen.

  • Ein Regressionsmodell sagt einen kontinuierlichen Wert voraus. Für das Einzelhandelsbeispiel sollten Sie auch ein Regressionsmodell erstellen, um die Ausgaben der Kunden für den nächsten Monat vorherzusagen.

AutoML Tables definiert automatisch Ihr Problem und das zu erstellende Modell auf der Basis des Datentyps Ihrer Zielspalte. Wenn also Ihre Zielspalte numerische Daten enthält, erstellt AutoML Tables ein Regressionsmodell. Handelt es sich bei Ihrer Zielspalte um kategoriale Daten, ermittelt AutoML Tables die Anzahl der Klassen und bestimmt, ob Sie ein binäres Modell oder ein Modell mit mehreren Klassen erstellen müssen.

Hinweis zur Fairness

Fairness gehört zu den verantwortungsbewussten Vorgehensweisen bei der künstlichen Intelligenz von Google. Bei Fairness geht es darum, eine ungerechte oder von Vorurteilen beeinflusste Behandlung von Menschen aufgrund ihrer Herkunft, ihres Einkommens, ihrer sexuellen Orientierung, ihrer Religion, ihres Geschlechts und anderer Merkmale, die historisch mit Diskriminierung und Ausgrenzung verbunden waren, dort zu erkennen und zu verhindern, wo sie in Algorithmen oder bei der Entscheidungsfindung durch algorithmische Systeme sichtbar werden. Wenn Sie diesen Leitfaden lesen, sehen Sie "Fair-aware"-Hinweise, die aufzeigen, wie Sie ein faireres Modell für maschinelles Lernen erstellen. Weitere Informationen

Daten erfassen

Datenpunktgrafik Nachdem Sie Ihren Anwendungsfall festgelegt haben, müssen Sie Daten erfassen, um Ihr Modell zu trainieren. Datenbeschaffung und -vorbereitung sind wichtige Schritte beim Erstellen eines Modells für maschinelles Lernen. Die Daten, die Ihnen zur Verfügung stehen, haben einen Einfluss darauf, welche Art von Problemen Sie lösen können. Wie viele Daten stehen Ihnen zur Verfügung? Sind Ihre Daten für die Fragen relevant, die Sie beantworten möchten? Beachten Sie beim Erfassen der Daten die folgenden wichtigen Überlegungen.

Relevante Funktionen auswählen

Ein Feature ist ein Eingabeattribut, das für das Modelltraining verwendet wird. Anhand von Features identifiziert Ihr Modell Muster, um Vorhersagen zu treffen, daher müssen die Features für Ihr Problem relevant sein. Wenn Sie beispielsweise ein Modell erstellen möchten, das vorhersagt, ob eine Kreditkartentransaktion betrügerisch ist oder nicht, müssen Sie ein Dataset erstellen, das Transaktionsdetails wie den Käufer, den Verkäufer, den Betrag, das Datum und die Uhrzeit sowie die gekauften Artikel enthält. Andere hilfreiche Features wären historische Informationen über den Käufer und den Verkäufer und wie oft der gekaufte Artikel im Zusammenhang mit einem Betrugsfall stand. Welche anderen Features könnten relevant sein?

Betrachten wir den Anwendungsfall für E-Mail-Marketing im Einzelhandel aus der Einleitung. Hier sind einige Feature-Spalten, die Sie möglicherweise benötigen:

  • Liste der gekauften Artikel (einschließlich Marken, Kategorien, Preise, Rabatte)
  • Anzahl der gekauften Artikel (letzter Tag, letzte Woche, letzter Monat, letztes Jahr)
  • Ausgegebener Geldbetrag (letzter Tag, letzte Woche, letzter Monat, letztes Jahr)
  • Bekanntes demografisches Profil des Käufers

Genügend Daten einbeziehen

Modelltrainingsgrafik Generell gilt: Je mehr Trainingsbeispiele Sie haben, desto besser das Ergebnis. Die Menge der erforderlichen Beispieldaten hängt auch von der Komplexität des Problems ab, das Sie lösen möchten. Im Vergleich zu einem Modell mit mehreren Klassen benötigen Sie für ein genaues binäres Klassifizierungsmodell nicht so viele Daten, da es weniger kompliziert ist, eine Klasse aus zwei statt aus vielen Klassen vorherzusagen.

Eine perfekte Formel gibt es nicht, aber Empfehlungen für die Mindestanzahl von Zeilen mit Beispieldaten.

  • Klassifizierungsproblem: 50 x die Anzahl der Features
  • Regressionsproblem: 200 x die Anzahl der Features

Variation erfassen

Ihr Dataset sollte die Vielfalt Ihres Problembereichs erfassen. Je vielfältiger die Beispiele sind, mit denen ein Modell während des Trainings zu tun hat, umso schneller kann es neue oder weniger verbreitete Beispiele verallgemeinern. Stellen Sie sich vor, Ihr Einzelhandelsmodell würde nur mit Kaufdaten aus dem Winter trainiert. Wäre dieses Modell in der Lage, Kleidungspräferenzen oder das Kaufverhalten im Sommer erfolgreich vorherzusagen?

Daten vorbereiten

Nachdem Sie die verfügbaren Daten identifiziert haben, müssen Sie nachprüfen, ob diese für das Training bereit sind. Sollten Ihre Daten verzerrt sein oder fehlende oder fehlerhafte Werte enthalten, werden diese sich auch in den Trainingsdaten des Modells wiederfinden. Beachten Sie Folgendes, bevor Sie mit dem Training des Modells beginnen. Weitere Informationen

Datenlecks und Abweichungen zwischen Training und Bereitstellung

Datenverluste treten auf, wenn Sie während des Trainings Eingabe-Features verwenden, die Informationen über das Ziel, das Sie vorherzusagen versuchen, "durchsickern lassen", die nicht verfügbar sind, wenn das Modell tatsächlich bereitgestellt wird. Dies lässt sich erkennen, wenn ein Feature, das stark mit der Zielspalte korreliert, als eines der Eingabe-Features enthalten ist. Wenn Sie beispielsweise ein Modell erstellen, um vorherzusagen, ob sich ein Kunde im nächsten Monat für ein Abo anmeldet und eines der Eingabe-Features dabei eine zukünftige Abo-Zahlung von diesem Kunden ist. Dies kann zwar eine starke Modellleistung beim Testen bewirken, jedoch nicht bei der Bereitstellung in der Produktion, da die Informationen zu zukünftigen Abo-Zahlungen zum Zeitpunkt der Bereitstellung nicht mehr verfügbar sind.

Abweichungen zwischen Training und Bereitstellung liegen vor, wenn sich die während der Trainingszeit verwendeten Eingabe-Features von denen unterscheiden, die dem Modell zum Zeitpunkt der Bereitstellung zur Verfügung gestellt werden, was eine schlechte Modellqualität in der Produktion zur Folge hat. Ein Beispiel hierfür wäre, wenn Sie ein Modell zur Vorhersage von stündlichen Temperaturen erstellen, es jedoch mit Daten trainieren, die nur wöchentliche Temperaturen enthalten. Ein weiteres Beispiel: Wenn Sie zur Prognose von Schulabbrüchen in den Trainingsdaten immer die Noten eines Schülers mitliefern, diese Informationen zum Zeitpunkt der Bereitstellung jedoch nicht zur Verfügung stehen.

Das Verständnis Ihrer Trainingsdaten ist wichtig, um Datenverluste und Abweichungen zwischen Training und Bereitstellung zu vermeiden:

  • Stellen Sie vor der Verwendung von Daten sicher, dass Sie wissen, was die Daten bedeuten und ob Sie sie als Feature verwenden sollten.
  • Prüfen Sie die Korrelation auf dem Tab "Train" (Trainieren). Hohe Korrelationen sollten zur Prüfung markiert werden.
  • Abweichungen zwischen Training und Bereitstellung: Achten Sie darauf, dass Sie nur Eingabefeatures für das Modell zur Verfügung stellen, die zum Zeitpunkt der Bereitstellung in genau derselben Form verfügbar sind.

Fehlende, unvollständige und inkonsistente Daten bereinigen

Es ist normal, dass Beispieldaten fehlende und unrichtige Werte enthalten. Nehmen Sie sich Zeit, um die Qualität der Daten zu überprüfen und, wenn möglich, zu verbessern, bevor Sie sie für das Training verwenden. Je mehr Werte fehlen, desto weniger nützlich sind die Daten für das Training eines Modells für maschinelles Lernen.

  • Prüfen Sie Ihre Daten auf fehlende Werte und korrigieren Sie sie, falls möglich. Oder lassen Sie den Wert leer, wenn für die Spalte Nullwerte zulässig sind. AutoML Tables kann zwar fehlende Werte verarbeiten, Sie erhalten jedoch mit höherer Wahrscheinlichkeit optimale Ergebnisse, wenn alle Werte verfügbar sind.

  • Bereinigen Sie Ihre Daten, indem Sie Datenfehler oder falsch positive Ergebnisse korrigieren oder löschen. Machen Sie die Daten konsistent: Überprüfen Sie Rechtschreibung, Abkürzungen und Formatierung.

Daten nach dem Import analysieren

AutoML Tables bieten einen Überblick über Ihr Dataset, nachdem es importiert wurde. Prüfen Sie für das importierte Dataset, ob jede Spalte den richtigen Variablentyp hat. AutoML Tables erkennt den Variablentyp automatisch anhand der Spaltenwerte. Dennoch sollten Sie diese immer einzeln überprüfen. Kontrollieren Sie außerdem bei jeder Spalte die Null-Zulässigkeit, die festlegt, ob eine Spalte fehlende Werte oder NULL-Werte enthalten darf.

Modell trainieren

Nachdem das Dataset importiert wurde, trainieren Sie im nächsten Schritt ein Modell. AutoML Tables generiert mit den Standardeinstellungen für das Training ein zuverlässiges Modell für maschinelles Lernen. Möglicherweise möchten Sie jedoch einige Parameter basierend auf Ihrem Anwendungsfall anpassen.

Versuchen Sie, so viele Feature-Spalten wie möglich für das Training auszuwählen, prüfen Sie jedoch jede einzelne, damit sie auch bestimmt für das Training geeignet ist. Beachten Sie bei der Auswahl der Features Folgendes:

  • Wählen Sie keine Feature-Spalten aus, die einen störenden Einfluss haben können, wie zufällig zugewiesene ID-Spalten mit einem eindeutigen Wert für jede Zeile.
  • Machen Sie sich unbedingt mit den einzelnen Featurespalten und ihren Werten vertraut.
  • Wenn Sie mehrere Modelle aus einem Dataset erstellen, entfernen Sie Zielspalten, die nicht Teil des aktuellen Vorhersageproblems sind.
  • Erinnern Sie sich an die Fairness-Prinzipien: Trainieren Sie Ihr Modell mit einem Feature, das zu voreingenommenen oder unfairen Entscheidungen für marginalisierte Gruppen führen könnte?

Wie AutoML Tables das Dataset verwendet

Das Dataset wird in Trainings-, Validierungs- und Test-Datasets unterteilt. Standardmäßig verwendet AutoML Tables 80 % Ihrer Daten für das Training, 10 % für die Validierung und 10 % für das Testen. Sie können diese Werte jedoch bei Bedarf manuell bearbeiten.

grafische Darstellung der Trainings-, Test- und Validierungsaufteilung

Trainings-Dataset

Fernglasgrafik Die meisten Daten sollten im Trainings-Dataset enthalten sein. Das sind die Daten, die das Modell während des Trainings "sieht". Damit werden die Parameter des Modells erlernt, vor allem die Gewichtung der Verbindungen zwischen den Knoten des neuronalen Netzes.

Validierungs-Dataset

Blaupausengrafik Während des Trainingsvorgangs wird auch das Validierungs-Dataset, oft als "dev"-Dataset bezeichnet, verwendet. Das Modell-Lern-Framework bindet Trainingsdaten während jeder Iteration des Trainingsvorgangs ein. Anschließend verwendet es im Validierungs-Dataset die Leistung des Modells, um die Hyperparameter des Modells zu optimieren. Hyperparameter sind Variablen, die die Struktur des Modells festlegen. Sollten Sie versucht haben, die Hyperparameter mit dem Trainings-Dataset zu optimieren, ist es sehr wahrscheinlich, dass sich das Modell zu sehr auf die Trainingsdaten fokussiert und die Verallgemeinerung der Beispiele, die nicht genau mit diesen Daten übereinstimmen, schwieriger wird. Durch die Verwendung eines neuen Datasets zur Feinabstimmung der Modellstruktur sind bessere Verallgemeinerungen für Ihr Modell möglich.

Test-Dataset

Glaskolbenbild Das Test-Dataset wird völlig unabhängig vom Trainingsvorgang eingesetzt. Nachdem das Training des Modells abgeschlossen ist, nutzt AutoML Tables das Test-Dataset als komplett neue Aufgabe für das Modell. Anhand der Leistung des Modells in Bezug auf das Test-Dataset können Sie ziemlich gut abschätzen, wie es bei realen Daten abschneiden würde.

Modell auswerten

Lupengrafik Im Anschluss an das Modelltraining erhalten Sie eine Zusammenfassung der Leistung. Modellbewertungsmesswerte basieren darauf, inwieweit das Modell bei einem Teil des Datasets (dem Test-Dataset) die Leistungserwartungen erfüllen konnte. Bei der Entscheidung, ob das Modell bereit für den Einsatz bei realen Daten ist, müssen Sie einige wichtige Messwerte und Konzepte berücksichtigen.

Klassifizierungsmesswerte

Punktzahl-Schwellenwert

Stellen Sie sich ein Modell für maschinelles Lernen vor, das vorhersagt, ob ein Kunde im nächsten Jahr eine Jacke kaufen wird. Wie sicher muss das Modell sein, bevor es voraussagen kann, dass ein bestimmter Kunde eine Jacke kauft? In Klassifizierungsmodellen wird jeder Vorhersage ein Konfidenzwert zugewiesen – eine numerische Bewertung der Gewissheit des Modells, dass die vorhergesagte Klasse korrekt ist. Der Punktzahl-Schwellenwert ist die Zahl, die festlegt, wann eine bestimmte Bewertung in eine Ja- oder Nein-Entscheidung umgewandelt wird. Dies ist der Wert, bei dem Ihr Modell sagt: "Ja, dieser Konfidenzwert ist hoch genug, um zu der Schlussfolgerung zu gelangen, dass dieser Kunde im nächsten Jahr einen Mantel kaufen wird."

Bild von Mänteln mit hohem und niedrigem Schwellenwert

Wenn der Punktzahl-Schwellenwert niedrig ist, besteht für das Modell das Risiko einer Fehlklassifizierung. Aus diesem Grund sollte der Punktzahl-Schwellenwert auf einem bestimmten Anwendungsfall basieren.

Vorhersageergebnisse

Nach Anwenden des Punktzahl-Schwellenwerts fallen die von Ihrem Modell gemachten Vorhersagen in eine von vier Kategorien. Zum Verständnis dieser Kategorien stellen Sie sich noch einmal ein binäres Klassifizierungsmodell für den Jackenkauf vor. In diesem Beispiel ist die positive Klasse (also das, was das Modell vorherzusagen versucht), dass der Kunde im nächsten Jahr eine Jacke kaufen wird.

  • Richtig positiv: Das Modell sagt die positive Klasse richtig vorher. Das Modell sagte richtig vorher, dass ein Kunde eine Jacke kaufen würde.
  • Falsch positiv: Das Modell sagt die positive Klasse falsch vorher. Das Modell sagte vorher, dass ein Kunde eine Jacke kaufen würde, aber das tat er nicht.
  • Richtig negativ: Das Modell sagt die negative Klasse richtig vorher. Das Modell sagte richtig vorher, dass ein Kunde keine Jacke kaufen würde.
  • Falsch negativ: Das Modell sagt fälschlicherweise eine negative Klasse vorher. Das Modell sagte vorher, dass ein Kunde keine Jacke kaufen würde, doch er hat eine gekauft.

Bild mit Beschreibungen von vier Wahrscheinlichkeitskategorien

Genauigkeit und Trefferquote

Anhand der Genauigkeit und Trefferquote können Sie analysieren, wie gut das Modell Informationen erfasst und welche es auslässt. Weitere Informationen zu Genauigkeit und Trefferquote.

  • Genauigkeit ist der Anteil der positiven Vorhersagen, die richtig waren. Bei welchem Anteil aller vorhergesagten Kundeneinkäufe gab es tatsächlich Einkäufe?
  • Trefferquote: ist der Anteil an Zeilen mit diesem Label, die das Modell korrekt vorhergesagt hat. Welcher Anteil von allen Kundenkäufen, die man hätte identifizieren können, wurde tatsächlich identifiziert?

Abhängig von Ihrem Anwendungsfall müssen Sie möglicherweise entweder die Genauigkeit oder die Trefferquote optimieren.

Weitere Klassifizierungsmesswerte
  • AUC PR: der Bereich unter der Genauigkeits-/Trefferquotenkurve (Precision-Recall, PR). Dieser reicht von null bis eins, wobei ein höherer Wert auf ein Modell von höherer Qualität verweist.

  • AUC ROC: der Bereich unter der Grenzwertoptimierungskurve (Receiver Operating Curve, ROC). Dieser reicht von null bis eins, wobei ein höherer Wert auf ein Modell von höherer Qualität verweist.

  • Richtigkeit: der Anteil der Klassifizierungsvorhersagen des Modells, die richtig waren.

  • Logarithmischer Verlust: die Kreuzentropie zwischen den Modellvorhersagen und den Zielwerten. Diese hat einen Bereich von null bis unendlich, wobei ein niedrigerer Wert auf ein Modell von höherer Qualität hinweist.

  • F1-Wert: der harmonische Mittelwert von Genauigkeit und Trefferquote. F1 ist ein hilfreicher Messwert, wenn Sie ein Gleichgewicht zwischen Genauigkeit und Trefferquote herstellen möchten und eine ungleiche Klassenverteilung besteht.

Regressionsmesswerte

Sobald Sie Ihr Modell erstellt haben, bietet AutoML Tables eine Vielzahl von Standard-Regressionsmesswerten für die Überprüfung. Eine perfekte Antwort auf die Frage, wie Sie Ihr Modell bewerten sollten, gibt es nicht. Bewertungsmesswerte sollten im Zusammenhang mit dem Problemtyp und dem, was Sie mit Ihrem Modell erreichen möchten, geprüft werden. Hier ein Überblick über einige Messwerte, die Ihnen zur Verfügung stehen.

Mittlerer absoluter Fehler (MAE)

Der mittlere absolute Fehler (Mean Absolute Error, MAE) ist die durchschnittliche absolute Differenz zwischen dem Zielwert und den vorhergesagten Werten. Er misst die durchschnittliche Größe der Fehler – die Differenz zwischen einem Zielwert und einem vorhergesagten Wert – in einer Reihe von Vorhersagen. Da MAE absolute Werte verwendet, berücksichtigt diese Kennzahl weder die Richtung der Beziehung noch zeigt sie eine unter- oder überdurchschnittliche Leistung an. Bei der Bewertung von MAE zeigt ein kleinerer Wert ein Modell mit höherer Qualität an (0 steht für einen perfekten Predictor).

Wurzel der mittleren Fehlerquadratsumme (RMSE)

Die Wurzel der mittleren Fehlerquadratsumme (Root Mean Square Error, RMSE) ist die Quadratwurzel der mittleren quadrierten Differenz zwischen dem Zielwert und den vorhergesagten Werten. RMSE reagiert empfindlicher auf Ausreißer als MAE. Wenn Sie also große Fehler befürchten, ist es möglicherweise sinnvoller, RMSE als Messwert für die Auswertung zu nutzen. Ähnlich wie bei MAE zeigt ein kleinerer Wert ein Modell mit höherer Qualität an (0 steht für einen perfekten Prädiktor).

Wurzel des mittleren quadratischen logarithmischen Fehlers (RMSLE)

Die Wurzel des mittleren quadratischen logarithmischen Fehlers (Root Mean Squared Logarithmic Error, RMSLE) ist RMSE im logarithmischen Maßstab. RMSLE reagiert empfindlicher auf relative Fehler als auf absolute Fehler und misst einer unterdurchschnittlichen Leistung ein höheres Gewicht bei als einer überdurchschnittlichen Leistung.

Modell testen

Bei der Auswertung der Modellmesswerte geht es in erster Linie darum, festzustellen, ob das Modell einsatzbereit ist. Sie können es aber auch mit neuen Daten testen. Laden Sie neue Daten hoch, um herauszufinden, ob die Vorhersagen des Modells Ihren Erwartungen entsprechen. Je nach den Bewertungsmesswerten oder den Ergebnissen der Tests mit neuen Daten müssen Sie möglicherweise die Leistung des Modells weiter verbessern. Weitere Informationen zur Behebung von Modellfehlern

Modell bereitstellen und Vorhersagen treffen

Glühbirnengrafik Wenn Sie mit der Leistung des Modells zufrieden sind, ist es an der Zeit, dass Sie das Modell einsetzen. Vielleicht bedeutet dies eine Nutzung in der Produktionsumgebung, vielleicht handelt es sich aber auch um eine einmalige Vorhersageanfrage. Abhängig von Ihrem Anwendungsfall können Sie das Modell auf verschiedene Weise verwenden.

Batchvorhersage

Die Batchvorhersage eignet sich für die gleichzeitige Verarbeitung von vielen Vorhersageanfragen. Die Batchvorhersage ist asynchron, d. h., das Modell verarbeitet zuerst alle Vorhersageanfragen, bevor die Ergebnisse in Form einer CSV-Datei oder BigQuery-Tabelle mit Vorhersageantworten ausgegeben werden.

Onlinevorhersage

Stellen Sie das Modell bereit, um es für Vorhersageanfragen über eine REST API verfügbar zu machen. Die Onlinevorhersage ist synchron (in Echtzeit), d. h., sie gibt in kürzester Zeit eine Vorhersage zurück, akzeptiert jedoch nur eine Vorhersageanfrage pro API-Aufruf. Die Onlinevorhersage eignet sich, wenn Ihr Modell Teil einer Anwendung ist und Teile Ihres Systems von einer schnellen Vorhersage abhängig sind.

Denken Sie daran, die Bereitstellung des Modells rückgängig zu machen, wenn es nicht verwendet wird, um unerwünschte Gebühren zu vermeiden.