Best Practices für das Erstellen von tabellarischen Trainingsdaten

Diese Seite enthält einige grundlegende Konzepte, die Sie beim Zusammenstellen von Daten für ein tabellarisches Dataset in Vertex AI berücksichtigen sollten. Sie erhebt nicht den Anspruch, alle Aspekte umfassend abzudecken.

Einige dieser Best Practices gelten unabhängig davon, ob Sie tabellarische Trainingsdaten für ein benutzerdefiniertes Modell oder ein AutoML-Modell erstellen. Andere sind speziell für AutoML Tables-Modelle vorgesehen.

Einführung

Aussagekräftige Daten erhöhen die Qualität des resultierenden Modells für maschinelles Lernen. Sie können die Richtlinien auf dieser Seite verwenden, um die Qualität Ihrer Trainingsdaten und Ihres Modells zu erhöhen.

Wenn Sie bereits mit dem Erstellen von Trainingsdaten für ML-Modelle vertraut sind und ein AutoML-Modell trainieren möchten, lesen Sie die von AutoML geltenden Transformationen. Wenn Sie ein AutoML-Modell trainieren, führt Vertex AI viele Datenvorbereitungsaufgaben für Sie aus.

Best Practices für die tabellarische Datenvorbereitung

Die folgenden Best Practices gelten unabhängig davon, ob Sie ein AutoML-Modell oder ein benutzerdefiniertes Modell mit tabellarischen Daten erstellen.

Datenlecks vermeiden

Datenlecks treten auf, wenn Ihre Trainingsdaten vorhersagende Informationen enthalten, die nicht verfügbar sind, wenn Sie eine Vorhersage anfordern. Datenlecks können dazu führen, dass das Modell hervorragende Bewertungsmesswerte zeigt, aber schlecht mit echten Daten funktioniert.

Angenommen, Sie möchten wissen, wie viel Eiscreme Ihr Geschäft morgen verkaufen wird. Sie können die Temperatur des Zieltages nicht in Ihre Trainingsdaten einbeziehen, da Sie die Temperatur ja nicht kennen (es ist noch nicht passiert). Sie können jedoch die vorhergesagte Temperatur vom Vortag verwenden und sie in die Vorhersageanfrage einbeziehen.

Abweichungen zwischen Training und Bereitstellung vermeiden

Eine Abweichung zwischen Training und Bereitstellung tritt auf, wenn Sie die Trainingsdaten anders generieren als die Daten, die Sie zum Anfordern von Vorhersagen verwenden.

Beispielsweise, wenn Sie einen Durchschnittswert verwenden und zu Trainingszwecken einen Durchschnitt aus 10 Tagen bilden, aber beim Anfordern einer Vorhersage einen Durchschnitt für den letzten Monat.

Im Allgemeinen sollten alle Unterschiede zwischen dem Generieren der Trainingsdaten und der Bereitstellungsdaten, also den Daten, die Sie zum Generieren von Vorhersagen verwenden, überprüft werden, um Abweichungen zwischen Training und Bereitstellung zu vermeiden.

Abweichungen zwischen Training und Bereitstellung und Datenverteilung

Abweichungen zwischen Training und Bereitstellung können auch aufgrund der Datenverteilung in den Trainings-, Validierungs- und Testdatenaufteilungen auftreten. Es gibt häufig einen Unterschied zwischen der Datenverteilung, mit der ein Modell bei seiner Bereitstellung in der Produktion konfrontiert ist, und der Datenverteilung des Datasets, mit dem ein Modell trainiert wird. Beispiel: Es kann passieren, dass ein Modell in der Produktion auf eine völlig andere Nutzergruppe angewendet wird als während des Trainings. Oder das Modell wird möglicherweise 30 Tage nach Aufzeichnung der endgültigen Trainingsdaten für Vorhersagen verwendet.

Die besten Ergebnisse erzielen Sie, wenn die Verteilung der Datenaufteilungen bei der Projekterstellung den Unterschied zwischen den Trainingsdaten und den Vorhersagedaten für Ihre Produktionsumgebung exakt wiedergibt. Vertex AI kann nicht-monotone Vorhersagen treffen. Wenn die Produktionsdaten aus einer sehr unterschiedlichen entnommen werden, die sich stark von den Trainingsdaten unterscheidet, dann sind nicht-monotone Vorhersagen nicht sehr zuverlässig.

Außerdem zwischen Produktionsdaten und Trainingsdaten der gleiche Unterschied bestehen wie zwischen der Validierungsdatenaufteilung und der Trainingsdatenaufteilung sowie zwischen der Testdatenaufteilung und der Validierungsdatenaufteilung.

Wenn Sie beispielsweise Voraussagen über den Lifetime-Wert (LTV) des Nutzers während der nächsten 30 Tage treffen möchten, müssen die Daten in der Validierungsdatenaufteilung 30 Tage älter sein als die Daten in Ihrer Trainingsdatenaufteilung, und die Daten in der Testdatenaufteilung müssen von einem Zeitpunkt 30 Tage nach der Validierungsdatenaufteilung stammen.

Wenn Sie Ihr Modell abstimmen möchten, um allgemeine Vorhersagen zu neuen Nutzern zu treffen, dürfen Daten von einem bestimmten Nutzer nur in einer einzigen Aufteilung Ihrer Trainingsdaten enthalten sein. Zum Beispiel befinden sich alle Zeilen, die sich auf user1 beziehen, in der Trainingsdatenaufteilung, alle Zeilen, die sich auf user2 beziehen, in der Validierungsdatenaufteilung und alle Zeilen, die sich auf user3 beziehen, in der Testdatenaufteilung.

Zeitsignal bereitstellen

Wenn sich das zugrunde liegende Muster in den Daten bei Klassifizierungs- und Regressionsmodellen wahrscheinlich im Laufe der Zeit ändert (also in Bezug auf die Zeit nicht zufällig verteilt ist), müssen Sie diese Informationen für Vertex AI angeben. Sie können ein Zeitsignal auf verschiedene Arten angeben:

  • Wenn jede Datenzeile einen Zeitstempel hat, achten Sie darauf, dass die Spalte enthalten ist, den Transformationstyp Timestamp aufweist und beim Erstellen des Datasets als die Spalte Time (Zeit) definiert wird. Diese Reihenfolge wird verwendet, um die Daten aufzuteilen, wobei die neuesten Daten als Testdaten und die ältesten Daten als Trainingsdaten dienen. Weitere Informationen

  • Wenn Ihre Zeitspalte nicht viele unterschiedliche Werte enthält, sollten Sie sie manuell aufteilen, anstatt die Daten in der Spalte "Time" (Zeit) zu unterteilen. Andernfalls erhalten Sie möglicherweise nicht genügend Zeilen in den einzelnen Datasets, was dazu führen kann, dass das Training fehlschlägt.

  • Wenn die Zeitinformationen nicht in einer einzelnen Spalte enthalten sind, können Sie eine manuelle Datenaufteilung verwenden, um die neuesten Daten als Testdaten und die ältesten Daten als Trainingsdaten zu verwenden.

Informationen explizit zur Verfügung stellen, wo sie benötigt werden

Bei einigen Datenprimitiven können Sie die Modellqualität durch Engineering-Features verbessern.

Wenn die Daten beispielsweise Längen- und Breitengrade enthalten, werden diese Spalten ohne spezielle Berechnungen als numerische Daten behandelt. Wenn der Standort oder die Entfernung ein Signal für Ihr Problem darstellt, müssen Sie ein Feature entwickeln, das diese Informationen explizit bereitstellt.

Einige Datentypen, die möglicherweise ein Feature-Engineering erfordern:

  • Längengrad/Breitengrad
  • URLs
  • IP-Adressen
  • E-Mail-Adressen
  • Telefonnummern
  • Andere geografische Codes (z. B. Postleitzahlen)

Berechnete oder aggregierte Daten in eine Zeile einfügen

Vertex AI verwendet nur die Eingabedaten in einer einzelnen Zeile, um den Zielwert für diese Zeile vorherzusagen. Wenn Sie Daten aus anderen Zeilen oder Quellen berechnet oder aggregiert haben, die für die Bestimmung des vorhergesagten Werts für eine Zeile nützlich wären, fügen Sie diese Daten in die Quellzeile ein. Achten Sie darauf, dass die neue Spalte kein Datenleck oder keine Abweichungen zwischen Training und Bereitstellung verursacht.

Wenn Sie beispielsweise den Bedarf der nächsten Woche für ein Produkt vorhersagen möchten, können Sie die Qualität der Vorhersage durch Einfügen von Spalten mit den folgenden Werten verbessern:

  • Die Gesamtzahl der vorrätigen Artikel aus derselben Kategorie wie das Produkt.
  • Der durchschnittliche Preis der vorrätigen Artikel aus derselben Kategorie wie das Produkt.
  • Die Anzahl der Tage vor einem bekannten Feiertag, an dem die Vorhersage angefordert wird.
  • Und so weiter...

Wenn Sie in einem anderen Beispiel vorhersagen möchten, ob ein bestimmter Nutzer ein Produkt kauft, können Sie die Qualität der Vorhersage durch Einfügen von Spalten mit den folgenden Werten verbessern:

  • Die durchschnittliche bisherige Conversion-Rate oder Klickrate für den bestimmten Nutzer.
  • Menge der Produkte, die sich derzeit im Einkaufswagen des Nutzers befinden.

Verzerrungen vermeiden

Achten Sie darauf, dass die Trainingsdaten repräsentativ für die gesamten potenziellen Daten sind, für die Sie Vorhersagen treffen werden. Wenn Sie beispielsweise Kunden auf der ganzen Welt haben, sollten Sie keinesfalls Trainingsdaten aus nur einem Land verwenden.

Best Practices für die Datenvorbereitung für AutoML-Modelle

Die folgenden Best Practices dienen zum Erstellen von tabellarischen Trainingsdaten für tabellarische AutoML-Modelle.

Nullwerte entsprechend darstellen

Wenn Sie aus einer CSV-Datei importieren, verwenden Sie leere Zeichenfolgen, um Nullwerte darzustellen. In BigQuery verwenden Sie den Wert NULL.

Wenn Ihre Daten zur Darstellung von Nullwerten Sonderzeichen oder Zahlen verwenden, einschließlich null, werden diese Werte falsch interpretiert, wodurch die Modellqualität reduziert wird.

Vermeiden Sie nach Möglichkeit fehlende Werte.

Prüfen Sie Ihre Daten auf fehlende Werte und korrigieren Sie sie nach Möglichkeit. Andernfalls können Sie den Wert leer lassen und er wird als Nullwert behandelt.

Leerzeichen zum Trennen von Text verwenden

In Vertex AI werden Textstrings mit einem Token versehen und das Trainingssignal kann aus einzelnen Wörtern abgeleitet werden. Zum Trennen von Wörtern werden Leerzeichen verwendet. Wörter, die durch andere Zeichen getrennt sind, werden als eine Einheit behandelt.

Wenn Sie beispielsweise den Text "Rot/Grün/Blau" eingeben, wird er nicht in "Rot", "Grün" und "Blau" unterteilt. Wenn diese einzelnen Wörter für das Training des Modells wichtig sein könnten, sollten Sie den Text in "Rot Grün Blau" umwandeln, bevor Sie ihn in die Trainingsdaten aufnehmen.

Kategoriale Features müssen korrekt und einwandfrei sein

Dateninkonsistenzen können dazu führen, dass Kategorien falsch aufgeteilt werden. Wenn die Daten beispielsweise "Braun" und "braun" enthalten, verwendet Vertex AI diese Werte als separate Kategorien, obwohl dies möglicherweise nicht beabsichtigt war. Rechtschreibfehler können einen ähnlichen Effekt haben. Achten Sie darauf, dass Sie diese Art von Inkonsistenzen aus den kategorialen Daten entfernen, bevor Sie die Trainingsdaten erstellen.

Seien Sie besonders vorsichtig mit unausgeglichenen Klassen für Klassifizierungsmodelle

Bei unausgeglichenen Klassen (ein selten auftretendes Klassifizierungsproblem bei einem oder mehreren Ergebnissen) lesen Sie die folgenden Tipps.

Ausreichende Trainingsdaten für die Minderheitenklasse bereitstellen

Wenn zu wenige Datenzeilen für eine Klasse vorhanden sind, beeinträchtigt dies die Modellqualität. Wenn möglich, sollten Sie für jede Klasse mindestens 100 Datenzeilen bereitstellen.

Manuelle Aufteilung

Vertex AI wählt die Zeilen für das Test-Dataset nach dem Zufallsprinzip (aber deterministisch) aus. Bei unausgeglichenen Klassen kann es vorkommen, dass das Test-Dataset nur eine geringe Anzahl der Minderheitsklasse oder gar keine enthält, sodass das Training fehlschlägt.

Wenn Sie unausgeglichene Klassen haben, sollten Sie sie manuell aufteilen, damit in jeder Aufteilung genügend Zeilen mit den Minderheitsergebnissen enthalten sind.

Genügend Trainingsdaten bereitstellen

Wenn Sie nicht genügend Trainingsdaten bereitstellen, kann dies die Leistung des resultierenden Modells beeinträchtigen. Je mehr Spalten Sie zum Trainieren Ihres Modells verwenden, desto mehr Daten müssen Sie angeben.

Ihr Dataset muss immer mindestens 1.000 Zeilen enthalten.

Die folgende Tabelle enthält einige Heuristiken dazu, wie viele Trainingsdaten Sie je nach Ziel bereitstellen müssen.

Ziel Vorgeschlagene Mindestmenge an Trainingsdaten
Klassifizierung Mindestens zehnmal so viele Zeilen wie Spalten.
Prognose (Vorschau) Mindestens 10 Zeitachsen für jede Spalte, die zum Trainieren des Modells verwendet wird.
Regression Mindestens 50-mal so viele Zeilen wie die Anzahl der Spalten.

Alle anderen Vorverarbeitungen und Transformationen Vertex AI überlassen

Sofern oben nicht anders angegeben, lassen Sie Vertex AI das Feature-Engineering für Sie erledigen, wenn Sie ein AutoML-Modell trainieren. AutoML Tables liefert die besten Ergebnisse, wenn es Zugriff auf die zugrunde liegenden Daten hat. Eine Liste aller Transformationen, die AutoML nach Transformationstyp ausführt, finden Sie unter Vertex-KI-Transformationen.

Best Practices für die Datenvorbereitung in der Prognose

Trainingsdaten für Prognosemodelle (Vorschau) müssen einige besondere Aspekte berücksichtigen.

Zeitachsenkennzeichnung

Eine Ihrer Spalten in Ihren Trainingsdaten für ein Prognosemodell muss als Zeitachsenkennzeichnung angegeben werden. Die Prognose von Trainingsdaten enthält normalerweise mehrere Zeitachsen. Die Kennzeichnung teilt Vertex AI mit, zu welcher Zeitachse eine bestimmte Beobachtung in den Trainingsdaten gehört. Alle Zeilen in einer bestimmten Zeitachse haben denselben Wert in der Zeitachsenkennzeichnungsspalte.

Einige gängige Zeitachsenkennzeichnungen können die Produkt-ID, eine Geschäfts-ID oder eine Region sein. Wenn Ihre Trainingsdaten mehrere Zeitachsen enthalten, sollte eine bestimmte Spalte zur Unterscheidung vorhanden sein.

Sie können ein Prognosemodell für eine einzelne Zeitachse trainieren (mit anderen Worten, die Spalte für die Zeitachsenkennzeichnung enthält denselben Wert für alle Zeilen). Vertex AI eignet sich jedoch besser für Trainingsdaten, die zwei oder mehr Zeitachsen enthalten. Die besten Ergebnisse erzielen Sie, wenn Sie mindestens zehn Zeitachsen für jede Spalte haben, die zum Trainieren des Modells verwendet wird.

Überlegungen zur Auswahl der Datengranularität

Wenn Sie ein Prognosemodell trainieren, geben Sie die Datengranularität oder das Zeitintervall zwischen den Trainingsdatenzeilen an. Sie kann stündlich, täglich, wöchentlich, monatlich oder jährlich sein. Darüber hinaus kann es alle 1, 5, 10, 15 oder 30 Minuten sein.

Die Datengranularität muss in den gesamten Trainingsdaten und allen Batchvorhersagedaten konsistent sein. Wenn Sie eine tägliche Granularität angeben und zwischen zwei Trainingsdatenzeilen zwei Tage liegen, behandelt Vertex AI den Zwischentag als fehlende Daten, was die Modellleistung beeinträchtigen kann. Mehrere Zeilen in derselben Zeitachse mit demselben Zeitstempel (wie durch den Detaillierungsgrad bestimmt) werden zum Zeitpunkt des Trainings als Validierungsfehler betrachtet.

Im Allgemeinen bestimmen die Vorgehensweisen zur Datenerfassung den Detaillierungsgrad Ihrer Daten.

Best Practices für die manuelle Aufteilung Ihrer Zeitachsen-Trainingsdaten

Wenn die standardmäßige chronologische Aufteilung (80/10/10) für Ihre Trainingsdaten nicht korrekt ist, können Sie manuell angeben, welche Zeilen für welche Trainingsdaten verwendet werden sollen. Beispielsweise kann es sinnvoll sein, für die Aufteilungen einen anderen Prozentsatz Ihrer Trainingsdaten zu verwenden. Weitere Informationen finden Sie unter Datenaufteilungen steuern.

Achten Sie darauf, Datenverluste zwischen Ihren Zeitachsen zu vermeiden. Dies kann auftreten, wenn Daten aus demselben Datum für einen Satz für eine Zeitachse und ein anderer Satz für eine andere Zeitachse verwendet werden.

Überlegungen zum Festlegen des Kontextfensters und des Prognosezeitraums

Sie legen das Kontextfenster und den Prognosezeitraum fest, wenn Sie ein Prognosemodell trainieren.

  • Das Kontextfenster legt fest, wie weit das Modell während des Trainings (und für Prognosen) zurückblickt. Mit anderen Worten: Für jeden Trainingsdatenpunkt bestimmt das Kontextfenster, wie weit das Modell nach Vorhersagemustern sucht.

  • Der Prognosezeitraum bestimmt, wie weit das Modell den Zielwert für jede Zeile mit Vorhersagedaten prognostiziert.

Das Vergrößern des Kontextfensters hat folgende Auswirkungen:

  • Erhöht die Trainingszeit

    Bei einem größeren Kontextfenster verwendet das Modell mehr Datenpunkte für das Training, sodass die Trainingszeit zunimmt.

  • Der erforderliche Verlauf an Vorhersagedaten wird erhöht.

    Die Vorhersagedaten sollten so viele Verlaufsdatenpunkte enthalten wie der Wert des Kontextfensters.

Wenn Sie davon ausgehen, dass Sie viele Vorhersagedaten benötigen, die nicht in die Vergangenheit (Kaltstarts) reichen, beginnen Sie, zuerst das Kontextfenster auf 0 zu setzen. Andernfalls wird ein Kontextfenster zwischen der Größe des Prognosezeitraums und dem 10-fachen der Größe des Prognosezeitraums gut funktionieren.

Mit den folgenden Schritten können Sie einen guten Wert für Ihre Daten ermitteln:

  1. Legen Sie für den ersten Trainingsdurchlauf das Kontextfenster und den Prognosehorizont auf denselben Wert und Ihr Trainingsbudget auf mindestens sechs Stunden fest.

  2. Trainieren Sie das Modell noch einmal mit demselben Trainingsbudget, aber verdoppeln Sie die Größe des Kontextfensters auf das Doppelte der Größe des Prognosezeitraums.

  3. Wenn die Bewertungsmesswerte für das zweite Modell eine erhebliche Verbesserung zeigen, trainieren Sie das Modell noch einmal und erhöhen Sie das Kontextfenster auf das Fünffache der Größe des Prognosezeitraums. Ziehen Sie eine proportionale Erhöhung des Trainingsbudgets in Betracht, wenn Sie im ersten Schritt 10 Stunden trainiert haben. Erhöhen Sie das Trainingsbudget auf 50 Stunden.

  4. Erhöhen Sie das Kontextfenster so lange, bis keine verbesserten Bewertungsmesswerte mehr angezeigt werden oder bis Sie mit den Ergebnissen zufrieden sind. Kehren Sie zum niedrigsten Wert des Kontextfensters zurück, das akzeptable Ergebnisse erzeugt hat.

Wie das Kontextfenster und der Prognosezeitraum während des Trainings und der Prognose verwendet werden

Angenommen, Sie haben Daten, die monatlich erfasst werden, mit einem Kontextfenster von 5 (Monaten) und einem Prognosezeitraum von 5 (Monate). Das Training Ihres Modells mit zwölf Monaten Daten würde zu den folgenden Gruppen von Eingaben und Prognosen führen:

  • [1-5]:[6-10]
  • [2-6]:[7-11]
  • [3-7]:[8-12]

Nach dem Training kann das Modell zur Vorhersage von den Monaten 13 bis 17 verwendet werden:

  • [8-12]:[13-17]

Das Modell verwendet nur die Daten, die in das Kontextfenster fallen, um die Prognose zu erstellen. In diesem Fall könnten Sie Daten bereitstellen, die weiter fließen, aber das würde die Vorhersage nicht beeinflussen; sie würden ignoriert werden.

Nachdem Daten für den 13. Monat erfasst wurden, können sie für die Vorhersage bis zum 18. Monat verwendet werden:

  • [9-13]:[14-18]

Dies kann in der Zukunft fortgesetzt werden, solange Sie gute Ergebnisse erzielen. Sie können das Modell schließlich mit den neuen Daten neu trainieren. Wenn Sie beispielsweise das Modell nach dem Hinzufügen von sechs weiteren Daten neu trainiert haben, werden die Trainingsdaten so verwendet:

  • [2-6]:[7-11]
  • [3-7]:[8-12]
  • [4-8]:[9-13]
  • [5-9]:[10-14]
  • [6-10]:[11-15]
  • [7-11]:[12-16]
  • [8-12]:[13-17]
  • [9-13]:[14-18]

Sie könnten dann das Modell verwenden, um die Monate 19 bis 23 vorherzusagen:

  • [14-18]:[19-23]

Informationen zum Datenformat

Sie können Ihre Trainingsdaten im weiten oder schmalen Format erstellen. Für Regressions- und Klassifizierungsmodelle wird ein breites Format verwendet, das sich einfacher zusammenstellen und überprüfen lässt. Bei Prognosemodellen (Vorschau) können Sie durch die Verwendung des schmalen Formats vermeiden, dass unbeabsichtigte Verbindungen zwischen Ihren Daten und Ihrem Ziel eingerichtet werden (Datenlecks).

Wenn Sie Trainingsdaten zum Trainieren eines Prognosemodells erstellen, sollte jede Zeile eine einzelne Beobachtung auf einer einzelnen Zeitachse darstellen. Sie müssen eine Spalte haben, die Ihre Zeitachsenkennzeichnung darstellt, wie sich die Zeitachsen voneinander unterscheiden, und eine Spalte, die den Wert Ihrer Vorhersage darstellt (Ihr Ziel). Dann muss jeder andere Wert in der Zeile, die zum Trainieren des Modells verwendet wird, zum Zeitpunkt der Anforderung einer Vorhersage für Ihr Ziel vorhanden sein.

Betrachten Sie die folgenden (vereinfachten und abgekürzten) Beispieltrainingsdaten:

Datum Widget_1_Demand Widget_2_Demand Widget_3_Demand Promo Region
01/01/2019 112 241 0 0 CA
01/02/2019 141 219 0 1 CA
01/03/2019 149 244 0 0 CA
01/01/2019 52 0 43 0 IL
01/02/2019 81 0 26 1 IL
01/03/2019 89 0 86 0 IL

Diese Tabelle enthält im Wide-Format Geschäftsdaten nach Datum, konnte jedoch für ein Prognosemodell in ihrer aktuellen Form nicht verwendet werden. Es gibt keine einzelne Zielspalte und keine Zeitachsen-ID-Spalte. Für ein bestimmtes Datum kennen Sie die Nachfrage für die anderen Widgets zum Zeitpunkt der Vorhersage nicht.

Sie können diese Tabelle in dieses Format konvertieren:

Datum Produkt Region_CA_Demand Region_IL_Demand Promo
01/01/2019 Widget_1 112 52 0
01/02/2019 Widget_1 141 81 1
01/03/2019 Widget_1 149 89 0
01/01/2019 Widget_2 241 0 0
01/02/2019 Widget_2 219 0 1
01/03/2019 Widget_2 244 0 0
01/01/2019 Widget_3 0 43 0
01/02/2019 Widget_3 0 26 1
01/03/2019 Widget_3 0 86 0

Wir haben jetzt eine potenzielle Zeitachsen-ID-Spalte, Produkt. Dieses Format könnte jedoch nur zur Vorhersage einer der Regionen verwendet werden und die Daten für die andere Region müssen zum Zeitpunkt der Vorhersage bekannt sein.

Die Lösung besteht darin, das Format in ein enges Format umzuwandeln, sodass jede Zeile eine einzelne Beobachtung darstellt. Alle Daten, die von der Zeitachse unabhängig sind, werden für jede Zeile wiederholt:

Datum Nachfrage Produkt Promo Region
01/01/2019 112 Widget_1 0 CA
01/02/2019 141 Widget_1 1 CA
01/03/2019 149 Widget_1 0 CA
01/01/2019 52 Widget_1 0 IL
01/02/2019 81 Widget_1 1 IL
01/03/2019 89 Widget_1 0 IL
01/01/2019 241 Widget_2 0 CA
01/02/2019 219 Widget_2 1 CA
01/03/2019 244 Widget_2 0 CA
01/01/2019 0 Widget_2 0 IL
01/02/2019 0 Widget_2 1 IL
01/03/2019 0 Widget_2 0 IL
01/01/2019 0 Widget_3 0 CA
01/02/2019 0 Widget_3 1 CA
01/03/2019 0 Widget_3 0 CA
01/01/2019 43 Widget_3 0 IL
01/02/2019 26 Widget_3 1 IL
01/03/2019 86 Widget_3 0 IL

Jetzt haben wir eine Zeitachsenkennzeichnung (Produkt), eine Zielspalte (Nachfrage) und eine Zeitspalte (Datum). Darüber hinaus basiert jede Zeile auf einer einzelnen Beobachtung, mit der der Zielwert vorhergesagt werden kann. Die Spalten "Region" und "Werbeaktion" werden als Features zum Trainieren des Modells verwendet.

Tatsächlich haben Sie viel mehr Zeilen und viel mehr Spalten als diese Beispiele. Sie müssen jedoch hier die Richtlinien befolgen, um Ihre Daten zu strukturieren, um Datenverluste zu vermeiden.

Nächste Schritte