Trainingsdaten vorbereiten

Auf dieser Seite erfahren Sie, wie Sie Ihre Tabellendaten für Trainingsklassifizierungs- und Regressionsmodelle in Vertex AI vorbereiten. Die Qualität der Trainingsdaten beeinflusst die Effektivität der von Ihnen erstellten Modelle.

Dabei werden die folgenden Themen behandelt:

  1. Anforderungen an die Datenstruktur
  2. Importquelle vorbereiten
  3. Trainingsdaten gewichten

Standardmäßig verwendet Vertex AI einen zufälligen Aufteilungsalgorithmus, um Ihre Daten in drei Datenaufteilungen zu unterteilen. Vertex AI wählt nach dem Zufallsprinzip 80 % Ihrer Datenzeilen für das Trainings-Dataset, 10 % für das Validierungs-Dataset und 10 % für das Test-Dataset aus. Alternativ können Sie auch eine manuelle oder eine chronologische Aufteilung verwenden, aber dazu müssen Sie eine Datenaufteilungs- oder eine Zeitspalte vorbereiten. Weitere Informationen zur Datenaufteilung.

Anforderungen an die Datenstruktur

Ihre Trainingsdaten müssen die folgenden grundlegenden Anforderungen erfüllen:

Anforderungstyp Anforderung
Größe Das Dataset darf maximal 100 GB groß sein.
# an Spalten Das Dataset muss mindestens zwei und darf nicht mehr als 1.000 Spalten haben. Das Dataset muss ein Ziel und mindestens ein Feature zum Trainieren des Modells haben. Idealerweise haben Trainingsdaten mehr als zwei Spalten. Die maximale Anzahl von Spalten umfasst sowohl Feature- als auch Nicht-Feature-Spalten.
Zielspalte Sie müssen eine Zielspalte angeben. In der Zielspalte kann Vertex AI die Trainingsdaten mit dem gewünschten Ergebnis verknüpfen. Sie darf keine Nullwerte enthalten und muss entweder kategorisch oder numerisch sein. Wenn sie kategorisch ist, muss sie mindestens zwei und nicht mehr als 500 verschiedene Werte haben.
Format der Spaltennamen Der Spaltenname kann ein beliebiges alphanumerisches Zeichen oder einen Unterstrich (_) enthalten. Der Spaltenname darf nicht mit einem Unterstrich beginnen.
# an Zeilen Das Dataset muss mindestens 1.000 und darf nicht mehr als 100.000.000 Zeilen enthalten. Zum Trainieren eines leistungsfähigen Modells reichen jedoch – je nach Anzahl der Features im Dataset – 1.000 Zeilen möglicherweise nicht aus. Weitere Informationen
Datenformat Verwenden Sie das richtige Datenformat (breit oder schmal) für Ihr Ziel. Das breite Format ist im Allgemeinen am besten geeignet, wobei jede Zeile ein Trainingsdatenelement (Produkt, Person usw.) darstellt. Weitere Informationen zum Auswählen des Datenformats

Importquelle vorbereiten

Sie können Modelltrainingsdaten auf zwei Arten für Vertex AI bereitstellen:

  • BigQuery-Tabellen
  • Kommagetrennte Werte (CSV)

Welche Quelle Sie verwenden, hängt davon ab, wie die Daten gespeichert und wie umfangreich und komplex sie sind. Wenn das Dataset klein ist und Sie keine komplexeren Datentypen benötigen, kann CSV die einfachere Lösung sein. Für größere Datasets, die Arrays und Strukturen enthalten, ist BigQuery erforderlich.

BigQuery

Die BigQuery-Tabelle oder -Ansicht muss den BigQuery-Standortanforderungen entsprechen.

Wenn sich die BigQuery-Tabelle oder -Ansicht in einem anderen Projekt befindet als dem Projekt, in dem Sie Ihr Vertex AI-Dataset erstellen, oder wenn Ihre BigQuery-Tabelle oder -Ansicht von einer externen Datenquelle gesichert wird, müssen Sie dem Vertex AI-Dienst-Agent möglicherweise eine oder mehrere Rollen hinzufügen. Siehe Voraussetzungen für das Hinzufügen von Rollen für BigQuery.

Sie brauchen für die BigQuery-Tabelle kein Schema anzugeben. Vertex AI leitet das Schema für Ihre Tabelle automatisch ab, wenn Sie Ihre Daten importieren.

Ihr BigQuery-URI mit dem Speicherort Ihrer Trainingsdaten muss dem folgenden Format entsprechen:

bq://<project_id>.<dataset_id>.<table_id>

Der URI darf keine weiteren Sonderzeichen enthalten.

Informationen zu BigQuery-Datentypen und deren Zuordnung zu Vertex AI finden Sie unter BigQuery-Tabellen. Weitere Informationen zur Verwendung externer BigQuery-Datenquellen finden Sie unter Einführung in externe Datenquellen.

CSV

CSV-Dateien können in Cloud Storage oder auf Ihrem lokalen Computer gespeichert sein. Sie müssen den folgenden Anforderungen entsprechen:

  • Die erste Zeile der ersten Datei muss ein Header sein, der die Namen der Spalten enthält. Wenn die erste Zeile einer nachfolgenden Datei mit dem Header identisch ist, wird sie auch als Header behandelt. Andernfalls wird sie als Daten behandelt.
  • Spaltennamen können beliebige alphanumerische Zeichen und Unterstriche (_) enthalten. Der Spaltenname darf nicht mit einem Unterstrich beginnen.
  • Jede Datei darf maximal 10 GB groß sein.

    Sie können mehrere Dateien mit einer Gesamtgröße von maximal 100 GB importieren.

  • Das Trennzeichen muss ein Komma (,) sein.

Sie brauchen für die CSV-Daten kein Schema anzugeben. Das Tabellenschema wird von Vertex AI automatisch beim Import der Daten abgeleitet. Die Kopfzeile wird dabei für die Spaltennamen verwendet.

Weitere Informationen zum CSV-Dateiformat und zu den Datentypen finden Sie unter CSV-Dateien.

Wenn Sie Ihre Daten aus Cloud Storage importieren, müssen sie sich in einem Bucket befinden, der die folgenden Anforderungen erfüllt:

Wenn Sie Ihre Daten von Ihrem lokalen Computer importieren, benötigen Sie einen Cloud Storage-Bucket, der die folgenden Anforderungen erfüllt:

Trainingsdaten gewichten

Standardmäßig gewichtet Vertex AI jede Zeile Ihrer Trainingsdaten gleich. Für Trainingszwecke wird keine Zeile als wichtiger betrachtet als eine andere.

Mitunter kann es für das Training jedoch wünschenswert sein, dass einige Zeilen wichtiger sind. Wenn Sie beispielsweise Ausgabendaten verwenden, möchten Sie vielleicht, dass die Daten zu kaufkräftigeren Kunden eine größere Auswirkung auf das Modell haben. Wenn es wichtig ist, dass ein bestimmtes Ergebnis in jedem Fall einbezogen wird, können Sie Zeilen mit diesem Ergebnis stärker gewichten.

Wenn Sie die Gewichtungsspalte in das Dataset einbeziehen, können Sie Zeilen ein relatives Gewicht zuweisen. Die Gewichtungsspalte muss eine numerische Spalte sein. Der Wert für die Gewichtung kann zwischen 0 und 10.000 liegen. Höhere Werte deuten darauf hin, dass die Zeile beim Training des Modells wichtiger ist. Bei einer Gewichtung von 0 wird die Zeile ignoriert. Wenn Sie eine Gewichtungsspalte einbeziehen, muss sie einen Wert für jede Zeile enthalten.

Wenn Sie das Modell später trainieren, geben Sie diese Spalte als Weight-Spalte an.

Benutzerdefinierte Gewichtungsschemas werden nur zum Trainieren des Modells verwendet. Sie haben keinen Einfluss auf das für die Modellbewertung verwendete Test-Dataset.

Nächste Schritte