Datenvorbereitung – Übersicht

Es gibt mehrere Möglichkeiten, Trainingsdaten zu erstellen.

Welche Wahl Sie treffen, hängt von zahlreichen Faktoren ab.

Cloud Storage als bereitgestelltes Dateisystem (Cloud Storage FUSE)

Die Verwendung von Cloud Storage als bereitgestelltes Dateisystem (Cloud Storage FUSE) bietet folgende Vorteile:

  • Wenn die Trainingsdaten unstrukturiert sind, z. B. Bilder, Text oder Videos: Cloud Storage eignet sich hervorragend zum Speichern dieser Art von großen, oft einzelnen Dateien.
  • Wenn Trainingsdaten in Formaten wie TFRecord strukturiert sind: Cloud Storage wird häufig für diese ML-spezifischen Formate verwendet.
  • Bei der Arbeit mit sehr großen Dateien: Cloud Storage FUSE streamt die Daten an Ihren Trainingsjob, anstatt dass die gesamte Datei in die Repliken heruntergeladen werden muss. Dies kann zu einem schnelleren Datenladen und kürzeren Jobstartzeiten bei großen Datenmengen führen.
  • Bei verteiltem Training: Cloud Storage FUSE bietet einen hohen Durchsatz für sequenzielle Lesevorgänge großer Dateien. Das ist in Szenarien mit verteiltem Training von Vorteil, in denen mehrere Arbeitsabläufe parallel auf Daten zugreifen müssen.
  • Wenn Sie auf Cloud Storage-Daten zugreifen möchten, als ob es sich um ein lokales Dateisystem handeln würde, ohne explizite API-Aufrufe in Ihrem Trainingscode ausführen zu müssen.
  • Wenn Sie in erster Linie skalierbaren Speicher benötigen und sich weniger um die niedrigste Latenz für den Zufallszugriff auf zahlreiche kleine Dateien kümmern.

Spezifisch für Ray in Vertex AI

  • Sie können Ihre Daten in Cloud Storage-Buckets speichern, auf die Ray in Vertex AI zugreifen kann.
  • Ray kann Daten direkt aus Cloud Storage lesen. Wenn Sie beispielsweise Spark on Ray ausführen, können Sie Dateien aus Cloud Storage lesen.
  • Vertex AI verwendet Cloud Storage FUSE, um Cloud Storage-Buckets als lokale Dateisysteme in Ihren Trainingsjobs bereitzustellen, die auf Ray ausgeführt werden. So können Ihre Ray-Anwendungen mithilfe standardmäßiger Datei-I/O-Vorgänge auf Daten zugreifen, als wären sie auf einem lokalen Laufwerk.
  • Für eine optimale Leistung wird empfohlen, Cloud Storage-Buckets in derselben Region zu verwenden, in der Sie Ihren Ray-Cluster ausführen.

Weitere Informationen

NFS-Freigabe (Network File System)

  • Wenn Sie einen sehr hohen Durchsatz und einen Zugriff auf Remotedateien mit niedriger Latenz benötigen, als ob sie lokal gespeichert wären. Dies kann für bestimmte Datentypen oder komplexe Dateiinteraktionen während des Trainings wichtig sein.
  • Wenn Sie Remotedateien für alle Knoten in einem Rechencluster verfügbar machen möchten, z. B. für einen Ray-Cluster in Vertex AI.
  • Wenn Ihre Anwendung von einer standardmäßigeren Dateisystemoberfläche mit einer potenziell stärkeren POSIX-Compliance im Vergleich zu Cloud Storage FUSE profitiert.
  • Sie haben eine vorhandene NFS-Infrastruktur in Ihrer Virtual Private Cloud, die Sie verwenden möchten.
  • Sie müssen Dateien oder Verzeichnisse für mehrere Jobs oder Cluster mit konsistentem Zugriff bei niedriger Latenz freigeben. Es wird empfohlen, Berechtigungen auf Dateisystemebene zu verwalten.

Spezifisch für Ray in Vertex AI

  • Sie können NFS-Freigaben auf Ihrem Ray-Cluster in Vertex AI bereitstellen, um Remotedateien so zugänglich zu machen, als wären sie lokal.
  • Dies ist von Vorteil für den Zugriff auf freigegebene Dateisysteme mit hohem Durchsatz und niedriger Latenz.
  • Sie können NFS-Anschlüsse beim Erstellen Ihres Ray-Clusters mit dem Vertex AI SDK für Python einrichten, indem Sie den Server, den Pfad und den Bereitstellungspunkt angeben. Nach dem Bereitstellen kann Ihr Ray-Code mithilfe von Standarddateivorgänge auf diese NFS-Volumes lesen und darauf schreiben.

Weitere Informationen

Verwaltetes Dataset

  • Zentrale Datenverwaltung und -governance: Verwaltete Datasets bieten einen zentralen Ort, an dem Sie Ihre Datasets in Vertex AI organisieren und verwalten können. So können Sie Ihre Daten-Assets in verschiedenen Projekten und Tests nachverfolgen und verwalten.
  • Datenlabelung: Sie können Labeling-Aufgaben erstellen und Anmerkungssätze direkt im verwalteten Dataset verwalten.
  • Datenabstammung verfolgen: Bei verwalteten Datasets wird die Abstammung Ihrer Daten automatisch bis zu den damit trainierten Modellen zurückverfolgt. Dies ist entscheidend, um die für bestimmte Modelle verwendeten Datenquellen zu verstehen und Reproduzierbarkeit und Governance zu gewährleisten.
  • Benutzerdefinierte und AutoML-Modelle vergleichen: Mit verwalteten Datasets können Sie sowohl benutzerdefinierte als auch AutoML-Modelle mit denselben Daten trainieren. So lässt sich die Leistung der einzelnen Modelle auf demselben Datensatz direkt vergleichen und Sie können den besten Ansatz für Ihr Problem auswählen.
  • Generieren von Datenstatistiken und Visualisierungen: Mit Vertex AI können automatisch Statistiken und Visualisierungen für die Daten in einem verwalteten Dataset generiert werden. Dies kann bei explorativer Datenanalyse helfen und Ihnen dabei helfen, die Merkmale Ihrer Daten zu verstehen.
  • Automatische Datenaufteilung: Wenn Sie verwaltete Datasets in Trainingspipelines verwenden, kann Vertex AI Ihre Daten automatisch in Trainings-, Validierungs- und Testsätze aufteilen, basierend auf angegebenen Fraktionen, Filtern, vordefinierten Aufteilungen oder Zeitstempeln. Das vereinfacht die Datenvorbereitung.
  • Dataset-Versionen verwenden: Verwaltete Datasets ermöglichen das Versionieren. So können Sie Änderungen an Ihren Daten im Zeitverlauf verfolgen und bei Bedarf zu früheren Versionen zurückkehren.

Spezifisch für Ray in Vertex AI

  • Wenn Sie ein verwaltetes Dataset in einer Vertex AI-Trainingspipeline verwenden, die Ray für verteiltes Training nutzt, werden die Daten aus dem verwalteten Dataset für die Trainingscontainer verfügbar gemacht, auf die Ihre Ray-Anwendung dann zugreifen kann (über bereitgestelltes Cloud Storage oder BigQuery, wenn das Dataset mit diesen Quellen verknüpft ist). Die Umgebungsvariablen AIP_TRAINING_DATA_URI, AIP_VALIDATION_DATA_URI und AIP_TEST_DATA_URI würden auf die Daten verweisen.

Weitere Informationen

BigQuery

  • Beim Herstellen einer Verbindung zu Daten in Vertex AI-Komponenten: Viele Vertex AI-Tools und ‑Dienste lassen sich direkt in BigQuery einbinden. Sie können Daten in BigQuery über JupyterLab abfragen. So können Sie direkt mit Ihren BigQuery-Daten für explorative Datenanalysen, Visualisierungen und die Modellentwicklung interagieren, ohne sie in ein anderes Speichersystem verschieben zu müssen.
  • Beim Erstellen von Trainingspipelines: Wenn Sie Trainingspipelines in Vertex AI erstellen, können Sie Daten direkt aus BigQuery verwenden. Eine Pipeline kann beispielsweise Daten aus BigQuery abrufen, vorverarbeiten und dann ein Modell trainieren.
  • Pipelines für kontinuierliches Modelltraining: Wenn Sie ein kontinuierliches Modelltraining einrichten möchten, können Sie Pipelineausführungen basierend auf neuen Daten auslösen, die in einer BigQuery-Tabelle ankommen. So lässt sich das erneute Trainieren von Modellen automatisieren. Sie können einen Eventarc-Trigger so konfigurieren, dass eine Pipeline gestartet wird, wenn ein neuer Job in eine bestimmte BigQuery-Tabelle eingefügt wird.
  • Modellüberwachung: BigQuery kann als Quelle zum Überwachen von Abweichungen und Abweichungen bei Ihren bereitgestellten Modellen verwendet werden. Für die Abweichungserkennung können Sie den BigQuery-URI Ihres Trainingsdatensatzes angeben. Außerdem können in BigQuery die Logs von Endpunkten für Online-Inferenzen gespeichert werden, die dann als Datenquelle für die kontinuierliche Überwachung verwendet werden können. Dazu sollte Ihre BigQuery-Tabelle idealerweise eine Zeitstempelspalte haben.
  • BigQuery ML-Integration: Sie können BigQuery-Datasets verwenden, wenn Sie BigQuery ML zum Erstellen von Machine-Learning-Modellen mit SQL nutzen. Vertex AI Workbench ermöglicht die interaktive explorative Analyse von BigQuery-Daten und die Verwendung von BigQuery ML in einer Notebookumgebung.
  • Explorative Datenanalyse und Vorbereitung: Vor dem Training können Sie Ihre Daten mit BigQuery untersuchen und visualisieren. Sie können Datentransformationen auch mit SQL-Abfragen direkt in BigQuery ausführen, bevor Sie die Daten für das Training verwenden.
  • Auf öffentliche Datasets zugreifen: In BigQuery werden viele öffentliche Datasets gehostet, z. B. das Dataset „Chicago Taxi Trips“, das Sie problemlos für Tests und Trainings in der Vertex AI Workbench verwenden können.

Spezifisch für Ray in Vertex AI

  • Ray in Vertex AI kann Daten direkt aus BigQuery lesen. Sie können das Vertex AI SDK für Python in einer Ray-Aufgabe verwenden, um BigQuery-Abfragen auszuführen und die Ergebnisse für die Verwendung in Ihren Ray-Anwendungen zu materialisieren.
  • Beachten Sie beim Lesen aus BigQuery die maximale Größe der Abfrageantwort, die 10 GB beträgt.
  • Mit dem Vertex AI SDK für Python können Sie Daten auch aus Ihren Ray-Anwendungen wieder in BigQuery schreiben.

Weitere Informationen