Welche Wahl Sie treffen, hängt von zahlreichen Faktoren ab.
Cloud Storage als bereitgestelltes Dateisystem (Cloud Storage FUSE)
Die Verwendung von Cloud Storage als bereitgestelltes Dateisystem (Cloud Storage FUSE) bietet folgende Vorteile:
Wenn die Trainingsdaten unstrukturiert sind, z. B. Bilder, Text oder Videos:
Cloud Storage eignet sich hervorragend zum Speichern dieser Art von großen, oft einzelnen Dateien.
Wenn Trainingsdaten in Formaten wie TFRecord strukturiert sind: Cloud Storage wird häufig für diese ML-spezifischen Formate verwendet.
Bei der Arbeit mit sehr großen Dateien: Cloud Storage FUSE streamt die Daten an Ihren Trainingsjob, anstatt dass die gesamte Datei in die Repliken heruntergeladen werden muss. Dies kann zu einem schnelleren Datenladen und kürzeren Jobstartzeiten bei großen Datenmengen führen.
Bei verteiltem Training: Cloud Storage FUSE bietet einen hohen Durchsatz für sequenzielle Lesevorgänge großer Dateien. Das ist in Szenarien mit verteiltem Training von Vorteil, in denen mehrere Arbeitsabläufe parallel auf Daten zugreifen müssen.
Wenn Sie auf Cloud Storage-Daten zugreifen möchten, als ob es sich um ein lokales Dateisystem handeln würde, ohne explizite API-Aufrufe in Ihrem Trainingscode ausführen zu müssen.
Wenn Sie in erster Linie skalierbaren Speicher benötigen und sich weniger um die niedrigste Latenz für den Zufallszugriff auf zahlreiche kleine Dateien kümmern.
Spezifisch für Ray in Vertex AI
Sie können Ihre Daten in Cloud Storage-Buckets speichern, auf die Ray in Vertex AI zugreifen kann.
Ray kann Daten direkt aus Cloud Storage lesen. Wenn Sie beispielsweise Spark on Ray ausführen, können Sie Dateien aus Cloud Storage lesen.
Vertex AI verwendet Cloud Storage FUSE, um Cloud Storage-Buckets als lokale Dateisysteme in Ihren Trainingsjobs bereitzustellen, die auf Ray ausgeführt werden.
So können Ihre Ray-Anwendungen mithilfe standardmäßiger Datei-I/O-Vorgänge auf Daten zugreifen, als wären sie auf einem lokalen Laufwerk.
Für eine optimale Leistung wird empfohlen, Cloud Storage-Buckets in derselben Region zu verwenden, in der Sie Ihren Ray-Cluster ausführen.
Wenn Sie einen sehr hohen Durchsatz und einen Zugriff auf Remotedateien mit niedriger Latenz benötigen, als ob sie lokal gespeichert wären. Dies kann für bestimmte Datentypen oder komplexe Dateiinteraktionen während des Trainings wichtig sein.
Wenn Sie Remotedateien für alle Knoten in einem Rechencluster verfügbar machen möchten, z. B. für einen Ray-Cluster in Vertex AI.
Wenn Ihre Anwendung von einer standardmäßigeren Dateisystemoberfläche mit einer potenziell stärkeren POSIX-Compliance im Vergleich zu Cloud Storage FUSE profitiert.
Sie haben eine vorhandene NFS-Infrastruktur in Ihrer Virtual Private Cloud, die Sie verwenden möchten.
Sie müssen Dateien oder Verzeichnisse für mehrere Jobs oder Cluster mit konsistentem Zugriff bei niedriger Latenz freigeben. Es wird empfohlen, Berechtigungen auf Dateisystemebene zu verwalten.
Spezifisch für Ray in Vertex AI
Sie können NFS-Freigaben auf Ihrem Ray-Cluster in Vertex AI bereitstellen, um Remotedateien so zugänglich zu machen, als wären sie lokal.
Dies ist von Vorteil für den Zugriff auf freigegebene Dateisysteme mit hohem Durchsatz und niedriger Latenz.
Sie können NFS-Anschlüsse beim Erstellen Ihres Ray-Clusters mit dem Vertex AI SDK für Python einrichten, indem Sie den Server, den Pfad und den Bereitstellungspunkt angeben.
Nach dem Bereitstellen kann Ihr Ray-Code mithilfe von Standarddateivorgänge auf diese NFS-Volumes lesen und darauf schreiben.
Zentrale Datenverwaltung und -governance: Verwaltete Datasets bieten einen zentralen Ort, an dem Sie Ihre Datasets in Vertex AI organisieren und verwalten können. So können Sie Ihre Daten-Assets in verschiedenen Projekten und Tests nachverfolgen und verwalten.
Datenlabelung: Sie können Labeling-Aufgaben erstellen und Anmerkungssätze direkt im verwalteten Dataset verwalten.
Datenabstammung verfolgen: Bei verwalteten Datasets wird die Abstammung Ihrer Daten automatisch bis zu den damit trainierten Modellen zurückverfolgt. Dies ist entscheidend, um die für bestimmte Modelle verwendeten Datenquellen zu verstehen und Reproduzierbarkeit und Governance zu gewährleisten.
Benutzerdefinierte und AutoML-Modelle vergleichen: Mit verwalteten Datasets können Sie sowohl benutzerdefinierte als auch AutoML-Modelle mit denselben Daten trainieren.
So lässt sich die Leistung der einzelnen Modelle auf demselben Datensatz direkt vergleichen und Sie können den besten Ansatz für Ihr Problem auswählen.
Generieren von Datenstatistiken und Visualisierungen: Mit Vertex AI können automatisch Statistiken und Visualisierungen für die Daten in einem verwalteten Dataset generiert werden. Dies kann bei explorativer Datenanalyse helfen und Ihnen dabei helfen, die Merkmale Ihrer Daten zu verstehen.
Automatische Datenaufteilung: Wenn Sie verwaltete Datasets in Trainingspipelines verwenden, kann Vertex AI Ihre Daten automatisch in Trainings-, Validierungs- und Testsätze aufteilen, basierend auf angegebenen Fraktionen, Filtern, vordefinierten Aufteilungen oder Zeitstempeln. Das vereinfacht die Datenvorbereitung.
Dataset-Versionen verwenden: Verwaltete Datasets ermöglichen das Versionieren. So können Sie Änderungen an Ihren Daten im Zeitverlauf verfolgen und bei Bedarf zu früheren Versionen zurückkehren.
Spezifisch für Ray in Vertex AI
Wenn Sie ein verwaltetes Dataset in einer Vertex AI-Trainingspipeline verwenden, die Ray für verteiltes Training nutzt, werden die Daten aus dem verwalteten Dataset für die Trainingscontainer verfügbar gemacht, auf die Ihre Ray-Anwendung dann zugreifen kann (über bereitgestelltes Cloud Storage oder BigQuery, wenn das Dataset mit diesen Quellen verknüpft ist). Die Umgebungsvariablen AIP_TRAINING_DATA_URI, AIP_VALIDATION_DATA_URI und AIP_TEST_DATA_URI würden auf die Daten verweisen.
Beim Herstellen einer Verbindung zu Daten in Vertex AI-Komponenten: Viele Vertex AI-Tools und ‑Dienste lassen sich direkt in BigQuery einbinden. Sie können Daten in BigQuery über JupyterLab abfragen. So können Sie direkt mit Ihren BigQuery-Daten für explorative Datenanalysen, Visualisierungen und die Modellentwicklung interagieren, ohne sie in ein anderes Speichersystem verschieben zu müssen.
Beim Erstellen von Trainingspipelines: Wenn Sie Trainingspipelines in Vertex AI erstellen, können Sie Daten direkt aus BigQuery verwenden. Eine Pipeline kann beispielsweise Daten aus BigQuery abrufen, vorverarbeiten und dann ein Modell trainieren.
Pipelines für kontinuierliches Modelltraining: Wenn Sie ein kontinuierliches Modelltraining einrichten möchten, können Sie Pipelineausführungen basierend auf neuen Daten auslösen, die in einer BigQuery-Tabelle ankommen. So lässt sich das erneute Trainieren von Modellen automatisieren.
Sie können einen Eventarc-Trigger so konfigurieren, dass eine Pipeline gestartet wird, wenn ein neuer Job in eine bestimmte BigQuery-Tabelle eingefügt wird.
Modellüberwachung: BigQuery kann als Quelle zum Überwachen von Abweichungen und Abweichungen bei Ihren bereitgestellten Modellen verwendet werden. Für die Abweichungserkennung können Sie den BigQuery-URI Ihres Trainingsdatensatzes angeben.
Außerdem können in BigQuery die Logs von Endpunkten für Online-Inferenzen gespeichert werden, die dann als Datenquelle für die kontinuierliche Überwachung verwendet werden können.
Dazu sollte Ihre BigQuery-Tabelle idealerweise eine Zeitstempelspalte haben.
BigQuery ML-Integration: Sie können BigQuery-Datasets verwenden, wenn Sie BigQuery ML zum Erstellen von Machine-Learning-Modellen mit SQL nutzen. Vertex AI Workbench ermöglicht die interaktive explorative Analyse von BigQuery-Daten und die Verwendung von BigQuery ML in einer Notebookumgebung.
Explorative Datenanalyse und Vorbereitung: Vor dem Training können Sie Ihre Daten mit BigQuery untersuchen und visualisieren. Sie können Datentransformationen auch mit SQL-Abfragen direkt in BigQuery ausführen, bevor Sie die Daten für das Training verwenden.
Auf öffentliche Datasets zugreifen: In BigQuery werden viele öffentliche Datasets gehostet, z. B. das Dataset „Chicago Taxi Trips“, das Sie problemlos für Tests und Trainings in der Vertex AI Workbench verwenden können.
Spezifisch für Ray in Vertex AI
Ray in Vertex AI kann Daten direkt aus BigQuery lesen. Sie können das Vertex AI SDK für Python in einer Ray-Aufgabe verwenden, um BigQuery-Abfragen auszuführen und die Ergebnisse für die Verwendung in Ihren Ray-Anwendungen zu materialisieren.
Beachten Sie beim Lesen aus BigQuery die maximale Größe der Abfrageantwort, die 10 GB beträgt.
Mit dem Vertex AI SDK für Python können Sie Daten auch aus Ihren Ray-Anwendungen wieder in BigQuery schreiben.
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Schwer verständlich","hardToUnderstand","thumb-down"],["Informationen oder Beispielcode falsch","incorrectInformationOrSampleCode","thumb-down"],["Benötigte Informationen/Beispiele nicht gefunden","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2025-09-10 (UTC)."],[],[],null,["# Data preparation overview\n\nThere are several options for developing your training data.\n\n\u003cbr /\u003e\n\n- [Cloud Storage](#cloud-storage-fuse)\n- [Network File System](#network-file-system)\n- [Managed dataset](#managed-dataset)\n- [BigQuery](#bigquery)\n\nWhat choice you make depends on numerous factors.\n\nCloud Storage as a Mounted File System (Cloud Storage FUSE)\n-----------------------------------------------------------\n\nConsider using Cloud Storage as a Mounted File System (Cloud Storage FUSE)\nfor the following reasons:\n\n- When training data is unstructured, such as image, text, or video: Cloud Storage is a natural fit for storing these types of large, often individual files.\n- When training data is structured in formats like TFRecord: Cloud Storage is commonly used for these ML-specific formats.\n- When you are working with very large files: Cloud Storage FUSE streams the data to your training job instead of requiring the entire file to be downloaded to the replicas. This can lead to faster data loading and job start-up times for large datasets.\n- When performing distributed training: Cloud Storage FUSE provides high throughput for large file sequential reads, which is beneficial in distributed training scenarios where multiple workers need to access data in parallel.\n- When you prefer the convenience of accessing Cloud Storage data as if it were a local file system without needing to make explicit API calls in your training code.\n- When your primary need is scalable storage and you are less concerned about the very lowest latency for random access to numerous small files.\n\n### Specific to Ray on Vertex AI\n\n- You can store your data in Cloud Storage buckets, which Ray on Vertex AI can access.\n- Ray can directly read data from Cloud Storage. For example, when running [Spark on Ray](/vertex-ai/docs/open-source/ray-on-vertex-ai/run-spark-on-ray), you can read files from Cloud Storage.\n- Vertex AI uses Cloud Storage FUSE to mount Cloud Storage buckets as local file systems within your training jobs running on Ray. This lets your Ray applications access data as if it were on a local disk using standard file I/O operations.\n- For optimal performance, it's recommended that you use Cloud Storage buckets in the same region where you're running your Ray cluster.\n\n### Learn more\n\n- [Use Cloud Storage FUSE](/vertex-ai/docs/training/cloud-storage-file-system)\n\nNetwork File System (NFS) share\n-------------------------------\n\n- When you require very high throughput and low latency access to remote files, as if they were stored locally. This can be important for certain types of data or complex file interactions during training.\n- When you need to make remote files readily available to all nodes in a compute cluster, such as a Ray cluster on Vertex AI.\n- When your application benefits from a more standard file system interface with potentially stronger POSIX compliance compared to Cloud Storage FUSE.\n- You have an existing NFS infrastructure within your Virtual Private Cloud that you want to use.\n- You need to share files or directories across multiple jobs or clusters with consistent, low-latency access, and managing permissions at the file system level is preferred.\n\n### Specific to Ray on Vertex AI\n\n- You can mount NFS shares to your Ray cluster on Vertex AI, making remote files accessible as if they were local.\n- This is beneficial for high-throughput and low-latency access to shared file systems.\n- You can set up NFS mounts when creating your Ray cluster using the Vertex AI SDK for Python, specifying the server, path, and mount point. Once mounted, your Ray code can read and write to these NFS volumes using standard file operations.\n\n### Learn more\n\n- [Use NFS shares](/vertex-ai/docs/training/train-nfs-share)\n\nManaged dataset\n---------------\n\n- Centralized data management and governance: Managed datasets provide a central location to organize and manage your datasets within Vertex AI. This helps with tracking and governance of your data assets across different projects and experiments.\n- Data Labeling: You can create labeling tasks and manage annotation sets directly within the managed dataset.\n- Tracking Data Lineage: Managed datasets automatically track the lineage of your data to the models trained on it. This is crucial for understanding the data sources used for specific models and for ensuring reproducibility and governance.\n- Comparing Custom and AutoML Models: Managed datasets let you train both custom models and AutoML models using the same data. This facilitates a direct comparison of their performance on the same dataset, helping you choose the best approach for your problem.\n- Generating Data Statistics and Visualizations: Vertex AI can automatically generate statistics and visualizations for the data within a managed dataset. This can aid in exploratory data analysis and help you understand the characteristics of your data.\n- Automatic Data Splitting: When using managed datasets in training pipelines, Vertex AI can automatically split your data into training, validation, and test sets based on specified fractions, filters, predefined splits, or timestamps. This simplifies the data preparation process.\n- Utilizing Dataset Versions: Managed datasets enables versioning, which lets you to track changes to your data over time and revert to previous versions if needed.\n\n### Specific to Ray on Vertex AI\n\n- If you use a managed dataset in a Vertex AI training pipeline that utilizes Ray for distributed training, the data from the managed dataset is made available to the training containers, which your Ray application can then access (via mounted Cloud Storage or BigQuery if the dataset is linked to those sources). The environment variables `AIP_TRAINING_DATA_URI`, `AIP_VALIDATION_DATA_URI`, and `AIP_TEST_DATA_URI` would point to the data.\n\n### Learn more\n\n- [Use managed datasets](/vertex-ai/docs/training/using-managed-datasets)\n\nBigQuery\n--------\n\n- When connecting to data within Vertex AI components: Many Vertex AI tools and services directly integrate with BigQuery. You can query data in BigQuery from within JupyterLab. This lets you directly interact with your BigQuery data for exploration, visualization, and model development without needing to move it to another storage system.\n- When building training pipelines: When building training pipelines in Vertex AI, you can use data directly from BigQuery. For example, a pipeline can fetch data from BigQuery, preprocess it, and then train a model.\n- Continuous model training pipelines: For setting up continuous model training, you might trigger pipeline runs based on new data arriving in a BigQuery table. This enables automation of model retraining. You can configure an Eventarc trigger to initiate a pipeline when a new job is inserted into a specific BigQuery table.\n- Model monitoring: BigQuery can be used as a source for monitoring feature skew and drift of your deployed models. For skew detection, you can specify the BigQuery URI of your training dataset. Also, BigQuery can store the logs from online inference endpoints, which can then be used as a data source for continuous monitoring. For this, your BigQuery table should ideally have a timestamp column.\n- BigQuery ML integration: You can use BigQuery datasets when leveraging BigQuery ML for building machine learning models using SQL. Vertex AI Workbench enables interactive exploratory analysis of BigQuery data and the use of BigQuery ML within a notebook environment.\n- Data exploration and preparation: Before training, you can use BigQuery to explore and visualize your data. You can also perform data transformations using SQL queries directly in BigQuery before using the data for training.\n- Accessing public datasets: BigQuery hosts many public datasets, such as the Chicago Taxi Trips dataset, which you can readily use for experimentation and training in Vertex AI Workbench.\n\n### Specific to Ray on Vertex AI\n\n- Ray on Vertex AI has capabilities to read data directly from BigQuery. You can use the Vertex AI SDK for Python within a Ray task to execute BigQuery queries and materialize the results for use in your Ray applications.\n- When reading from BigQuery, be aware of the maximum query response size, which is 10 GB.\n- You can also write data from your Ray applications back to BigQuery using the Vertex AI SDK for Python.\n\n### Learn more\n\n- [Vertex AI for BigQuery users](/vertex-ai/docs/beginner/bqml)\n- [Build a pipeline for continuous model training](/vertex-ai/docs/pipelines/continuous-training-tutorial)\n- [Use Ray on Vertex AI with BigQuery](/vertex-ai/docs/open-source/ray-on-vertex-ai/bigquery-integration)"]]