Cloud Storage come file system montato (Cloud Storage FUSE)
Valuta la possibilità di utilizzare Cloud Storage come file system montato (Cloud Storage FUSE) per i seguenti motivi:
Quando i dati di addestramento sono non strutturati, ad esempio immagini, testo o video:
Cloud Storage è la soluzione ideale per archiviare questi tipi di file di grandi dimensioni, spesso singoli.
Quando i dati di addestramento sono strutturati in formati come TFRecord, Cloud Storage viene spesso utilizzato per questi formati specifici per l'apprendimento automatico.
Quando lavori con file di dimensioni molto grandi: Cloud Storage FUSE trasmette i dati in streaming al tuo job di addestramento anziché richiedere il download dell'intero file nelle repliche. Ciò può comportare tempi di caricamento e avvio dei job più rapidi per set di dati di grandi dimensioni.
Quando esegui l'addestramento distribuito: Cloud Storage FUSE offre un'elevata velocità effettiva per le letture sequenziali di file di grandi dimensioni, il che è utile negli scenari di addestramento distribuito in cui più worker devono accedere ai dati in parallelo.
Quando preferisci la praticità di accedere ai dati di Cloud Storage come se si trattasse di un file system locale senza dover effettuare chiamate API esplicite nel codice di addestramento.
Quando la tua esigenza principale è lo spazio di archiviazione scalabile e ti preoccupi meno della latenza minima per l'accesso casuale a numerosi file di piccole dimensioni.
Specifiche per Ray su Vertex AI
Puoi archiviare i tuoi dati nei bucket Cloud Storage a cui Ray su Vertex AI può accedere.
Ray può leggere direttamente i dati da Cloud Storage. Ad esempio,
quando esegui Spark su Ray, puoi leggere i file
da Cloud Storage.
Vertex AI utilizza Cloud Storage FUSE per montare i bucket Cloud Storage come file system locali all'interno dei job di addestramento in esecuzione su Ray.
In questo modo, le applicazioni Ray possono accedere ai dati come se fossero su un disco locale utilizzando operazioni di I/O file standard.
Per prestazioni ottimali, ti consigliamo di utilizzare i bucket Cloud Storage nella stessa regione in cui esegui il cluster Ray.
Quando hai bisogno di un'elevata velocità effettiva e di un accesso a bassa latenza ai file remoti, come se fossero archiviati localmente. Questo può essere importante per determinati tipi di dati o interazioni complesse con i file durante l'addestramento.
Quando devi rendere immediatamente disponibili i file remoti per tutti i nodi di un cluster di calcolo, ad esempio un cluster Ray su Vertex AI.
Quando la tua applicazione beneficia di un'interfaccia del file system più standard con una compatibilità POSIX potenzialmente più elevata rispetto a Cloud Storage FUSE.
Nel tuo Virtual Private Cloud è già presente un'infrastruttura NFS che vuoi utilizzare.
Devi condividere file o directory su più job o cluster con accesso coerente e a bassa latenza e ti consigliamo di gestire le autorizzazioni a livello di file system.
Specifiche per Ray su Vertex AI
Puoi montare condivisioni NFS sul tuo cluster Ray su Vertex AI,
rendendo accessibili i file remoti come se fossero locali.
Questo è utile per l'accesso a bassa latenza e ad alta velocità effettiva ai file system condivisi.
Puoi configurare i mount NFS quando crei il cluster Ray utilizzando l'SDK Vertex AI per Python, specificando il server, il percorso e il punto di montaggio.
Una volta montato, il codice Ray può leggere e scrivere su questi volumi NFS utilizzando operazioni file standard.
Governance e gestione dei dati centralizzata: i set di dati gestiti forniscono un punto di riferimento centralizzato per organizzare e gestire i set di dati in Vertex AI. In questo modo, puoi monitorare e gestire gli asset di dati in diversi progetti ed esperimenti.
Etichettatura dei dati: puoi creare attività di etichettatura e gestire set di annotazioni direttamente nel set di dati gestito.
Monitoraggio della derivazione dei dati: i set di dati gestiti monitorano automaticamente la derivazione dei tuoi dati fino ai modelli addestrati su di essi. Questo è fondamentale per comprendere le origini dati utilizzate per modelli specifici e per garantire la riproducibilità e la governance.
Confronto tra modelli personalizzati e AutoML: i set di dati gestiti ti consentono di addestrare sia i modelli personalizzati sia i modelli AutoML utilizzando gli stessi dati.
In questo modo, puoi confrontare direttamente il loro rendimento nello stesso set di dati,
per scegliere l'approccio migliore per il tuo problema.
Generazione di statistiche e visualizzazioni dei dati: Vertex AI può
generare automaticamente statistiche e visualizzazioni per i dati all'interno di un
set di dati gestito. Ciò può essere utile per l'analisi esplorativa dei dati e aiutarti a comprendere le caratteristiche dei tuoi dati.
Suddivisione automatica dei dati: quando utilizzi set di dati gestiti nelle pipeline di addestramento,
Vertex AI può suddividere automaticamente i dati in set di addestramento, convalida e test in base a frazioni, filtri, suddivisioni predefinite o timestamp specificati. In questo modo, la procedura di preparazione dei dati viene semplificata.
Utilizzo delle versioni dei set di dati: i set di dati gestiti consentono il controllo delle versioni, che ti consente di monitorare le modifiche ai dati nel tempo e di ripristinare le versioni precedenti, se necessario.
Specifiche per Ray su Vertex AI
Se utilizzi un set di dati gestito in una pipeline di addestramento Vertex AI che utilizza Ray per l'addestramento distribuito, i dati del set di dati gestito vengono resi disponibili per i contenitori di addestramento, a cui la tua applicazione Ray può accedere (tramite Cloud Storage montato o
BigQuery se il set di dati è collegato a queste origini). Le variabili di ambiente AIP_TRAINING_DATA_URI, AIP_VALIDATION_DATA_URI e AIP_TEST_DATA_URI rimandano ai dati.
Quando ti colleghi ai dati all'interno dei componenti Vertex AI: molti strumenti e servizi Vertex AI si integrano direttamente con BigQuery. Puoi eseguire query sui dati in BigQuery da JupyterLab. In questo modo, puoi interagire direttamente con i dati di BigQuery per esplorazione, visualizzazione e sviluppo di modelli senza doverli spostare in un altro sistema di archiviazione.
Quando crei pipeline di addestramento: quando crei pipeline di addestramento in
Vertex AI, puoi utilizzare i dati direttamente da
BigQuery. Ad esempio, una pipeline può recuperare i dati da
BigQuery, pre-elaborarli e poi addestrare un modello.
Pipeline di addestramento continuo dei modelli: per configurare l'addestramento continuo dei modelli, puoi attivare l'esecuzione delle pipeline in base ai nuovi dati che arrivano in una tabella BigQuery. Ciò consente l'automazione del ricoinvolgimento del modello.
Puoi configurare un attivatore Eventarc per avviare una pipeline quando viene inserito un nuovo job in una tabella BigQuery specifica.
Monitoraggio dei modelli: BigQuery può essere utilizzato come origine per monitorare lo scostamento e la deriva delle funzionalità dei modelli di cui è stato eseguito il deployment. Per il rilevamento dello scostamento,
puoi specificare l'URI BigQuery del set di dati di addestramento.
Inoltre, BigQuery può archiviare i log degli endpoint di inferenza online, che possono essere utilizzati come origine dati per il monitoraggio continuo.
Per questo, la tabella BigQuery dovrebbe idealmente avere una colonna con timestamp.
Integrazione di BigQuery ML: puoi utilizzare i set di dati BigQuery quando utilizzi BigQuery ML per creare modelli di machine learning utilizzando SQL. Vertex AI Workbench consente di eseguire analisi esplorative interattive dei dati di BigQuery e di utilizzare BigQuery ML in un ambiente di notebook.
Esplorazione e preparazione dei dati: prima dell'addestramento, puoi utilizzare
BigQuery per esplorare e visualizzare i dati. Puoi anche eseguire trasformazioni dei dati utilizzando query SQL direttamente in BigQuery prima di utilizzare i dati per l'addestramento.
Accesso ai set di dati pubblici: BigQuery ospita molti set di dati pubblici, come il set di dati Chicago Taxi Trips, che puoi utilizzare facilmente per la sperimentazione e l'addestramento in Vertex AI Workbench.
Specifiche per Ray su Vertex AI
Ray su Vertex AI è in grado di leggere i dati direttamente da
BigQuery. Puoi utilizzare l'SDK Vertex AI per Python all'interno di un compito Ray per eseguire query BigQuery e materializzare i risultati per utilizzarli nelle tue applicazioni Ray.
Quando leggi da BigQuery, tieni presente le dimensioni massime della risposta
alla query, pari a 10 GB.
Puoi anche scrivere i dati delle tue applicazioni Ray in BigQuery utilizzando l'SDK Vertex AI per Python.
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Difficile da capire","hardToUnderstand","thumb-down"],["Informazioni o codice di esempio errati","incorrectInformationOrSampleCode","thumb-down"],["Mancano le informazioni o gli esempi di cui ho bisogno","missingTheInformationSamplesINeed","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2025-09-10 UTC."],[],[],null,["# Data preparation overview\n\nThere are several options for developing your training data.\n\n\u003cbr /\u003e\n\n- [Cloud Storage](#cloud-storage-fuse)\n- [Network File System](#network-file-system)\n- [Managed dataset](#managed-dataset)\n- [BigQuery](#bigquery)\n\nWhat choice you make depends on numerous factors.\n\nCloud Storage as a Mounted File System (Cloud Storage FUSE)\n-----------------------------------------------------------\n\nConsider using Cloud Storage as a Mounted File System (Cloud Storage FUSE)\nfor the following reasons:\n\n- When training data is unstructured, such as image, text, or video: Cloud Storage is a natural fit for storing these types of large, often individual files.\n- When training data is structured in formats like TFRecord: Cloud Storage is commonly used for these ML-specific formats.\n- When you are working with very large files: Cloud Storage FUSE streams the data to your training job instead of requiring the entire file to be downloaded to the replicas. This can lead to faster data loading and job start-up times for large datasets.\n- When performing distributed training: Cloud Storage FUSE provides high throughput for large file sequential reads, which is beneficial in distributed training scenarios where multiple workers need to access data in parallel.\n- When you prefer the convenience of accessing Cloud Storage data as if it were a local file system without needing to make explicit API calls in your training code.\n- When your primary need is scalable storage and you are less concerned about the very lowest latency for random access to numerous small files.\n\n### Specific to Ray on Vertex AI\n\n- You can store your data in Cloud Storage buckets, which Ray on Vertex AI can access.\n- Ray can directly read data from Cloud Storage. For example, when running [Spark on Ray](/vertex-ai/docs/open-source/ray-on-vertex-ai/run-spark-on-ray), you can read files from Cloud Storage.\n- Vertex AI uses Cloud Storage FUSE to mount Cloud Storage buckets as local file systems within your training jobs running on Ray. This lets your Ray applications access data as if it were on a local disk using standard file I/O operations.\n- For optimal performance, it's recommended that you use Cloud Storage buckets in the same region where you're running your Ray cluster.\n\n### Learn more\n\n- [Use Cloud Storage FUSE](/vertex-ai/docs/training/cloud-storage-file-system)\n\nNetwork File System (NFS) share\n-------------------------------\n\n- When you require very high throughput and low latency access to remote files, as if they were stored locally. This can be important for certain types of data or complex file interactions during training.\n- When you need to make remote files readily available to all nodes in a compute cluster, such as a Ray cluster on Vertex AI.\n- When your application benefits from a more standard file system interface with potentially stronger POSIX compliance compared to Cloud Storage FUSE.\n- You have an existing NFS infrastructure within your Virtual Private Cloud that you want to use.\n- You need to share files or directories across multiple jobs or clusters with consistent, low-latency access, and managing permissions at the file system level is preferred.\n\n### Specific to Ray on Vertex AI\n\n- You can mount NFS shares to your Ray cluster on Vertex AI, making remote files accessible as if they were local.\n- This is beneficial for high-throughput and low-latency access to shared file systems.\n- You can set up NFS mounts when creating your Ray cluster using the Vertex AI SDK for Python, specifying the server, path, and mount point. Once mounted, your Ray code can read and write to these NFS volumes using standard file operations.\n\n### Learn more\n\n- [Use NFS shares](/vertex-ai/docs/training/train-nfs-share)\n\nManaged dataset\n---------------\n\n- Centralized data management and governance: Managed datasets provide a central location to organize and manage your datasets within Vertex AI. This helps with tracking and governance of your data assets across different projects and experiments.\n- Data Labeling: You can create labeling tasks and manage annotation sets directly within the managed dataset.\n- Tracking Data Lineage: Managed datasets automatically track the lineage of your data to the models trained on it. This is crucial for understanding the data sources used for specific models and for ensuring reproducibility and governance.\n- Comparing Custom and AutoML Models: Managed datasets let you train both custom models and AutoML models using the same data. This facilitates a direct comparison of their performance on the same dataset, helping you choose the best approach for your problem.\n- Generating Data Statistics and Visualizations: Vertex AI can automatically generate statistics and visualizations for the data within a managed dataset. This can aid in exploratory data analysis and help you understand the characteristics of your data.\n- Automatic Data Splitting: When using managed datasets in training pipelines, Vertex AI can automatically split your data into training, validation, and test sets based on specified fractions, filters, predefined splits, or timestamps. This simplifies the data preparation process.\n- Utilizing Dataset Versions: Managed datasets enables versioning, which lets you to track changes to your data over time and revert to previous versions if needed.\n\n### Specific to Ray on Vertex AI\n\n- If you use a managed dataset in a Vertex AI training pipeline that utilizes Ray for distributed training, the data from the managed dataset is made available to the training containers, which your Ray application can then access (via mounted Cloud Storage or BigQuery if the dataset is linked to those sources). The environment variables `AIP_TRAINING_DATA_URI`, `AIP_VALIDATION_DATA_URI`, and `AIP_TEST_DATA_URI` would point to the data.\n\n### Learn more\n\n- [Use managed datasets](/vertex-ai/docs/training/using-managed-datasets)\n\nBigQuery\n--------\n\n- When connecting to data within Vertex AI components: Many Vertex AI tools and services directly integrate with BigQuery. You can query data in BigQuery from within JupyterLab. This lets you directly interact with your BigQuery data for exploration, visualization, and model development without needing to move it to another storage system.\n- When building training pipelines: When building training pipelines in Vertex AI, you can use data directly from BigQuery. For example, a pipeline can fetch data from BigQuery, preprocess it, and then train a model.\n- Continuous model training pipelines: For setting up continuous model training, you might trigger pipeline runs based on new data arriving in a BigQuery table. This enables automation of model retraining. You can configure an Eventarc trigger to initiate a pipeline when a new job is inserted into a specific BigQuery table.\n- Model monitoring: BigQuery can be used as a source for monitoring feature skew and drift of your deployed models. For skew detection, you can specify the BigQuery URI of your training dataset. Also, BigQuery can store the logs from online inference endpoints, which can then be used as a data source for continuous monitoring. For this, your BigQuery table should ideally have a timestamp column.\n- BigQuery ML integration: You can use BigQuery datasets when leveraging BigQuery ML for building machine learning models using SQL. Vertex AI Workbench enables interactive exploratory analysis of BigQuery data and the use of BigQuery ML within a notebook environment.\n- Data exploration and preparation: Before training, you can use BigQuery to explore and visualize your data. You can also perform data transformations using SQL queries directly in BigQuery before using the data for training.\n- Accessing public datasets: BigQuery hosts many public datasets, such as the Chicago Taxi Trips dataset, which you can readily use for experimentation and training in Vertex AI Workbench.\n\n### Specific to Ray on Vertex AI\n\n- Ray on Vertex AI has capabilities to read data directly from BigQuery. You can use the Vertex AI SDK for Python within a Ray task to execute BigQuery queries and materialize the results for use in your Ray applications.\n- When reading from BigQuery, be aware of the maximum query response size, which is 10 GB.\n- You can also write data from your Ray applications back to BigQuery using the Vertex AI SDK for Python.\n\n### Learn more\n\n- [Vertex AI for BigQuery users](/vertex-ai/docs/beginner/bqml)\n- [Build a pipeline for continuous model training](/vertex-ai/docs/pipelines/continuous-training-tutorial)\n- [Use Ray on Vertex AI with BigQuery](/vertex-ai/docs/open-source/ray-on-vertex-ai/bigquery-integration)"]]