Opzioni di archiviazione per i dati di Cloud TPU

Questo documento descrive le opzioni di archiviazione dei dati da utilizzare durante l'addestramento dei modelli su Cloud TPU.

Introduzione

Cloud TPU richiede l'archiviazione dei dati per:

  • download e pre-elaborazione di set di dati
  • elaborazione della pipeline di input host
  • input per l'addestramento del modello
  • output di addestramento del modello

Esistono cinque opzioni di archiviazione per i dati dell'applicazione Cloud TPU set di dati per l'addestramento:

Per dettagli su costi e prestazioni dell'archiviazione vedi Opzioni di archiviazione.

Il disco di avvio per una VM TPU

Per impostazione predefinita, ogni VM di Cloud TPU ha un disco permanente di avvio singolo da 100 GB che contiene il sistema operativo. Il disco di avvio può essere usato anche per archiviare scaricati set di dati per la pre-elaborazione e modellare i dati di input e output, forniti la quantità totale non supera lo spazio disponibile sul disco di avvio.

Se l'applicazione di addestramento richiede spazio di archiviazione aggiuntivo oltre l'avvio per impostazione predefinita, puoi aggiungere uno o più dischi permanenti alla VM o alla VM TPU in esecuzione in un'istanza Compute Engine. Esistono diverse procedure per aggiungere un disco permanente a un VM Compute Engine o a una VM TPU.

Un disco permanente collegato a una VM TPU.

I dischi permanenti sono reti durevoli di dispositivi di archiviazione a cui le istanze VM possono accedere come dischi fisici in un un computer desktop o un server. I dati su ciascun disco permanente sono distribuiti diversi dischi fisici. Compute Engine gestisce i dischi fisici la distribuzione dei dati per garantire ridondanza e prestazioni ottimali.

I dischi permanenti vengono creati in modo indipendente dalla macchina virtuale (VM) per conservare i dati anche dopo aver eliminato le istanze VM. Le prestazioni dei dischi permanenti scalano automaticamente in base alle dimensioni, quindi puoi ridimensionarle i dischi permanenti esistenti o aggiungine altri a un'istanza a soddisfare i requisiti di prestazioni e spazio di archiviazione.

I dischi permanenti sono dotati di ridondanza integrata per proteggere i dati dalle apparecchiature degli errori e di garantire la disponibilità dei dati tramite eventi di manutenzione dei data center. I checksum vengono calcolati per tutte le operazioni del disco permanente, in modo da poter che ciò che hai letto sia ciò che hai scritto.

Inoltre, puoi creare snapshot di dischi permanenti per evitare la perdita di dati dovuta a un errore dell'utente. Snapshot sono incrementali e la creazione richiede solo pochi minuti anche se crei snapshot dei dischi alle istanze in esecuzione.

Per ulteriori informazioni sull'utilizzo dei dischi permanenti con le VM TPU, consulta Aggiungi un disco permanente a una VM TPU.

Bucket Cloud Storage

I bucket Cloud Storage sono l'opzione di archiviazione più flessibile, scalabile e durevole per le tue istanze VM. Se il job di addestramento non richiede la latenza inferiore dei dischi permanenti, puoi archiviare il tuo set di dati in un bucket Cloud Storage.

Le prestazioni dei bucket Cloud Storage dipendono dalla classe di archiviazione selezionato e la località del bucket relativa alla tua istanza.

Crea il tuo bucket Cloud Storage nella stessa zona del tuo La VM TPU offre prestazioni paragonabili dischi permanenti, ma con latenza più elevata e velocità effettiva meno coerente caratteristiche.

Tutti i bucket Cloud Storage dispongono di ridondanza integrata per proteggere i dati contro i guasti delle apparecchiature e per garantirne la disponibilità. di manutenzione del centro. I checksum vengono calcolati per tutti i dati di Cloud Storage per assicurarti che ciò che hai letto corrisponda a quello che hai scritto.

A differenza dei dischi permanenti, i bucket Cloud Storage non sono limitati nella zona in cui si trova l'istanza. Inoltre, puoi leggere e scrivere in un bucket da più istanze contemporaneamente. Ad esempio, puoi configurare istanze in più zone per leggere e scrivere dati nello stesso bucket anziché replicare i dati su dischi permanenti in più zone.

Cloud Storage FUSE

Cloud Storage FUSE consente di montare e accedere ai bucket Cloud Storage come file system locali. Ciò consente alle applicazioni di leggere e scrivere oggetti del tuo bucket usando la semantica del file system standard.

Per ulteriori dettagli, consulta la documentazione di FUSE di Cloud Storage. sul funzionamento di Cloud Storage FUSE e una descrizione di come Cloud Storage Le operazioni di FUSE sono mappate alle operazioni di Cloud Storage. Puoi trovare ulteriori sull'utilizzo di Cloud Storage FUSE, ad esempio come installare Interfaccia a riga di comando di Cloud Storage FUSE e montaggio dei bucket su GitHub.

Condivisione file Filestore

La condivisione di file Filestore è una funzionalità NAS (Network Attached Storage) gestito per Compute Engine. Filestore offre compatibilità con le applicazioni aziendali esistenti e supporta compatibile con NFSv3.

Filestore offre una bassa latenza per i file operazioni. Per i carichi di lavoro sensibili alla latenza, Filestore supporta fino a 100 TB e una velocità effettiva di 25 GB al secondo e 720.000 IOPS, con una variazione minima delle prestazioni.

Con Filestore, puoi montare le condivisioni file sulle VM TPU.

Passaggi successivi