Archiviazione di file su Compute Engine

Last reviewed 2024-11-07 UTC

L'archiviazione file, nota anche come NAS (Network Attached Storage), fornisce alle applicazioni accesso a livello di file per leggere e aggiornare le informazioni che possono essere condivise su più macchine. Alcune soluzioni di archiviazione file on-premise hanno un'architettura a scalabilità verticale e aggiungono semplicemente spazio di archiviazione a una quantità fissa di risorse di calcolo. Altre soluzioni di archiviazione dei file hanno un'architettura scalabile in cui la capacità e il calcolo (prestazioni) possono essere aggiunti in modo incrementale a un file system esistente in base alle esigenze. In entrambe le architetture di archiviazione, una o più macchine virtuali (VM) possono accedere allo spazio di archiviazione.

Sebbene alcuni file system utilizzino un client POSIX nativo, molti sistemi di archiviazione utilizzano un protocollo che consente alle macchine client di montare un file system e accedere ai file come se fossero ospitati localmente. I protocolli più comuni per l'esportazione delle condivisioni file sono Network File System (NFS) per Linux (e in alcuni casi Windows) e Server Message Block (SMB) per Windows.

Questo documento descrive le seguenti opzioni per la condivisione dei file:

Un fattore alla base delle prestazioni e della prevedibilità di tutti i servizi Google Cloud è lo stack di rete sviluppato da Google nel corso di molti anni. Con Jupiter Fabric, Google ha creato uno stack di rete solido, scalabile e stabile che può continuare a evolversi senza influire sui tuoi carichi di lavoro. Man mano che Google migliora e rafforza le sue funzionalità di rete internamente, la tua soluzione di condivisione file trae vantaggio dal miglioramento delle prestazioni.

Una funzionalità di Google Cloud che può aiutarti a ottenere il massimo dal tuo investimento è la possibilità di specificare tipi di VM personalizzate. Quando scegli le dimensioni del filer, puoi scegliere esattamente la combinazione ottimale di memoria e CPU, in modo che il filer funzioni con prestazioni ottimali senza essere sovrascritto.

Inoltre, è importante scegliere la capacità disco permanente e il numero di vCPU di Compute Engine corretti per assicurarti che i dispositivi di archiviazione del file server ricevano la larghezza di banda di archiviazione e le IOPS richieste, nonché la larghezza di banda di rete. Una VM riceve 2 Gbps di velocità effettiva di rete per ogni vCPU (fino al massimo). Per ottimizzare il disco permanente, consulta Ottimizzazione delle prestazioni dei dischi permanenti e degli SSD locali.

Tieni presente che Cloud Storage è anche un ottimo modo per archiviare petabyte di dati con elevati livelli di redundanza a basso costo, ma Cloud Storage ha un profilo di prestazioni e un'API diversi rispetto ai file server discussi qui.

Riepilogo delle soluzioni per file server

La tabella seguente riassume le soluzioni e le funzionalità dei file server:

Soluzione Set di dati ottimale Velocità effettiva Assistenza gestita Protocolli di esportazione
Filestore Basic Da 1 TiB a 64 TiB Fino a 1,2 GiB/s Completamente gestito da Google NFSv3
Filestore Zonal Da 1 TiB a 100 TiB Fino a 26 GiB/s Completamente gestito da Google NFSv4.1
Filestore a livello di regione Da 1 TiB a 100 TiB Fino a 26 GiB/s Completamente gestito da Google NFSv4.1
Google Cloud NetApp Volumes Da 1 GiB a 100 TiB MB/s a 4,5 GiB/s Completamente gestito da Google NFSv3, NFSv4.1, SMB2, SMB3
NetApp Cloud Volumes ONTAP Da 1 GiB a 1 PiB varia Gestita dal cliente NFSv3, NFSv4.1, SMB2, SMB3, iSCSI
Nasuni Da decine di TB a più di 1 PB Fino a 1,2 Gbps Gestita da Nasuni e dal cliente NFSv3, NFSv4, NFSv4.1, NFSv4.2, SMB2, SMB3
Persistent Disk di sola lettura < 64 TB Da 240 a 1200 MB/s No Collegamento diretto

Persistent Disk e SSD locale

Se hai dati a cui deve accedere solo una singola VM o che non cambiano nel tempo, puoi utilizzare i volumi di dischi permanenti Compute Engine ed evitare del tutto un file server. Con i dischi permanenti, puoi formattarli con un file system come Ext4 o XFS e collegare i volumi in modalità di lettura e scrittura o di sola lettura. Ciò significa che puoi prima collegare un volume a un'istanza, caricarlo con i dati necessari e poi collegarlo come disco di sola lettura a centinaia di VM contemporaneamente. L'utilizzo di dischi permanenti di sola lettura non funziona per tutti i casi d'uso, ma può ridurre notevolmente la complessità rispetto all'utilizzo di un file server.

I dischi permanenti offrono prestazioni costanti. Tutti i dischi delle stesse dimensioni (e per i dischi permanenti SSD, lo stesso numero di vCPU) che colleghi alla tua istanza hanno le stesse caratteristiche di prestazioni. Non è necessario preriscaldare o testare i dischi permanenti prima di utilizzarli in produzione.

Il costo dei dischi permanenti è facile da determinare perché non ci sono costi di I/O da considerare dopo il provisioning del volume. I dischi permanenti possono anche essere ridimensionati se necessario. In questo modo puoi iniziare con un volume a basso costo e bassa capacità e non devi creare istanze o dischi aggiuntivi per scalare la capacità.

Se la capacità di archiviazione totale è il requisito principale, puoi utilizzare dischi permanenti standard a basso costo. Per ottenere le migliori prestazioni mantenendo la durata, puoi utilizzare i dischi permanenti SSD.

Se i tuoi dati sono temporanei e richiedono una latenza inferiore al millisecondo e un elevato numero di operazioni IOPS al secondo, puoi sfruttare fino a 9 TB di SSD locali per prestazioni estreme. Le unità SSD locali forniscono GBps di larghezza di banda e milioni di IOPS, il tutto senza utilizzare la larghezza di banda di rete allocata alle tue istanze. È tuttavia importante ricordare che le unità SSD locali presentano alcuni compromessi in termini di disponibilità, durata e flessibilità.

Per un confronto dei molti tipi di dischi disponibili per le istanze Compute Engine, consulta la documentazione per lo spazio di archiviazione a blocchi.

Considerazioni per la scelta di una soluzione di archiviazione dei file

La scelta di una soluzione di archiviazione dei file richiede di fare dei compromessi in termini di gestione, costi, prestazioni e scalabilità. Prendere la decisione è più facile se hai un carico di lavoro ben definito, il che non è spesso il caso. Se i carichi di lavoro si evolvono nel tempo o sono molto variabili, è consigliabile scambiare i risparmi sui costi con flessibilità ed elasticità, in modo da poter crescere con la tua soluzione. D'altra parte, se hai un workload temporaneo e ben noto, puoi creare un'architettura di archiviazione file appositamente progettata che puoi smantellare e ricostruire per soddisfare le tue immediate esigenze di archiviazione.

Una delle prime decisioni da prendere è se vuoi pagare per un servizio di archiviazione gestito, una soluzione che include l'assistenza per il prodotto o una soluzione non supportata.

  • I servizi di archiviazione di file gestiti sono i più semplici da utilizzare, perché tutte le operazioni vengono gestite da Google o da un partner. Questi servizi potrebbero persino fornire un accordo sul livello del servizio (SLA) per la disponibilità, come la maggior parte degli altri servizi Google Cloud.
  • Le soluzioni non gestite, ma supportate, offrono ulteriore flessibilità. I partner possono aiutarti in caso di problemi, ma il funzionamento quotidiano della soluzione di archiviazione è lasciato all'utente.
  • Le soluzioni non supportate richiedono il massimo impegno per il deployment e la manutenzione, lasciando tutti i problemi all'utente. Queste soluzioni non sono coperte da questo documento.

La decisione successiva consiste nel determinare i requisiti di durata e disponibilità della soluzione. La maggior parte delle soluzioni per i file sono soluzioni zonali e non forniscono protezione per impostazione predefinita in caso di errore nella zona. È quindi importante valutare se è necessaria una soluzione di ripristino di emergenza (RE) che protegga da eventuali errori a livello di zona. È inoltre importante comprendere i requisiti dell'applicazione per la durata e la disponibilità. Ad esempio, la scelta di unità SSD locali o dischi permanenti nel deployment ha un impatto significativo, così come la configurazione del software della soluzione di file. Ogni soluzione richiede un'attenta pianificazione per ottenere un'elevata durabilità, disponibilità e persino protezione contro i guasti a livello di zona e regione.

Infine, prendi in considerazione le località (ad es. zone, regioni, data center on-premise) in cui devi accedere ai dati. Le località delle farm di calcolo che accedono ai tuoi dati influiscono sulla scelta della soluzione di filer perché solo alcune soluzioni consentono l'accesso ibrido on-premise e in cloud.

Soluzioni di archiviazione file gestite

Questa sezione descrive le soluzioni gestite da Google per l'archiviazione dei file.

Filestore Basic

Filestore è la soluzione NAS completamente gestita di Google.

Le istanze Filestore Basic sono adatte per la condivisione di file, lo sviluppo di software e i carichi di lavoro GKE. Puoi scegliere tra HDD o SSD per l'archiviazione dei dati. L'SSD offre prestazioni migliori. Con entrambe le opzioni, la capacità aumenta in modo incrementale e puoi proteggere i dati utilizzando i backup.

Filestore Zonal

Filestore Zonal semplifica la gestione dei dati e dell'archiviazione aziendale su Google Cloud e su cloud ibridi. Filestore Zonal offre accesso parallelo economicamente conveniente e ad alte prestazioni ai dati globali, mantenendo al contempo una consistenza rigorosa grazie a un file system distribuito e scalabile dinamicamente. Con Filestore Zonal, le applicazioni NFS esistenti e i flussi di lavoro NAS possono essere eseguiti nel cloud senza richiedere il refactoring, pur mantenendo i vantaggi dei servizi di dati aziendali (ad esempio snapshot e backup). Il driver CSI Filestore consente la persistenza, la portabilità e la condivisione dei dati senza interruzioni per i carichi di lavoro con contenitori.

Puoi scalare le istanze zonali di Filestore in base alle esigenze. In questo modo, puoi creare ed espandere l'infrastruttura del file system in base alle esigenze, assicurandoti che le prestazioni e la capacità dello spazio di archiviazione siano sempre in linea con i requisiti del tuo flusso di lavoro dinamico. Man mano che un cluster zonale Filestore si espande, sia le prestazioni dei metadati che quelle di I/O aumentano in modo lineare. Questa scalabilità ti consente di migliorare e accelerare una vasta gamma di flussi di lavoro che richiedono un uso intensivo dei dati, tra cui computing ad alte prestazioni, analisi, aggregazione di dati tra siti, DevOps e molti altri. Di conseguenza, Filestore Zonal è ideale per l'utilizzo in settori incentrati sui dati come le scienze biologiche (ad esempio la sequenziazione del genoma), i servizi finanziari e i media e l'intrattenimento.

Filestore a livello di regione

Filestore Regional è una soluzione NFS cloud-native completamente gestita che ti consente di eseguire il deployment di applicazioni basate su file critiche in Google Cloud, supportata da uno SLA che garantisce una disponibilità a livello di regione del 99,99%. Con un SLA (accordo sul livello del servizio) con disponibilità a livello di area geografica del 99,99%, Filestore Regional è progettato per le applicazioni che richiedono un'alta disponibilità. Con pochi clic del mouse (o con alcuni comandi gcloud o chiamate API), puoi eseguire il provisioning delle condivisioni NFS che vengono replicate in modo sincrono su tre zone all'interno di una regione. Se una zona all'interno della regione diventa non disponibile, Filestore Regional continua a fornire in modo trasparente i dati all'applicazione senza alcun intervento operativo da parte tua.

Per proteggere ulteriormente i dati critici, Filestore ti consente anche di acquisire e conservare snapshot periodici del file system. Con Filestore, puoi recuperare un singolo file o un intero file system in meno di 10 minuti da uno dei punti di recupero precedenti.

Per le applicazioni critiche come SAP, sia i livelli di database che di applicazione devono essere di alta disponibilità. Per soddisfare questo requisito, puoi eseguire il deployment del livello del database SAP su Google Cloud Hyperdisk Extreme in più zone utilizzando l'alta disponibilità del database integrata. Analogamente, il livello di applicazione NetWeaver, che richiede eseguibili condivisi su molte VM, può essere implementato in Filestore Regional, che replica i dati di Netweaver in più zone all'interno di una regione. Il risultato finale è un'architettura di applicazioni mission-critical a tre livelli altamente disponibile.

Inoltre, le organizzazioni IT eseguono sempre più spesso il deployment di applicazioni stateful in contenuti su Google Kubernetes Engine (GKE). Spesso questo li porta a ripensare all'infrastruttura di archiviazione da utilizzare per supportare queste applicazioni. Puoi utilizzare lo spazio di archiviazione a blocchi (Persistent Disk), lo spazio di archiviazione di file (Filestore Basic, zonale o regionale) o lo spazio di archiviazione di oggetti (Cloud Storage). Filestore Multishares per GKE combinato con il driver CSI Filestore consente alle organizzazioni che richiedono più pod GKE di avere accesso ai file condivisi, fornendo un livello più elevato di disponibilità per i carichi di lavoro mission-critical.

NetApp Volumes

NetApp Volumes è un servizio Google completamente gestito che ti consente di montare rapidamente l'archiviazione di file condivisa sulle tue istanze di calcolo Google Cloud. NetApp Volumes supporta l'accesso SMB, NFS e multiprotocollo. NetApp Volumes offre alle tue applicazioni prestazioni elevate a bassa latenza, con solide funzionalità di protezione dei dati: snapshot, copie, replica tra regioni e backup. Il servizio è adatto per le applicazioni che richiedono carichi di lavoro sia sequenziali che casuali, che possono essere scalati su centinaia o migliaia di istanze Compute Engine. In pochi secondi, è possibile eseguire il provisioning e proteggere i volumi con dimensioni che vanno da 100 GiB a 100 TiB con funzionalità di protezione dei dati efficaci. Con tre livelli di servizio (Standard, Premium ed Extreme) che puoi modificare in base alle tue esigenze, NetApp Volumes offre le prestazioni appropriate per il tuo carico di lavoro, senza influire sulla disponibilità. Per informazioni sulle località di Google Cloud in cui è disponibile NetApp Volumes, consulta Località di NetApp Volumes.

Soluzioni partner in Cloud Marketplace

Le seguenti soluzioni fornite dai partner sono disponibili in Cloud Marketplace.

NetApp Cloud Volumes ONTAP

NetApp Cloud Volumes ONTAP (NetApp CVO) è una soluzione basata su cloud gestita dal cliente che offre a Google Cloud l'intera gamma di funzionalità di ONTAP, il sistema operativo di gestione dei dati leader di NetApp. NetApp CVO viene implementato all'interno della tua VPC, con fatturazione e assistenza da parte di Google. Il software ONTAP viene eseguito su una VM Compute Engine e utilizza una combinazione di dischi permanenti e bucket Cloud Storage (se è abilitato il tiering) per archiviare i dati NAS. Il filer integrato supporta i volumi NAS utilizzando il provisioning a livello di file, in modo da pagare solo per lo spazio di archiviazione che utilizzi. Man mano che i dati aumentano, al pool di capacità aggregate vengono aggiunti altri dischi permanenti.

NetApp CVO esegue l'astrazione dell'infrastruttura sottostante e ti consente di creare volumi di dati virtuali ricavati dal pool aggregato che sono coerenti con tutti gli altri volumi ONTAP su qualsiasi ambiente cloud o on-premise. I volumi di dati che crei supportano tutte le versioni di NFS, SMB, NFS/SMB multiprotocollo e iSCSI. supportano una vasta gamma di carichi di lavoro basati su file, inclusi contenuti web e multimediali avanzati, utilizzati in molti settori come l'Electronic Design Automation (EDA) e i media e l'intrattenimento.

NetApp CVO supporta snapshot istantanei e in tempo reale che consentono di risparmiare spazio, backup incrementali a livello di blocco integrati in Cloud Storage e replica asincrona tra regioni per il ripristino di emergenza. L'opzione per selezionare il tipo di istanza Compute Engine e i dischi permanenti ti consente di ottenere le prestazioni desiderate per i tuoi carichi di lavoro. Anche quando opera in una configurazione ad alte prestazioni, NetApp CVO implementa ottimizzazioni di archiviazione come deduplica, compattazione e compressione, nonché il tiering automatico dei dati di uso frequente nel bucket Cloud Storage, consentendoti di archiviare petabyte di dati riducendo al contempo in modo significativo i costi di archiviazione complessivi.

DDN EXAScaler Cloud

La piattaforma EXAScaler Cloud di DDN è una soluzione di file condivisi paralleli leader del settore per l'elaborazione dei dati ad alte prestazioni e per la gestione dei grandi volumi di dati richiesti per supportare i carichi di lavoro di AI, HPC e analisi. I clienti che operano nel settore delle scienze biologiche, dell'energia, dei veicoli autonomi, dei servizi finanziari e di altri settori che richiedono un uso intensivo dei dati possono sfruttare EXAScaler Cloud per l'AI e l'analisi nel cloud per massimizzare il ritorno dalle risorse Google Cloud e creare flussi di lavoro agili con il cloud bursting e la conservazione dei dati a lungo termine.

Gli utilizzi ideali di EXAScaler Cloud includono applicazioni di AI di inferenza e di deep learning, architetture di cloud ibrido per il cloud bursting per sfruttare l'elaborazione ad alte prestazioni on demand e come repository per contenere asset a lungo termine da un deployment di EXAScaler on-premise. EXAScaler basato su cloud è semplice da implementare e sfrutta il file system parallelo di DDN, che alimenta più di due terzi dei 100 supercomputer più potenti al mondo.

EXAScaler Cloud è progettato per ottimizzare i carichi di lavoro cloud che richiedono un uso intensivo di dati al fine di ridurre il time-to-insight riducendo la contesa I/O e offrendo un accesso resiliente allo spazio di archiviazione condiviso per un numero elevato di client. EXAScaler Cloud ottimizza l'intero ambiente per ottenere prestazioni elevate dall'applicazione ai dispositivi di archiviazione, incluse la rete e le istanze di calcolo stesse.

Con configurazioni flessibili, EXAScaler Cloud è utile per workload scratch ad alte prestazioni, IOPS più permanenti o applicazioni orientate al throughput e persino dati permanenti a lungo termine. Emulando le architetture on-premise nel cloud, i clienti possono eseguire la transizione dei carichi di lavoro senza problemi, contribuendo a ridurre al minimo l'interruzione delle applicazioni per gli utenti finali durante il trasferimento dei carichi di lavoro.

DDN EXAScaler Cloud gestisce carichi di lavoro scalabili ed è supportato dall'esperienza acquisita nel supportare i più grandi ambienti di dati al mondo. Con le opzioni di assistenza premium, i clienti ricevono la stessa esperienza di assistenza da esperti on-premise e nel cloud.

Per ulteriori informazioni, consulta le seguenti risorse:

Nasuni Cloud File Storage

Nasuni sostituisce i file server e i dispositivi NAS aziendali e tutte le infrastrutture associate, incluso l'hardware di backup e RE, con un'alternativa cloud più semplice e a basso costo. Nasuni utilizza l'archiviazione di oggetti Google Cloud per offrire una soluzione di archiviazione SaaS (software-as-a-service) più efficiente e scalabile per gestire la crescita rapida e non strutturata dei dati dei file. Nasuni è progettato per gestire le condivisioni di file e i flussi di lavoro delle applicazioni per reparti, progetti e organizzazioni per ogni dipendente, ovunque lavori.

Nasuni Cloud File Storage.

Nasuni offre tre pacchetti, con prezzi per aziende e organizzazioni di tutte le dimensioni, in modo che possano crescere ed espandersi in base alle esigenze.

I vantaggi includono:

  • Spazio di archiviazione di file principale basato su cloud fino al 70% in meno. L'architettura di Nasuni sfrutta i criteri di gestione del ciclo di vita degli oggetti integrati. Questi criteri consentono una completa flessibilità di utilizzo con le classi Cloud Storage, tra cui Standard, Nearline, Coldline e Archive. Utilizzando la classe di archiviazione ad accesso immediato per lo spazio di archiviazione principale con Nasuni, puoi risparmiare fino al 70% sui costi.

  • Condivisioni file di reparti e organizzazioni nel cloud. L'architettura basata su cloud di Nasuni offre un unico spazio dei nomi globale nelle regioni Google Cloud, senza limiti al numero di file, alle dimensioni dei file o agli snapshot, consentendoti di archiviare i file direttamente dal tuo computer in Google Cloud tramite protocolli di mappatura dell'unità NAS (SMB) standard.

  • Backup e ripristino di emergenza integrati. Le operazioni "imposta e dimentica" di Nasuni semplificano la gestione dello spazio di archiviazione dei file a livello globale. Sono inclusi il backup e la RE e una singola console di gestione ti consente di supervisionare e controllare l'ambiente ovunque e in qualsiasi momento.

  • Sostituisce i file server obsoleti. Nasuni semplifica la migrazione di file server Microsoft Windows e di altri sistemi di archiviazione file esistenti a Google Cloud, riducendo i costi e la complessità di gestione di questi ambienti.

Per ulteriori informazioni, consulta le seguenti risorse:

Sycomp Storage basato su IBM Storage Scale

Sycomp Storage alimentato da IBM Storage Scale in Google Cloud Marketplace ti consente di eseguire i tuoi carichi di lavoro di calcolo ad alte prestazioni (HPC), di intelligenza artificiale (AI), di machine learning (ML) e di big data in Google Cloud. Con Sycomp Storage puoi accedere contemporaneamente ai dati di migliaia di VM, ridurre i costi gestendo automaticamente i livelli di archiviazione ed eseguire l'applicazione on-premise o in Google Cloud. Sycomp Storage Fueled by IBM Storage Scale è disponibile nel Cloud Marketplace, può essere implementato rapidamente e supporta l'accesso ai dati tramite NFS e il client IBM Storage Scale.

IBM Storage Scale è un file system parallelo che consente di gestire in modo sicuro grandi volumi (PB) di dati. Sycomp Storage Scale è un file system parallelo ben adatto per HPC, AI, ML, big data e altre applicazioni che richiedono un file system condiviso conforme a POSIX. Con una capacità di archiviazione adattabile e la scalabilità delle prestazioni, Sycomp Storage può supportare carichi di lavoro HPC, AI e ML di piccole e grandi dimensioni.

Dopo aver eseguito il deployment di un cluster in Google Cloud, sei tu a decidere come usarlo. Scegli se utilizzare il cluster solo nel cloud o in modalità ibrida collegandoti a cluster IBM Storage Scale on-premise esistenti, soluzioni NAS NFS di terze parti o altre soluzioni di archiviazione basate su oggetti.

Per ulteriori informazioni, consulta le seguenti risorse:

Collaboratori

Autore: Sean Derrington | Group Outbound Product Manager, Storage

Altri collaboratori: