Archiviazione di file su Compute Engine

Last reviewed 2023-12-20 UTC

L'archiviazione di file, nota anche come NAS (Network Attached Storage), fornisce accesso a livello di file alle applicazioni per leggere e aggiornare le informazioni che possono essere condivise tra più macchine. Alcune soluzioni di archiviazione file on-premise hanno un'architettura di scale up e aggiungono facilmente spazio di archiviazione a una quantità fissa di risorse di calcolo. Altre soluzioni di archiviazione di file hanno un'architettura a scale out in cui è possibile aggiungere in modo incrementale capacità e calcolo (prestazioni) a un file system esistente in base alle esigenze. In entrambe le architetture di archiviazione, una o più macchine virtuali (VM) possono accedere allo spazio di archiviazione.

Anche se alcuni file system utilizzano un client POSIX nativo, molti sistemi di archiviazione utilizzano un protocollo che consente ai computer client di montare un file system e accedere ai file come se fossero ospitati localmente. I protocolli più comuni per l'esportazione di condivisioni di file sono Network File System (NFS) per Linux (e in alcuni casi Windows) e Server Message Block (SMB) per Windows.

In questo documento vengono descritte le seguenti opzioni per la condivisione dei file:

Un fattore di base delle prestazioni e della prevedibilità di tutti i servizi Google Cloud è lo stack di rete che Google ha sviluppato nel corso di molti anni. Con Jupiter Fabric, Google ha creato uno stack di networking solido, scalabile e stabile che può continuare a evolversi senza influire sui tuoi carichi di lavoro. Man mano che Google migliora e rafforza internamente le sue capacità di rete, la tua soluzione di condivisione file trae vantaggio dalle prestazioni aggiuntive.

Una funzionalità di Google Cloud che può aiutarti a ottenere il massimo dal tuo investimento è la possibilità di specificare tipi di VM personalizzate. Al momento di scegliere le dimensioni del filer, puoi scegliere esattamente la giusta combinazione di memoria e CPU, in modo che il filer funzioni a prestazioni ottimali senza essere sottoscritto in eccesso.

Inoltre, è importante scegliere la capacità del disco permanente di Compute Engine e il numero di vCPU corretti per garantire che i dispositivi di archiviazione del tuo file server ricevano la larghezza di banda di archiviazione e gli IOP richiesti, nonché la larghezza di banda della rete. Una VM riceve 2 Gbps di velocità effettiva di rete per ogni vCPU (fino al massimo). Per l'ottimizzazione disco permanente, consulta Ottimizzazione delle prestazioni dei disco permanente e degli SSD locali.

Tieni presente che anche Cloud Storage è un ottimo modo per archiviare petabyte di dati con elevati livelli di ridondanza a basso costo, ma Cloud Storage ha un'API e un profilo delle prestazioni diversi rispetto ai file server qui discussi.

Riepilogo delle soluzioni file-server

La seguente tabella riassume le soluzioni e le funzionalità dei file server:

Soluzione Set di dati ottimale Velocità effettiva Assistenza gestita Esporta protocolli
Filestore Basic Da 1 TiB a 64 TiB Fino a 1,2 GiB/s Completamente gestito da Google NFSv3
Zona Filestore Da 1 TiB a 100 TiB Fino a 26 GiB/s Completamente gestito da Google NFSv3
Filestore Enterprise Da 1 TiB a 10 TiB Fino a 1,2 GiB/s Completamente gestito da Google NFSv3
Google Cloud NetApp Volumes Da 1 GiB a 100 TiB Da MB/s a 4,5 GiB/s Completamente gestito da Google NFSv3, NFSv4.1, SMB2, SMB3
NetApp Cloud Volumes ONTAP Da 1 GiB a 1 PiB varia Gestita dal cliente NFSv3, NFSv4.1, SMB2, SMB3, iSCSI
Nasuni Da 10 s TB a > 1 PB Fino a 1,2 Gbps Gestita da Nasuni e dal cliente NFSv3, NFSv4, NFSv4.1, NFSv4.2, SMB2, SMB3
Persistent Disk di sola lettura < 64 TB Da 240 a 1200 Mbps No Allegato diretto

Persistent Disk e SSD locale

Se alcuni dati devono essere accessibili solo da una singola VM o che non cambiano nel tempo, puoi utilizzare i volumi di dischi permanenti di Compute Engine ed evitare del tutto un file server. Con i dischi permanenti, puoi formattarli con un file system come Ext4 o XFS e collegare volumi in modalità di lettura e scrittura o di sola lettura. Ciò significa che puoi prima collegare un volume a un'istanza, caricarlo con i dati necessari e quindi collegarlo come disco di sola lettura a centinaia di VM contemporaneamente. L'impiego di dischi permanenti di sola lettura non funziona per tutti i casi d'uso, ma può ridurre notevolmente la complessità rispetto all'utilizzo di un file server.

I dischi permanenti offrono prestazioni costanti. Tutti i dischi delle stesse dimensioni (e, per i dischi permanenti SSD, lo stesso numero di vCPU) collegati all'istanza hanno le stesse caratteristiche prestazionali. Non è necessario preriscaldare o testare i dischi permanenti prima di utilizzarli in produzione.

Il costo dei dischi permanenti è semplice da determinare perché non sono previsti costi di I/O da considerare dopo il provisioning del volume. I dischi permanenti possono anche essere ridimensionati quando necessario. In questo modo puoi iniziare con un volume a basso costo e a bassa capacità e non devi creare istanze o dischi aggiuntivi per scalare la capacità.

Se il requisito principale è la capacità di archiviazione totale, puoi utilizzare dischi permanenti standard a basso costo. Per ottenere prestazioni ottimali e continuare a essere durevole, puoi usare i dischi permanenti SSD.

Se i tuoi dati sono temporanei e richiedono una latenza inferiore al millisecondo e un numero elevato di operazioni I/O al secondo (IOPS), puoi sfruttare fino a 9 TB di SSD locali per ottenere prestazioni estreme. Gli SSD locali forniscono GBps di larghezza di banda e milioni di IOPS, il tutto senza utilizzare la larghezza di banda di rete assegnata alle istanze. È importante ricordare, però, che le unità SSD locali presentano alcuni compromessi in termini di disponibilità, durabilità e flessibilità.

Per un confronto dei numerosi tipi di disco disponibili per le istanze di Compute Engine, consulta la documentazione sull'archiviazione a blocchi.

Considerazioni sulla scelta di una soluzione di archiviazione file

La scelta di una soluzione di archiviazione di file richiede compromessi in termini di gestibilità, costi, prestazioni e scalabilità. Prendere una decisione è più facile se hai un carico di lavoro ben definito, cosa che non accade spesso. Nei casi in cui i carichi di lavoro si evolvono nel tempo o sono molto variabili, è prudente scambiare i risparmi sui costi per ottenere flessibilità ed elasticità, in modo da poter crescere nella tua soluzione. Se invece hai un carico di lavoro temporale e noto, puoi creare un'architettura di archiviazione di file appositamente creata, che puoi eliminare e ricreare per soddisfare le tue esigenze immediate di archiviazione.

Una delle prime decisioni da prendere è se si vuole pagare per un servizio di archiviazione gestito, una soluzione che include l'assistenza per i prodotti o una soluzione non supportata.

  • I servizi di archiviazione di file gestiti sono i più facili da funzionare, perché tutte le operazioni vengono gestite da Google o da un partner. Questi servizi possono anche fornire un accordo sul livello del servizio (SLA) per la disponibilità, come la maggior parte degli altri servizi Google Cloud.
  • Le soluzioni non gestite, ma supportate, offrono una maggiore flessibilità. I partner possono aiutarti a risolvere qualsiasi problema, ma le operazioni quotidiane della soluzione di archiviazione sono lasciate all'utente.
  • Le soluzioni non supportate richiedono il massimo impegno per il deployment e la gestione, lasciando tutti i problemi all'utente. Queste soluzioni non sono trattate in questo documento.

La prossima decisione riguarda la determinazione dei requisiti di durabilità e disponibilità della soluzione. La maggior parte delle soluzioni di file è a livello di zona e non fornisce protezione per impostazione predefinita in caso di errore della zona. Quindi è importante valutare se è necessaria una soluzione di ripristino di emergenza (RE) che protegga da errori a livello di zona. È inoltre importante comprendere i requisiti dell'applicazione in termini di durabilità e disponibilità. Ad esempio, la scelta di SSD locali o dischi permanenti nel deployment ha un grande impatto, così come la configurazione del software di soluzione di file. Ogni soluzione richiede un'attenta pianificazione per ottenere un'elevata durabilità, disponibilità e persino protezione da errori a livello di zona e di regione.

Infine, considera le località (ovvero zone, regioni, data center on-premise) in cui devi accedere ai dati. Le località delle farm di computing che accedono ai tuoi dati influenzano la scelta della soluzione di archiviazione poiché solo alcune soluzioni consentono l'accesso ibrido on-premise e nel cloud.

Soluzioni gestite di archiviazione di file

Questa sezione descrive le soluzioni gestite da Google per l'archiviazione di file.

Filestore Basic

Filestore è la soluzione NAS completamente gestita di Google.

Le istanze Filestore Basic sono adatte per la condivisione di file, lo sviluppo di software e i carichi di lavoro GKE. Per l'archiviazione dei dati puoi scegliere tra HDD o SSD. SSD offre prestazioni migliori. Con entrambe le opzioni, la capacità aumenta in modo incrementale ed è possibile proteggere i dati utilizzando i backup.

Filestore Zonal

Filestore zonal semplifica l'archiviazione aziendale e la gestione dei dati su Google Cloud e nei cloud ibridi. La zona Filestore offre accesso parallelo conveniente e ad alte prestazioni ai dati globali, mantenendo al contempo una coerenza rigorosa grazie a un file system distribuito e scalabile dinamicamente. Con Filestore a livello di zona, le applicazioni NFS e i flussi di lavoro NAS esistenti possono essere eseguiti nel cloud senza richiedere il refactoring, mantenendo comunque i vantaggi dei servizi dati aziendali (alta disponibilità, compressione, deduplicazione e così via). Il driver CSI Filestore consente una persistenza, una portabilità e una condivisione dei dati senza problemi per i carichi di lavoro containerizzati.

Puoi scalare le istanze di zona Filestore on demand. In questo modo puoi creare ed espandere l'infrastruttura del file system quando necessario, garantendo che le prestazioni e la capacità di archiviazione siano sempre in linea con i requisiti dei flussi di lavoro dinamici. Quando un cluster di zona Filestore si espande, sia i metadati che le prestazioni di I/O scalano in modo lineare. Questa scalabilità consente di migliorare e accelerare un'ampia gamma di flussi di lavoro ad alta intensità di dati, tra cui computing ad alte prestazioni, analisi, aggregazione di dati tra siti, DevOps e molto altro. Di conseguenza, Filestore Zonal è ideale per l'utilizzo in settori incentrati sui dati come le scienze biologiche (ad esempio il sequenziamento del genoma), i servizi finanziari e i media e l'intrattenimento.

Filestore Enterprise

Filestore Enterprise è una soluzione NFS cloud-native completamente gestita che consente di eseguire il deployment di applicazioni critiche basate su file in Google Cloud, supportata da uno SLA (accordo sul livello del servizio) che offre una disponibilità regionale del 99,99%. Con uno SLA (accordo sul livello del servizio) con disponibilità regionale del 99,99%, Filestore Enterprise è progettato per le applicazioni che richiedono un'alta disponibilità. Con pochi clic del mouse (o alcuni comandi gcloud o chiamate API), puoi eseguire il provisioning delle condivisioni NFS replicate in modo sincrono tra le tre zone all'interno di una regione. Se una zona all'interno della regione non è più disponibile, Filestore Enterprise continua a fornire dati in modo trasparente all'applicazione senza alcun intervento operativo da parte tua.

Per proteggere ulteriormente i dati critici, Filestore consente inoltre di acquisire e conservare snapshot periodici del file system. Con Filestore, puoi recuperare un singolo file o un intero file system in meno di 10 minuti da uno qualsiasi dei punti di ripristino precedenti.

Per le applicazioni critiche come SAP, sia il livello di database che quello di applicazione devono essere ad alta disponibilità. Per soddisfare questo requisito, puoi eseguire il deployment del livello del database SAP su Persistent Disk in più zone utilizzando l'alta disponibilità integrata del database. Analogamente, è possibile eseguire il deployment del livello di applicazione NetWeaver, che richiede eseguibili condivisi tra molte VM, in Filestore Enterprise, che replica i dati NetWeaver in più zone all'interno di una regione. Il risultato finale è un'architettura delle applicazioni mission-critical a tre livelli ad alta disponibilità.

Inoltre, le organizzazioni IT eseguono sempre più spesso il deployment di applicazioni stateful in container su Google Kubernetes Engine (GKE). Questo spesso li spinge a ripensare a quale infrastruttura di archiviazione usare per supportare. Puoi utilizzare l'archiviazione a blocchi (Persistent Disk), l'archiviazione di file (Filestore Basic, A livello di zona o Enterprise) o l'archiviazione di oggetti (Cloud Storage). Filestore Enterprise, con il suo driver CSI Filestore gestito e il supporto multishare, consente alle organizzazioni che richiedono più pod GKE di accedere ai file condivisi, offrendo un maggiore livello di disponibilità per i carichi di lavoro mission-critical.

NetApp Volumes

NetApp Volumes è un servizio Google completamente gestito che ti consente di montare rapidamente l'archiviazione di file condivisa nelle istanze di computing di Google Cloud. NetApp Volumes supporta l'accesso SMB, NFS e multiprotocollo. NetApp Volumes offre prestazioni elevate alle tue applicazioni a bassa latenza, con solide funzionalità di protezione dei dati: snapshot, copie, replica tra regioni e backup. Il servizio è adatto per applicazioni che richiedono carichi di lavoro sia sequenziali che casuali, in grado di scalare in centinaia o migliaia di istanze di Compute Engine. In pochi secondi, è possibile eseguire il provisioning di volumi con dimensioni comprese tra 100 GiB e 100 TiB, e proteggerli con solide funzionalità di protezione dei dati. Con tre livelli di servizio (Standard, Premium ed Estreme) modificabili on demand, NetApp Volumes offre le prestazioni appropriate per il tuo carico di lavoro, senza influire sulla disponibilità. Per informazioni sulle località di Google Cloud in cui è disponibile NetApp Volumes, consulta le località NetApp Volumes.

Soluzioni dei partner in Cloud Marketplace

In Cloud Marketplace sono disponibili le seguenti soluzioni fornite dai partner.

NetApp Cloud Volumes ONTAP

NetApp Cloud Volumes ONTAP (NetApp CVO) è una soluzione gestita dal cliente basata su cloud che porta l'intero set di funzionalità di ONTAP, il sistema operativo di gestione dei dati leader di NetApp, su Google Cloud. Il deployment di NetApp CVO viene eseguito all'interno del tuo VPC, con fatturazione e assistenza da Google. Il software ONTAP viene eseguito su una VM di Compute Engine e utilizza una combinazione di dischi permanenti e bucket Cloud Storage (se è abilitato il livello di archiviazione) per archiviare i dati NAS. Il filer integrato supporta i volumi NAS mediante il thin provisioning, così tu paghi solo per lo spazio di archiviazione che utilizzi. Man mano che i dati aumentano, al pool di capacità aggregata vengono aggiunti ulteriori dischi permanenti.

NetApp CVO astrae l'infrastruttura sottostante e ti consente di creare volumi di dati virtuali estratti dal pool aggregato che sono coerenti con tutti gli altri volumi ONTAP su qualsiasi ambiente cloud o on-premise. I volumi di dati creati supportano tutte le versioni di NFS, SMB, NFS/SMB multiprotocollo e iSCSI. Supportano una vasta gamma di carichi di lavoro basati su file, tra cui contenuti web e rich media, utilizzati in molti settori, come l'Electronic Design automation (EDA) e i media e l'intrattenimento.

NetApp CVO supporta snapshot point-in-time istantanee, a livello di blocco, backup incrementale incrementale a livello di blocco su Cloud Storage e replica asincrona tra regioni per il ripristino di emergenza. La possibilità di selezionare il tipo di istanza Compute Engine e i dischi permanenti consente di ottenere le prestazioni desiderate per i carichi di lavoro. Anche quando si opera in una configurazione ad alte prestazioni, NetApp CVO implementa efficienza di archiviazione come deduplicazione, compattazione e compressione, oltre a eseguire il livelli automatico dei dati meno frequenti nel bucket Cloud Storage, consentendoti di archiviare petabyte di dati, riducendo significativamente i costi di archiviazione complessivi.

DDN EXAScaler Cloud

La piattaforma EXAScaler Cloud di DDN è una soluzione di file condivisi in parallelo leader di settore per l'elaborazione dei dati ad alte prestazioni e per la gestione di grandi volumi di dati necessari per supportare carichi di lavoro di AI, HPC e analisi. I clienti del settore delle scienze biologiche, dell'energia, dei veicoli autonomi, dei servizi finanziari e di altri clienti che utilizzano un uso intensivo dei dati possono sfruttare EXAScaler Cloud per l'AI e l'analisi nel cloud per massimizzare il ritorno dalle risorse Google Cloud e creare flussi di lavoro agili con cloud bursting e conservazione dei dati a lungo termine.

Gli utilizzi ideali di EXAScaler Cloud includono applicazioni AI di deep learning e inferenza, architetture cloud ibride per il cloud bursting per sfruttare l'elaborazione on demand ad alte prestazioni e come repository per conservare asset a lungo termine provenienti da un deployment EXAScaler on-premise. EXAScaler, basato su cloud, è semplice da implementare e sfrutta il file system parallelo di DDN, che supporta oltre due terzi dei primi 100 supercomputer.

EXAScaler Cloud è progettato per ottimizzare i carichi di lavoro cloud ad alta intensità di dati al fine di ridurre il time-to-insight riducendo i conflitti di I/O e fornendo un accesso resiliente allo spazio di archiviazione condiviso per un numero elevato di client. EXAScaler Cloud ottimizza l'intero ambiente per offrire prestazioni elevate dall'applicazione ai dispositivi di archiviazione, comprese la rete e le istanze di calcolo stesse.

Grazie alle configurazioni flessibili, EXAScaler Cloud è utile per carichi di lavoro di scraping ad alte prestazioni, IOPS più permanenti o applicazioni orientate alla velocità effettiva e anche per dati permanenti a lungo termine. Mimando le architetture on-premise nel cloud, i clienti possono eseguire la transizione dei carichi di lavoro senza problemi, contribuendo a ridurre al minimo le interruzioni delle applicazioni dell'utente finale durante lo spostamento dei carichi di lavoro.

DDN EXAScaler Cloud gestisce carichi di lavoro scalabili ed è supportata dalle competenze apprese nel supporto dei più grandi ambienti di dati del mondo. Con le opzioni di assistenza premium, i clienti usufruiscono della stessa esperienza di assistenza da parte di esperti sia on-premise che nel cloud.

Per ulteriori informazioni, consulta le seguenti risorse:

Archiviazione dei file su cloud Nasuni

Nasuni sostituisce i file server e i dispositivi NAS aziendali e tutte le infrastrutture associate, compresi l'hardware di backup e RE, con un'alternativa cloud più semplice e conveniente. Nasuni utilizza l'archiviazione di oggetti Google Cloud per offrire una soluzione di archiviazione Software as a Service (SaaS) più efficiente in grado di gestire la crescita rapida e non strutturata dei dati dei file. Nasuni è progettato per gestire le condivisioni di file a livello di reparto, progetto e organizzazione e i flussi di lavoro delle applicazioni per ogni dipendente, ovunque lavori.

Cloud File Storage di Nasuni.

Nasuni offre tre pacchetti, con prezzi per aziende e organizzazioni di ogni dimensione, in modo che possano crescere ed espandersi secondo le esigenze.

I vantaggi di questa funzionalità includono:

  • Archiviazione dei file principali basata su cloud fino al 70% in meno. L'architettura di Nasuni sfrutta i criteri integrati per la gestione del ciclo di vita degli oggetti. Questi criteri consentono la massima flessibilità per l'utilizzo con classi di Cloud Storage come Standard, Nearline, Coldline e Archive. Utilizzando la classe Archive ad accesso immediato per l'archiviazione principale con Nasuni, puoi ottenere risparmi fino al 70%.

  • Condivisioni di file a livello di organizzazione e dipartimentale nel cloud. L'architettura basata su cloud di Nasuni offre un unico spazio dei nomi globale in tutte le regioni di Google Cloud, senza limiti al numero di file, dimensioni di file o snapshot, consentendoti di archiviare i file direttamente dal tuo desktop in Google Cloud tramite protocolli di mappatura delle unità NAS (SMB) standard.

  • Backup e ripristino di emergenza integrati. Grazie alle operazioni di Nasuni, "set-it and forgot-it ", la gestione dell'archiviazione globale dei file è molto semplice. Backup &RE è incluso e un'unica console di gestione ti consente di supervisionare e controllare l'ambiente ovunque e in qualsiasi momento.

  • Sostituisce i file server obsoleti. Nasuni semplifica la migrazione dei file server Microsoft Windows e di altri file system esistenti di archiviazione in Google Cloud, riducendo i costi e la complessità di gestione di questi ambienti.

Per ulteriori informazioni, consulta le seguenti risorse:

Archiviazione Sycomp basata su IBM Spectrum Scale

Sycomp Storage basato su IBM Spectrum Scale in Google Cloud Marketplace ti consente di eseguire carichi di lavoro di computing ad alte prestazioni (HPC), intelligenza artificiale (AI), machine learning (ML) e big data in Google Cloud. Con Sycomp Storage puoi accedere contemporaneamente ai dati di migliaia di VM, ridurre i costi gestendo automaticamente i livelli di archiviazione ed eseguire l'applicazione on-premise o in Google Cloud. Sycomp Storage Fueled by IBM Spectrum Scale è disponibile in Cloud Marketplace, può essere implementato rapidamente e supporta l'accesso ai dati tramite NFS e il client IBM Spectrum Scale.

IBM Spectrum Scale è un file system parallelo che consente di gestire in modo sicuro grandi volumi (PB) di dati. Il file system parallelo IBM Spectrum Scale è adatto per HPC, AI, ML, big data e altre applicazioni che richiedono un file system condiviso compatibile con POSIX. Grazie a una capacità di archiviazione adattabile e alla scalabilità delle prestazioni, Sycomp Storage è in grado di supportare carichi di lavoro HPC, AI e ML di piccole e grandi dimensioni.

Dopo aver eseguito il deployment di un cluster in Google Cloud, sei tu a decidere come utilizzarlo. Scegli se vuoi utilizzarlo solo nel cloud o in modalità ibrida eseguendo la connessione a un cluster IBM Spectrum Scale on-premise esistente.

Per ulteriori informazioni, consulta le seguenti risorse:

Log delle modifiche

Questa sezione fornisce un riepilogo delle modifiche tecniche significative apportate in questa guida.

Data Descrizione delle modifiche
19 dicembre 2023
  • Aggiornamento della pacchettizzazione e della denominazione di Filestore High Scale (ora Filestore a livello di zona).
  • Aggiornamento del supporto di zona Filestore per il driver CSI.
  • È stato aggiunto Google Cloud NetApp Volumes come soluzione gestita per i file.
  • Rimosso NetApp Cloud Volume Service come offerta di Cloud Marketplace.
30 novembre 2023
  • Rimosso Dell PowerScale come soluzione partner da Cloud Marketplace.
  • È stata rimossa la soluzione partner Panzura da Cloud Marketplace.

Collaboratori

Autore: Sean Derrington | Group Outbound Product Manager, Storage

Altri collaboratori: