Archiviazione di file su Compute Engine

Last reviewed 2023-12-20 UTC

L'archiviazione di file, nota anche come NAS (Network Attached Storage), fornisce l'accesso alle applicazioni a livello di file per leggere e aggiornare le informazioni che possono essere condivise tra più computer. Alcune soluzioni di archiviazione file on-premise hanno un'architettura di scale up e aggiungono semplicemente spazio di archiviazione a una quantità fissa di risorse di calcolo. Altre soluzioni di archiviazione file hanno un'architettura scale out in cui capacità e calcolo (prestazioni) possono essere aggiunte in modo incrementale a un file system esistente, se necessario. In entrambe le architetture di archiviazione, una o più macchine virtuali (VM) possono accedere allo spazio di archiviazione.

Sebbene alcuni file system utilizzino un client POSIX nativo, molti sistemi di archiviazione utilizzano un protocollo che consente ai computer client di montare un file system e di accedere ai file come se fossero ospitati localmente. I protocolli più comuni per l'esportazione di condivisioni file sono Network File System (NFS) per Linux (e, in alcuni casi, Windows) e Server Message Block (SMB) per Windows.

Questo documento descrive le seguenti opzioni per la condivisione di file:

Un fattore sottostante alle prestazioni e alla prevedibilità di tutti i servizi Google Cloud è lo stack di rete che Google ha sviluppato nel corso degli anni. Con Jupiter Fabric, Google ha creato uno stack di rete solido, scalabile e stabile in grado di continuare a evolversi senza influire sui carichi di lavoro. Man mano che Google migliora e rafforza internamente le capacità di rete, la tua soluzione di condivisione file trae vantaggio dalle prestazioni aggiuntive.

Una funzionalità di Google Cloud che può aiutarti a ottenere il massimo dal tuo investimento è la possibilità di specificare tipi di VM personalizzate. Quando scegli le dimensioni del filer, puoi selezionare esattamente il giusto mix di memoria e CPU, in modo che funzioni a prestazioni ottimali senza sovraccaricare.

Inoltre, è importante scegliere la capacità del disco permanente di Compute Engine e il numero di vCPU corretti per garantire che i dispositivi di archiviazione del tuo file server ricevano la larghezza di banda di archiviazione e gli IOP richiesti, oltre che la larghezza di banda di rete. Una VM riceve 2 Gbps di velocità effettiva di rete per ogni vCPU (fino al massimo). Per l'ottimizzazione disco permanente, consulta Ottimizzazione delle prestazioni dei disco permanente e degli SSD locali.

Tieni presente che Cloud Storage è anche un ottimo modo per archiviare petabyte di dati con alti livelli di ridondanza a basso costo, ma Cloud Storage ha un'API e un profilo prestazioni diversi rispetto ai file server descritti qui.

Riepilogo delle soluzioni file-server

La seguente tabella riassume le soluzioni e le funzionalità file-server:

Soluzione Set di dati ottimale Velocità effettiva Assistenza gestita Esporta protocolli
Filestore di base Da 1 TiB a 64 TiB Fino a 1,2 GiB/s Completamente gestito da Google NFSv3
Filestore di zona Da 1 TiB a 100 TiB Fino a 26 GiB/s Completamente gestito da Google NFSv3
Filestore Enterprise Da 1 TiB a 10 TiB Fino a 1,2 GiB/s Completamente gestito da Google NFSv3
Volumi NetApp di Google Cloud Da 1 GiB a 100 TiB MB/s a 4,5 GiB/s Completamente gestito da Google NFSv3, NFSv4.1, SMB2, SMB3
NetApp Cloud Volumes ONTAP Da 1 GiB a 1 PiB varia Gestita dal cliente NFSv3, NFSv4.1, SMB2, SMB3, iSCSI
Nasuni Da 10 s di TB a > 1 PB Fino a 1,2 GBps Gestiti dal cliente e da Nasuni NFSv3, NFSv4, NFSv4.1, NFSv4.2, SMB2, SMB3
Persistent Disk di sola lettura < 64 TB Da 240 a 1200 MBps No Allegato diretto

Persistent Disk e SSD locale

Se disponi di dati che devono essere accessibili solo da una singola VM o che non cambiano nel tempo, puoi utilizzare i volumi del disco permanente di Compute Engine ed evitare completamente un file server. Con i dischi permanenti puoi formattarli con un file system come Ext4 o XFS e collegare i volumi in modalità di lettura/scrittura o di sola lettura. Ciò significa che puoi prima collegare un volume a un'istanza, caricarlo con i dati necessari e quindi collegarlo come disco di sola lettura a centinaia di VM contemporaneamente. L'utilizzo di dischi permanenti di sola lettura non è adatto a tutti i casi d'uso, ma può ridurre notevolmente la complessità rispetto a quando si utilizza un file server.

I dischi permanenti offrono prestazioni coerenti. Tutti i dischi delle stesse dimensioni (e, per i dischi permanenti SSD, lo stesso numero di vCPU) che colleghi all'istanza hanno le stesse caratteristiche prestazionali. Non è necessario preparare o testare i dischi permanenti prima di utilizzarli in produzione.

Il costo dei dischi permanenti è facile da determinare, poiché non sono previsti costi di I/O da considerare dopo il provisioning del volume. I dischi permanenti possono anche essere ridimensionati quando necessario. In questo modo puoi iniziare con un volume a bassa capacità e a basso costo e non devi creare istanze o dischi aggiuntivi per scalare la capacità.

Se il requisito principale è la capacità di archiviazione totale, puoi utilizzare dischi permanenti standard a basso costo. Per ottenere prestazioni ottimali, continuando a garantire la durabilità, puoi utilizzare i dischi permanenti SSD.

Se i tuoi dati sono temporanei e richiedono una latenza inferiore al millisecondo e un numero elevato di operazioni di I/O al secondo (IOPS), puoi sfruttare fino a 9 TB di SSD locali per ottenere prestazioni elevate. Gli SSD locali forniscono GBps di larghezza di banda e milioni di IOPS, senza consumare la larghezza di banda di rete assegnata alle istanze. È importante ricordare tuttavia che gli SSD locali presentano determinati compromessi in termini di disponibilità, durabilità e flessibilità.

Per un confronto tra i numerosi tipi di disco disponibili per le istanze di Compute Engine, consulta la documentazione sull'archiviazione a blocchi.

Considerazioni sulla scelta di una soluzione di archiviazione dei file

La scelta di una soluzione di archiviazione di file richiede di scendere a compromessi in termini di gestibilità, costi, prestazioni e scalabilità. Prendere la decisione è più facile se hai un carico di lavoro ben definito, cosa che spesso non accade. Dove i carichi di lavoro evolvono nel tempo o sono altamente variabili, è prudente negoziare il risparmio sui costi in termini di flessibilità ed elasticità, in modo da poter crescere nella tua soluzione. Se invece disponi di un carico di lavoro temporale e ben noto, puoi creare un'architettura di archiviazione dei file creata appositamente, che puoi eliminare e ricreare per soddisfare le tue esigenze di archiviazione immediate.

Una delle prime decisioni da prendere è se vuoi pagare per un servizio di archiviazione gestito, per una soluzione che include l'assistenza per i prodotti o per una soluzione non supportata.

  • I servizi di archiviazione di file gestiti sono i più semplici da utilizzare perché tutte le operazioni vengono gestite da Google o da un partner. Questi servizi potrebbero anche fornire un accordo sul livello del servizio (SLA) per la disponibilità come la maggior parte degli altri servizi Google Cloud.
  • Le soluzioni non gestite ma supportate offrono una maggiore flessibilità. I partner possono aiutarti per qualsiasi problema, ma il funzionamento quotidiano della soluzione di archiviazione rimane all'utente.
  • Le soluzioni non supportate richiedono il massimo impegno per il deployment e la manutenzione, lasciando tutti i problemi all'utente. Queste soluzioni non sono trattate in questo documento.

La prossima decisione riguarda la determinazione dei requisiti di durabilità e disponibilità della soluzione. La maggior parte delle soluzioni per i file sono a livello di zona e non forniscono protezione per impostazione predefinita in caso di errore in una zona. È quindi importante valutare se è necessaria una soluzione di ripristino di emergenza (RE) che protegga da errori a livello di zona. È anche importante comprendere i requisiti dell'applicazione in termini di durabilità e disponibilità. Ad esempio, la scelta degli SSD locali o dei dischi permanenti nel deployment ha un grande impatto, così come la configurazione del software di soluzione dei file. Ogni soluzione richiede un'attenta pianificazione per ottenere un'elevata durabilità, disponibilità e persino protezione da errori a livello di zona e regione.

Infine, considera le località (ovvero zone, regioni, data center on-premise) in cui devi accedere ai dati. Le località delle aziende di computing che accedono ai tuoi dati influiscono sulla scelta della soluzione di archiviazione perché solo alcune soluzioni consentono l'accesso ibrido on-premise e nel cloud.

Soluzioni di archiviazione di file gestite

Questa sezione descrive le soluzioni gestite da Google per l'archiviazione di file.

Filestore Basic

Filestore è la soluzione NAS completamente gestita di Google.

Le istanze Filestore Basic sono adatte per la condivisione di file, lo sviluppo di software e i carichi di lavoro GKE. Puoi scegliere HDD o SSD per l'archiviazione dei dati. SSD offre prestazioni migliori. Con entrambe le opzioni, la capacità fa lo scale up in modo incrementale e puoi proteggere i dati utilizzando i backup.

Filestore a livello di zona

Filestore di zona semplifica l'archiviazione aziendale e la gestione dei dati su Google Cloud e nei cloud ibridi. Filestore di zona offre un accesso parallelo conveniente e ad alte prestazioni ai dati globali, mantenendo al contempo una rigorosa coerenza grazie a un file system distribuito e scalabile dinamicamente. Con Filestore di zona, le applicazioni NFS esistenti e i flussi di lavoro NAS possono essere eseguiti nel cloud senza richiedere il refactoring, mantenendo al contempo i vantaggi dei servizi dati aziendali (alta disponibilità, compressione, deduplicazione e così via). Il driver CSI di Filestore consente di persistenza, portabilità e condivisione dei dati senza interruzioni per i carichi di lavoro containerizzati.

Puoi scalare le istanze di zona Filestore on demand. Ciò consente di creare ed espandere l'infrastruttura del file system quando necessario, garantendo che le prestazioni e la capacità di archiviazione siano sempre in linea con i requisiti dinamici del flusso di lavoro. Con l'espansione di un cluster di zona Filestore, sia i metadati che le prestazioni di I/O scalano in modo lineare. Questa scalabilità consente di migliorare e accelerare un'ampia gamma di flussi di lavoro che richiedono un uso intensivo dei dati, tra cui computing ad alte prestazioni, analisi, aggregazione di dati tra siti, DevOps e molto altro. Di conseguenza, Filestore Zonal è ideale per l'utilizzo in settori incentrati sui dati come le scienze biologiche (ad esempio il sequenziamento dei genomi), i servizi finanziari e media e intrattenimento.

Filestore Enterprise

Filestore Enterprise è una soluzione NFS cloud-native completamente gestita che consente il deployment di applicazioni critiche basate su file in Google Cloud, supportate da uno SLA che garantisce una disponibilità regionale del 99,99%. Con uno SLA (accordo sul livello del servizio) con disponibilità regionale del 99,99%, Filestore Enterprise è progettato per le applicazioni che richiedono un'alta disponibilità. Con pochi clic del mouse (o qualche comando gcloud o chiamata API), puoi eseguire il provisioning delle condivisioni NFS che vengono replicate in modo sincrono in tre zone all'interno di una regione. Se una zona all'interno della regione non è più disponibile, Filestore Enterprise continua a fornire dati all'applicazione in modo trasparente senza alcun intervento operativo da parte tua.

Per proteggere ulteriormente i dati critici, Filestore consente anche di acquisire e conservare snapshot periodici del file system. Con Filestore, puoi recuperare un singolo file o un intero file system in meno di 10 minuti da uno dei punti di ripristino precedenti.

Per le applicazioni critiche come SAP, sia il livello di database che quello di applicazione devono essere ad alta disponibilità. Per soddisfare questo requisito, puoi eseguire il deployment del livello di database SAP su Persistent Disk, in più zone utilizzando l'alta disponibilità del database integrato. Analogamente, è possibile eseguire il deployment del livello applicazione NetWeaver, che richiede file eseguibili condivisi tra molte VM, in Filestore Enterprise, che replica i dati Netweaver in più zone all'interno di una regione. Il risultato finale è un'architettura di applicazioni mission-critical a tre livelli ad alta disponibilità.

Le organizzazioni IT eseguono sempre più spesso il deployment di applicazioni stateful in container su Google Kubernetes Engine (GKE). Questo spesso li porta a ripensare a quale infrastruttura di archiviazione usare per supportare tali applicazioni. Puoi utilizzare l'archiviazione a blocchi (Persistent Disk), l'archiviazione di file (Filestore Basic, Zonal o Enterprise) o l'archiviazione di oggetti (Cloud Storage). Filestore Enterprise, con il suo driver CSI Filestore gestito e il supporto multishare, consente alle organizzazioni che richiedono più pod GKE di accedere ai file condivisi, offrendo un maggiore livello di disponibilità per i carichi di lavoro mission-critical.

NetApp Volumes

NetApp Volumes è un servizio Google completamente gestito che consente di montare rapidamente l'archiviazione file condivisa nelle istanze di computing di Google Cloud. NetApp Volumes supporta l'accesso SMB, NFS e multiprotocollo. NetApp Volumes offre prestazioni elevate per le tue applicazioni a bassa latenza, con solide funzionalità di protezione dei dati: snapshot, copie, replica tra regioni e backup. Il servizio è adatto per applicazioni che richiedono carichi di lavoro sia sequenziali che casuali, in grado di scalare su centinaia o migliaia di istanze di Compute Engine. In pochi secondi, è possibile eseguire il provisioning e proteggere volumi con dimensioni comprese tra 100 GiB e 100 TiB con solide funzionalità di protezione dei dati. Con tre livelli di servizio (Standard, Premium ed Extreme) modificabili on demand, NetApp Volumes offre le prestazioni appropriate per il tuo carico di lavoro, senza influire sulla disponibilità. Per informazioni sulle località Google Cloud in cui sono disponibili NetApp Volumes, consulta Località di NetApp Volumes.

Soluzioni per i partner in Cloud Marketplace

In Cloud Marketplace sono disponibili le seguenti soluzioni fornite dai partner.

NetApp Cloud Volumes ONTAP

NetApp Cloud Volumes ONTAP (NetApp CVO) è una soluzione basata su cloud gestita dal cliente che porta in Google Cloud l'intero set di funzionalità di ONTAP, il sistema operativo di gestione dei dati leader di NetApp. Il deployment di NetApp CVO viene eseguito all'interno del tuo VPC, con fatturazione e assistenza da parte di Google. Il software ONTAP viene eseguito su una VM di Compute Engine e utilizza una combinazione di dischi permanenti e bucket Cloud Storage (se è abilitato il livello di livelli) per archiviare i dati NAS. Il filer integrato supporta i volumi NAS utilizzando il thin provisioning, consentendoti di pagare solo per lo spazio di archiviazione utilizzato. Man mano che i dati crescono, vengono aggiunti altri dischi permanenti al pool di capacità aggregato.

NetApp CVO astrae l'infrastruttura sottostante e ti consente di creare volumi di dati virtuali ricavati dal pool aggregato che siano coerenti con tutti gli altri volumi ONTAP in qualsiasi ambiente cloud o on-premise. I volumi di dati che crei supportano tutte le versioni di NFS, SMB, NFS/SMB multiprotocollo e iSCSI. Supportano un'ampia gamma di carichi di lavoro basati su file, inclusi contenuti web e rich media, utilizzati in molti settori, come l'Electronic Design Automation (EDA) e i media e l'intrattenimento.

NetApp CVO supporta snapshot point-in-time immediati e salvaspazio, backup integrati a livello di blocco, backup incrementale e permanente in Cloud Storage e replica asincrona tra regioni per il ripristino di emergenza. La possibilità di selezionare il tipo di istanza Compute Engine e i dischi permanenti consente di raggiungere le prestazioni desiderate per i carichi di lavoro. Anche quando opera in una configurazione ad alte prestazioni, NetApp CVO implementa efficienze di archiviazione come deduplicazione, compattazione e compresse, nonché suddivisione automatica dei dati utilizzati di rado nel bucket Cloud Storage, permettendoti di archiviare petabyte di dati riducendo notevolmente i costi di archiviazione complessivi.

Cloud DDN EXAScaler

La piattaforma EXAScaler Cloud di DDN è una soluzione per file condivisi in parallelo leader del settore per l'elaborazione di dati ad alte prestazioni e la gestione di grandi volumi di dati richiesti per supportare i carichi di lavoro di AI, HPC e analisi. I clienti che operano nel settore delle scienze biologiche, dell'energia, dei veicoli autonomi, dei servizi finanziari e di altri clienti che utilizzano un uso intensivo dei dati possono sfruttare EXAScaler Cloud per l'AI e l'analisi nel cloud per massimizzare il ritorno dalle risorse Google Cloud e creare flussi di lavoro agili con cloud bursting e conservazione dei dati a lungo termine.

Gli utilizzi ideali di EXAScaler Cloud includono applicazioni di AI per deep learning e inferenza, architetture cloud ibride per il cloud bursting per sfruttare l'elaborazione on demand ad alte prestazioni e come repository per conservare asset a lungo termine da un deployment EXAScaler on-premise. EXAScaler basato su cloud è semplice da implementare e sfrutta il file system parallelo di DDN, che è alla base di oltre due terzi dei primi 100 supercomputer.

EXAScaler Cloud è progettato per ottimizzare i carichi di lavoro cloud che richiedono un uso intensivo dei dati per ridurre il time to insight, riducendo i conflitti I/O e offrendo accesso resiliente allo spazio di archiviazione condiviso per un numero elevato di client. EXAScaler Cloud ottimizza l'intero ambiente per ottenere prestazioni elevate dall'applicazione ai dispositivi di archiviazione, comprese la rete e le istanze di calcolo.

Grazie alle configurazioni flessibili, EXAScaler Cloud è utile per carichi di lavoro di scraping ad alte prestazioni, IOPS più permanenti o applicazioni orientate alla velocità effettiva e persino dati permanenti a lungo termine. Imitando le architetture on-premise nel cloud, i clienti possono trasferire i carichi di lavoro senza problemi, contribuendo a ridurre al minimo l'interruzione delle applicazioni per l'utente finale man mano che i carichi di lavoro si spostano.

DDN EXAScaler Cloud gestisce carichi di lavoro scalabili ed è supportato dalle competenze apprese a supporto dei più grandi ambienti di dati del mondo. Con le opzioni di assistenza premium, i clienti hanno la stessa esperienza di assistenza da parte di esperti on-premise e nel cloud.

Per ulteriori informazioni, consulta le seguenti risorse:

Archiviazione di file su cloud Nasuni

Nasuni sostituisce file server aziendali, dispositivi NAS e tutte le infrastrutture associate, inclusi hardware di backup e RE, con un'alternativa cloud più semplice e a basso costo. Nasuni utilizza l'archiviazione di oggetti di Google Cloud per offrire una soluzione di archiviazione Software as a Service (SaaS) più efficiente e scalabile per gestire una crescita rapida e non strutturati dei dati dei file. Nasuni è progettato per gestire le condivisioni di file di reparti, progetti e organizzazioni e i flussi di lavoro delle applicazioni per ogni dipendente, ovunque lavori.

Archiviazione di file nel cloud di Nasuni.

Nasuni offre tre pacchetti, con prezzi per aziende e organizzazioni di tutte le dimensioni, in modo che possano crescere ed espandersi a seconda delle esigenze.

I vantaggi includono quanto segue:

  • Archiviazione dei file principale basata su cloud fino al 70% in meno. L'architettura di Nasuni sfrutta i criteri integrati di gestione del ciclo di vita degli oggetti. Questi criteri consentono la completa flessibilità di utilizzo con le classi di Cloud Storage, tra cui Standard, Nearline, Coldline e Archive. Utilizzando la classe Archive ad accesso immediato per l'archiviazione principale con Nasuni, puoi ottenere un risparmio sui costi fino al 70%.

  • Condivisioni di file a livello di reparto e di organizzazione nel cloud. L'architettura basata su cloud di Nasuni offre un unico spazio dei nomi globale nelle regioni di Google Cloud, senza limiti per il numero di file, dimensioni di file o snapshot, consentendoti di archiviare i file direttamente dal tuo desktop in Google Cloud attraverso protocolli standard di mappatura delle unità NAS (PMI).

  • Backup e ripristino di emergenza integrati. Le operazioni "set-it and save-it " di Nasuni semplificano la gestione dell'archiviazione globale dei file. Backup e RE sono inclusi e un'unica console di gestione ti consente di supervisionare e controllare l'ambiente ovunque e in qualsiasi momento.

  • Sostituisce i file server obsoleti. Nasuni semplifica la migrazione dei file server Microsoft Windows e di altri sistemi di archiviazione di file esistenti a Google Cloud, riducendo i costi e la complessità di gestione di questi ambienti.

Per ulteriori informazioni, consulta le seguenti risorse:

Sycomp Storage alimentato da IBM Spectrum Scale

Sycomp Storage Powered by IBM Spectrum Scale in Google Cloud Marketplace ti consente di eseguire carichi di lavoro di computing ad alte prestazioni (HPC), intelligenza artificiale (AI), machine learning (ML) e big data in Google Cloud. Con Sycomp Storage puoi accedere contemporaneamente ai dati di migliaia di VM, ridurre i costi gestendo automaticamente i livelli di archiviazione ed eseguire la tua applicazione on-premise o in Google Cloud. Sycomp Storage Powered by IBM Spectrum Scale è disponibile in Cloud Marketplace, può essere implementato rapidamente e supporta l'accesso ai dati tramite NFS e il client IBM Spectrum Scale.

IBM Spectrum Scale è un file system parallelo che consente di gestire in modo sicuro grandi volumi (PB) di dati. Il file system parallelo Spectrum Scale di IBM è adatto per HPC, AI, ML, big data e altre applicazioni che richiedono un file system condiviso conforme a POSIX. Grazie alla capacità di archiviazione adattabile e alla scalabilità delle prestazioni, Sycomp Storage è in grado di supportare carichi di lavoro HPC, AI e ML da piccoli a grandi.

Dopo aver eseguito il deployment di un cluster in Google Cloud, decidi tu come utilizzarlo. Scegli se utilizzarlo solo nel cloud o in modalità ibrida connettendoti a un cluster IBM Spectrum Scale esistente.

Per ulteriori informazioni, consulta le seguenti risorse:

Log delle modifiche

Questa sezione fornisce un riepilogo delle modifiche tecniche significative apportate a questa guida.

Data Descrizione delle modifiche
19 dicembre 2023
  • Aggiornamento della pacchettizzazione e della denominazione di Filestore High Scale (ora Filestore a livello di zona).
  • Supporto di zona Filestore aggiornato per il driver CSI.
  • Sono stati aggiunti Google Cloud NetApp Volumes come soluzione file gestita.
  • Rimosso NetApp Cloud Volume Service come offerta di Cloud Marketplace.
30 novembre 2023
  • Rimosso Dell PowerScale come soluzione partner da Cloud Marketplace.
  • Panzura rimossa come soluzione partner da Cloud Marketplace.

Collaboratori

Autore: Sean Derrington | Group Outbound Product Manager, Storage

Altri collaboratori: