Archiviazione di file su Compute Engine

Last reviewed 2023-12-20 UTC

L'archiviazione di file, nota anche come NAS (Network Attached Storage), fornisce accesso alle applicazioni a livello di file per leggere e aggiornare le informazioni che possono essere condivise tra più macchine. Alcune soluzioni di archiviazione file on-premise prevedono un'architettura di scale up e aggiungono semplicemente spazio di archiviazione a una quantità fissa di risorse di calcolo. Altre soluzioni di archiviazione di file hanno un'architettura a scalabilità orizzontale in cui capacità e calcolo (prestazioni) possono essere aggiunte in modo incrementale a un file system esistente, in base alle esigenze. In entrambe le architetture di archiviazione, una o più macchine virtuali (VM) possono accedere allo spazio di archiviazione.

Sebbene alcuni file system utilizzino un client POSIX nativo, molti sistemi di archiviazione utilizzano un protocollo che consente alle macchine client di montare un file system e di accedere ai file come se fossero ospitati localmente. I protocolli più comuni per l'esportazione di condivisioni di file sono Network File System (NFS) per Linux (e, in alcuni casi, Windows) e Server Message Block (SMB) per Windows.

Questo documento descrive le seguenti opzioni per la condivisione di file:

Un fattore alla base delle prestazioni e della prevedibilità di tutti i servizi Google Cloud è lo stack di rete che Google ha sviluppato nel corso degli anni. Con Jupiter Fabric, Google ha creato uno stack di rete solido, scalabile e stabile in grado di continuare a evolversi senza influire sui carichi di lavoro. Man mano che Google migliora e rafforza le capacità di rete internamente, la tua soluzione di condivisione file trae vantaggio dalle prestazioni aggiuntive.

Una funzionalità di Google Cloud che può aiutarti a ottenere il massimo dal tuo investimento è la possibilità di specificare tipi di VM personalizzate. Quando scegli le dimensioni del tuo filer, puoi scegliere la giusta combinazione di memoria e CPU, in modo che le prestazioni del filer vengano ottimali senza eccedere la sottoscrizione.

Inoltre, è importante scegliere la capacità del disco permanente di Compute Engine e il numero di vCPU corretti per garantire che i dispositivi di archiviazione del tuo file server ricevano la larghezza di banda di archiviazione e gli IOP richiesti, nonché la larghezza di banda di rete. Una VM riceve 2 Gbps di velocità effettiva di rete per ogni vCPU (fino al massimo). Per l'ottimizzazione disco permanente, consulta Ottimizzazione delle prestazioni dei disco permanente e degli SSD locali.

Tieni presente che Cloud Storage è anche un ottimo modo per archiviare petabyte di dati con elevati livelli di ridondanza a basso costo, ma Cloud Storage ha un'API e un profilo di prestazioni diversi rispetto ai file server illustrati qui.

Riepilogo delle soluzioni file-server

La seguente tabella riassume le soluzioni e le funzionalità di file server:

Soluzione Set di dati ottimale Velocità effettiva Assistenza gestita Esporta protocolli
Filestore di base Da 1 TiB a 64 TiB Fino a 1,2 GiB/s Completamente gestito da Google NFSv3
Filestore a livello di zona Da 1 TiB a 100 TiB Fino a 26 GiB/s Completamente gestito da Google NFSv3
Filestore Enterprise Da 1 TiB a 10 TiB Fino a 1,2 GiB/s Completamente gestito da Google NFSv3
Google Cloud NetApp Volumes Da 1 GiB a 100 TiB MB/s a 4,5 GiB/s Completamente gestito da Google NFSv3, NFSv4.1, SMB2, SMB3
NetApp Cloud Volumes ONTAP Da 1 GiB a 1 PiB varia Gestita dal cliente NFSv3, NFSv4.1, SMB2, SMB3, iSCSI
Nasuni Da 10 secondi di TB a > 1 PB Fino a 1,2 GB/s Nasuni e gestito dal cliente NFSv3, NFSv4, NFSv4.1, NFSv4.2, SMB2, SMB3
Persistent Disk di sola lettura < 64 TB Da 240 a 1200 Mbps No Allegato diretto

Persistent Disk e SSD locale

Se disponi di dati ai quali è possibile accedere solo da una singola VM o che non cambiano nel tempo, puoi utilizzare i volumi di dischi permanenti di Compute Engine ed evitare del tutto la creazione di un file server. I dischi permanenti possono essere formattati con un file system come Ext4 o XFS e collegare i volumi in modalità di lettura e scrittura oppure di sola lettura. Ciò significa che puoi prima collegare un volume a un'istanza, caricarlo con i dati necessari e poi collegarlo come disco di sola lettura a centinaia di VM contemporaneamente. L'utilizzo di dischi permanenti di sola lettura non funziona per tutti i casi d'uso, ma può ridurre notevolmente la complessità rispetto a un file server.

I dischi permanenti offrono prestazioni costanti. Tutti i dischi delle stesse dimensioni (e per i dischi permanenti SSD, lo stesso numero di vCPU) che colleghi all'istanza hanno le stesse caratteristiche prestazionali. Non è necessario preparare o testare i dischi permanenti prima di utilizzarli in produzione.

Il costo dei dischi permanenti è semplice da determinare perché non sono previsti costi di I/O da considerare dopo il provisioning del volume. I dischi permanenti possono anche essere ridimensionati all'occorrenza. Ciò ti consente di iniziare con un volume a basso costo e a bassa capacità, senza dover creare istanze o dischi aggiuntivi per scalare la capacità.

Se il requisito principale è la capacità di archiviazione totale, puoi utilizzare dischi permanenti standard a basso costo. Per ottenere prestazioni ottimali, senza compromettere la durabilità, puoi utilizzare i dischi permanenti SSD.

Se i tuoi dati sono temporanei e richiedono una latenza inferiore al millisecondo e un numero elevato di operazioni di I/O al secondo (IOPS), puoi sfruttare fino a 9 TB di SSD locali per ottenere prestazioni estreme. Gli SSD locali forniscono GBps di larghezza di banda e milioni di IOPS, senza consumare la larghezza di banda di rete assegnata alle istanze. È importante ricordare che gli SSD locali presentano determinati compromessi in termini di disponibilità, durabilità e flessibilità.

Per un confronto tra i numerosi tipi di disco disponibili per le istanze di Compute Engine, consulta la documentazione per l'archiviazione a blocchi.

Considerazioni sulla scelta di una soluzione di archiviazione dei file

La scelta di una soluzione di archiviazione dei file richiede dei compromessi in termini di gestibilità, costi, prestazioni e scalabilità. Prendere la decisione è più facile se il carico di lavoro è ben definito, cosa che non accade spesso. Se i carichi di lavoro evolvono nel tempo o sono altamente variabili, è prudente negoziare il risparmio sui costi in termini di flessibilità ed elasticità, in modo da poter crescere nella tua soluzione. Se invece disponi di un carico di lavoro temporale e noto, puoi creare un'architettura di archiviazione dei file creata appositamente per da eliminare e ricreare per soddisfare le tue esigenze di archiviazione immediate.

Una delle prime decisioni da prendere è se vuoi pagare per un servizio di archiviazione gestito, una soluzione che include l'assistenza per i prodotti o una soluzione non supportata.

  • I servizi gestiti di archiviazione file sono i più semplici da utilizzare, perché tutte le operazioni vengono gestite da Google o da un partner. Questi servizi potrebbero anche fornire un accordo sul livello del servizio (SLA) per la disponibilità come la maggior parte degli altri servizi Google Cloud.
  • Le soluzioni non gestite ma supportate offrono una maggiore flessibilità. I partner possono aiutarti per qualsiasi problema, ma il funzionamento giornaliero della soluzione di archiviazione è lasciato all'utente.
  • Le soluzioni non supportate richiedono il massimo impegno di deployment e manutenzione, lasciando tutti i problemi all'utente. Queste soluzioni non sono trattate in questo documento.

La prossima decisione implica la determinazione dei requisiti di durabilità e disponibilità della soluzione. La maggior parte delle soluzioni file sono a livello di zona e non forniscono protezione per impostazione predefinita in caso di errore della zona. È quindi importante valutare se è necessaria una soluzione di ripristino di emergenza (RE) che protegga da guasti a livello di zona. È anche importante comprendere i requisiti delle applicazioni relative a durabilità e disponibilità. Ad esempio, la scelta di SSD locali o di dischi permanenti nel deployment ha un grande impatto, così come la configurazione del software per la soluzione dei file. Ogni soluzione richiede un'attenta pianificazione per ottenere un'elevata durabilità, disponibilità e persino protezione da guasti a livello di zona e regionale.

Infine, considera le località (ovvero zone, regioni e data center on-premise) da cui devi accedere ai dati. Le località delle aziende di computing che accedono ai tuoi dati influiscono sulla scelta della soluzione di archiviazione perché solo alcune soluzioni consentono l'accesso ibrido on-premise e nel cloud.

Soluzioni gestite per l'archiviazione dei file

Questa sezione descrive le soluzioni gestite da Google per l'archiviazione di file.

Filestore Basic

Filestore è la soluzione NAS completamente gestita di Google.

Le istanze Filestore Basic sono adatte per la condivisione di file, lo sviluppo di software e i carichi di lavoro GKE. Puoi scegliere HDD o SSD per l'archiviazione dei dati. SSD offre prestazioni migliori. In entrambi i casi, la capacità fa lo scale up in modo incrementale e puoi proteggere i dati utilizzando i backup.

Filestore Zonal

Filestore di zona semplifica l'archiviazione aziendale e la gestione dei dati su Google Cloud e su cloud ibridi. Filestore di zona offre accesso parallelo economico e ad alte prestazioni ai dati globali, mantenendo al contempo una rigorosa coerenza grazie a un file system distribuito e scalabile dinamicamente. Con Filestore di zona, le applicazioni NFS esistenti e i flussi di lavoro NAS esistenti possono essere eseguiti nel cloud senza richiedere il refactoring, mantenendo al contempo i vantaggi dei servizi dati aziendali (alta disponibilità, compressione, deduplicazione e così via). Il driver CSI di Filestore consente persistenza, portabilità e condivisione dei dati senza soluzione di continuità per i carichi di lavoro containerizzati.

Puoi scalare le istanze di zona Filestore on demand. Ciò consente di creare ed espandere l'infrastruttura del file system quando necessario, assicurando che le prestazioni e la capacità di archiviazione siano sempre in linea con i requisiti dinamici del flusso di lavoro. Con l'espansione di un cluster di zona Filestore, le prestazioni di I/O e dei metadati vengono scalate in modo lineare. Questa scalabilità consente di migliorare e accelerare una vasta gamma di flussi di lavoro che richiedono un uso intensivo dei dati, tra cui computing ad alte prestazioni, analisi, aggregazione di dati tra siti, DevOps e altro ancora. Di conseguenza, Filestore di zona è ideale per l'utilizzo in settori incentrati sui dati come le scienze biologiche (ad esempio il sequenziamento del genoma), i servizi finanziari e media e intrattenimento.

Filestore Enterprise

Filestore Enterprise è una soluzione NFS cloud-native completamente gestita che consente di eseguire il deployment di applicazioni critiche basate su file in Google Cloud, con il supporto di uno SLA che offre una disponibilità regionale del 99,99%. Con uno SLA con disponibilità regionale del 99,99%, Filestore Enterprise è progettato per le applicazioni che richiedono un'alta disponibilità. Con pochi clic del mouse (o alcune chiamate gcloud o alcuni comandi API), puoi eseguire il provisioning delle condivisioni NFS che sono replicate in modo sincrono in tre zone all'interno di una regione. Se una zona all'interno della regione non è più disponibile, Filestore Enterprise continua a fornire dati all'applicazione in modo trasparente senza alcun intervento operativo da parte tua.

Per proteggere ulteriormente i dati critici, Filestore consente anche di acquisire e conservare snapshot periodici del file system. Con Filestore puoi recuperare un singolo file o un intero file system in meno di 10 minuti da uno dei punti di ripristino precedenti.

Per le applicazioni critiche come SAP, sia il livello di database che quello di applicazione devono essere ad alta disponibilità. Per soddisfare questo requisito, puoi eseguire il deployment del livello di database SAP su Persistent Disk, in più zone utilizzando l'alta disponibilità integrata del database. Allo stesso modo, è possibile eseguire il deployment del livello di applicazione NetWeaver, che richiede eseguibili condivisi tra molte VM, su Filestore Enterprise, che replica i dati di NetWeaver in più zone all'interno di una regione. Il risultato finale è un'architettura di applicazioni mission-critical a tre livelli ad alta disponibilità.

Le organizzazioni IT stanno eseguendo sempre più il deployment di applicazioni stateful in container su Google Kubernetes Engine (GKE). Questo spesso lo porta a ripensare a quale infrastruttura di archiviazione usare. Puoi utilizzare l'archiviazione a blocchi (Persistent Disk), l'archiviazione di file (Filestore Basic, a livello di zona o Enterprise) o l'archiviazione di oggetti (Cloud Storage). Filestore Enterprise, con il suo driver CSI Filestore gestito e il supporto multishare, consente alle organizzazioni che richiedono più pod GKE di accedere ai file condivisi, fornendo un maggiore livello di disponibilità per i carichi di lavoro mission-critical.

NetApp Volumes

NetApp Volumes è un servizio Google completamente gestito che consente di montare rapidamente l'archiviazione di file condivisi sulle istanze di computing Google Cloud. NetApp Volumes supporta l'accesso SMB, NFS e multiprotocollo. NetApp Volumes offre prestazioni elevate per le tue applicazioni a bassa latenza, con solide funzionalità di protezione dei dati: snapshot, copie, replica tra regioni e backup. Il servizio è adatto per applicazioni che richiedono carichi di lavoro sequenziali e casuali, in grado di scalare su centinaia o migliaia di istanze di Compute Engine. In pochi secondi, è possibile eseguire il provisioning e la protezione di volumi con dimensioni comprese tra 100 GiB e 100 TiB con solide capacità di protezione dei dati. Con tre livelli di servizio (Standard, Premium ed Estreme) che puoi modificare on demand, NetApp Volumes offre le prestazioni appropriate per il tuo carico di lavoro, senza influire sulla disponibilità. Per informazioni sulle località di Google Cloud in cui è disponibile NetApp Volumes, consulta Località di NetApp Volumes.

Soluzioni dei partner in Cloud Marketplace

Le seguenti soluzioni fornite dai partner sono disponibili in Cloud Marketplace.

NetApp Cloud Volumes ONTAP

NetApp Cloud Volumes ONTAP (NetApp CVO) è una soluzione basata su cloud gestita dal cliente che porta in Google Cloud l'insieme completo di funzionalità di ONTAP, il sistema operativo di gestione dei dati leader di NetApp. Il deployment di NetApp CVO viene eseguito all'interno del tuo VPC, con fatturazione e assistenza da parte di Google. Il software ONTAP viene eseguito su una VM di Compute Engine e utilizza una combinazione di dischi permanenti e bucket Cloud Storage (se il livello è abilitato) per archiviare i dati NAS. Il filer integrato supporta i volumi NAS utilizzando il thin provisioning, così da pagare solo per lo spazio di archiviazione utilizzato. Man mano che i dati aumentano, vengono aggiunti altri dischi permanenti al pool di capacità aggregata.

NetApp CVO astrae l'infrastruttura sottostante e ti consente di creare volumi di dati virtuali ricavati dal pool aggregato che siano coerenti con tutti gli altri volumi ONTAP su qualsiasi ambiente cloud o on-premise. I volumi di dati che crei supportano tutte le versioni di NFS, SMB, NFS/SMB multiprotocollo e iSCSI. Supportano un'ampia gamma di carichi di lavoro basati su file, tra cui contenuti web e rich media, utilizzati in molti settori, come l'automazione della progettazione elettronica (EDA) e media e intrattenimento.

NetApp CVO supporta snapshot point-in-time istantanei e risparmiando spazio, integrati a livello di blocco, backup incrementale per sempre in Cloud Storage e replica asincrona tra regioni per il ripristino di emergenza. L'opzione di selezione del tipo di istanza e dischi permanenti di Compute Engine consente di ottenere le prestazioni desiderate per i carichi di lavoro. Anche quando opera in una configurazione ad alte prestazioni, NetApp CVO implementa efficienze di archiviazione come deduplicazione, compattazione e compressione, nonché livelli automatici dei dati utilizzati raramente nel bucket Cloud Storage, permettendoti di archiviare petabyte di dati riducendo significativamente i costi di archiviazione complessivi.

Cloud EXAScaler DDN

La piattaforma EXAScaler Cloud di DDN è una soluzione leader del settore di file condivisi in parallelo per l'elaborazione di dati ad alte prestazioni e per la gestione di grandi volumi di dati necessari per supportare carichi di lavoro di AI, HPC e analisi. I clienti del settore delle scienze biologiche, dell'energia, dei veicoli autonomi, dei servizi finanziari e di altri clienti ad alta intensità di dati possono sfruttare EXAScaler Cloud per l'AI e l'analisi nel cloud per massimizzare il ritorno dalle risorse Google Cloud e creare flussi di lavoro agili con cloud bursting e conservazione dei dati a lungo termine.

Gli utilizzi ideali di EXAScaler Cloud includono applicazioni AI di deep learning e inferenza, architetture cloud ibride per il cloud bursting per sfruttare l'elaborazione on demand ad alte prestazioni e come repository per conservare asset a lungo termine da un deployment EXAScaler on-premise. EXAScaler basato su cloud è semplice da implementare e sfrutta il file system parallelo di DDN, su cui si basano oltre due terzi dei primi 100 supercomputer.

EXAScaler Cloud è progettato per ottimizzare i carichi di lavoro cloud che richiedono un uso intensivo dei dati per ridurre il time-to-insight riducendo i conflitti di I/O e fornendo un accesso resiliente allo spazio di archiviazione condiviso per un numero elevato di client. EXAScaler Cloud ottimizza l'intero ambiente per garantire prestazioni elevate dall'applicazione ai dispositivi di archiviazione, comprese la rete e le istanze di calcolo stesse.

Grazie alle configurazioni flessibili, EXAScaler Cloud è utile per carichi di lavoro di scraping ad alte prestazioni, per IOPS o applicazioni più permanenti orientate alla velocità effettiva, nonché per dati permanenti a lungo termine. Imitando le architetture on-premise nel cloud, i clienti possono trasferire i carichi di lavoro senza problemi, riducendo al minimo l'interruzione delle applicazioni per l'utente finale durante lo spostamento dei carichi di lavoro.

DDN EXAScaler Cloud gestisce carichi di lavoro scalabili ed è supportato dall'esperienza appresa a supportare i più grandi ambienti di dati al mondo. Con le opzioni di assistenza premium, i clienti usufruiscono della stessa esperienza di assistenza da parte di esperti on-premise e nel cloud.

Per ulteriori informazioni, consulta le seguenti risorse:

Archiviazione di file nel cloud Nasuni

Nasuni sostituisce file server aziendali e dispositivi NAS e tutte le infrastrutture associate, compreso l'hardware di backup e RE, con un'alternativa cloud più semplice e a basso costo. Nasuni utilizza l'archiviazione di oggetti Google Cloud per offrire una soluzione di archiviazione SaaS (Software-as-a-Service) più efficiente e scalabile per gestire una rapida crescita dei dati dei file non strutturati. Nasuni è progettato per gestire le condivisioni di file di reparti, progetti e organizzazioni e i flussi di lavoro delle applicazioni per ogni dipendente, ovunque lavori.

Archiviazione di file nel cloud Nasuni.

Nasuni offre tre pacchetti con prezzi per aziende e organizzazioni di tutte le dimensioni, in modo da poter crescere ed espandersi in base alle esigenze.

I vantaggi includono:

  • Archiviazione dei file principali basata su cloud: fino al 70% in meno. L'architettura di Nasuni sfrutta i criteri integrati di gestione del ciclo di vita degli oggetti. Questi criteri consentono una completa flessibilità per l'utilizzo con le classi di Cloud Storage, tra cui Standard, Nearline, Coldline e Archive. Utilizzando la classe ad accesso immediato Archive per l'archiviazione primaria con Nasuni, puoi ottenere risparmi fino al 70%.

  • Condivisioni di file dipartimentali e organizzative nel cloud. L'architettura basata su cloud di Nasuni offre un unico spazio dei nomi globale nelle regioni Google Cloud, senza limiti per il numero di file, dimensioni dei file o snapshot, consentendoti di archiviare i file direttamente dal desktop in Google Cloud tramite protocolli di mappatura delle unità NAS (SMB) standard.

  • Backup e ripristino di emergenza integrati. Le operazioni "set-it and save-it " di Nasuni semplificano la gestione dell'archiviazione globale dei file. Backup e RE sono inclusi e un'unica console di gestione ti consente di supervisionare e controllare l'ambiente ovunque e in qualsiasi momento.

  • Sostituisce i file server obsoleti. Nasuni semplifica la migrazione in Google Cloud dei file server Microsoft Windows e di altri sistemi di archiviazione di file esistenti, riducendo i costi e la complessità di gestione di questi ambienti.

Per ulteriori informazioni, consulta le seguenti risorse:

Sycomp Storage Powered by IBM Spectrum Scale

Sycomp Storage Powered by IBM Spectrum Scale in Google Cloud Marketplace ti consente di eseguire carichi di lavoro di computing ad alte prestazioni (HPC), intelligenza artificiale (AI), machine learning (ML) e big data in Google Cloud. Con Sycomp Storage puoi accedere contemporaneamente ai dati di migliaia di VM, ridurre i costi gestendo automaticamente i livelli di archiviazione ed eseguire la tua applicazione on-premise o in Google Cloud. Sycomp Storage Powered by IBM Spectrum Scale è disponibile in Cloud Marketplace, può essere sottoposto a deployment rapidamente e supporta l'accesso ai dati tramite NFS e il client IBM Spectrum Scale.

IBM Spectrum Scale è un file system parallelo che consente di gestire in modo sicuro grandi volumi (PB) di dati. Il file system parallelo IBM Spectrum Scale è adatto per HPC, AI, ML, big data e altre applicazioni che richiedono un file system condiviso conforme a POSIX. Grazie alla capacità di archiviazione e alla scalabilità delle prestazioni adattabili, Sycomp Storage è in grado di supportare carichi di lavoro HPC, AI e ML da piccoli a grandi.

Dopo aver eseguito il deployment di un cluster in Google Cloud, puoi decidere come utilizzarlo. Scegli se utilizzarlo solo nel cloud o in modalità ibrida collegandoti a un cluster IBM Spectrum Scale esistente on-premise.

Per ulteriori informazioni, consulta le seguenti risorse:

Log delle modifiche

Questa sezione fornisce un riepilogo delle modifiche tecniche significative in questa guida.

Data Descrizione delle modifiche
19 dicembre 2023
  • Aggiornamento della pacchettizzazione e della denominazione di Filestore High Scale (ora Filestore a livello di zona).
  • Supporto di zona di Filestore aggiornato per il driver CSI.
  • Aggiunta di Google Cloud NetApp Volumes come soluzione file gestita.
  • Rimosso NetApp Cloud Volume Service come offerta di Cloud Marketplace.
30 novembre 2023
  • Rimosso Dell PowerScale come soluzione partner da Cloud Marketplace.
  • È stato rimosso Panzura come soluzione partner da Cloud Marketplace.

Collaboratori

Autore: Sean Derrington | Group Outbound Product Manager, Storage

Altri collaboratori: