Archiviazione di file su Compute Engine

Last reviewed 2024-07-24 UTC

L'archiviazione file, nota anche come NAS (Network Attached Storage), fornisce alle applicazioni accesso a livello di file per leggere e aggiornare le informazioni che possono essere condivise su più macchine. Alcune soluzioni di archiviazione di file on-premise hanno una scalabilità verticale e aggiunge spazio di archiviazione a una quantità fissa di risorse di calcolo. Altre soluzioni di archiviazione di file hanno un'architettura di scale out in cui capacità il computing (prestazioni) può essere aggiunto in modo incrementale a un file system esistente necessaria. In entrambe le architetture di archiviazione, una o più macchine virtuali (VM) possono accedere allo spazio di archiviazione.

Sebbene alcuni file system utilizzino un client POSIX nativo, molti sistemi di archiviazione utilizzano un protocollo che consente alle macchine client di montare un file system e accedere ai file come se fossero ospitati localmente. I protocolli più comuni per l'esportazione delle condivisioni file sono Network File System (NFS) per Linux (e in alcuni casi Windows) e Server Message Block (SMB) per Windows.

Questo documento descrive le seguenti opzioni per la condivisione dei file:

Un fattore di base delle prestazioni e della prevedibilità di tutti i servizi Google Cloud è lo stack di rete che Google ha sviluppato nel corso di molti anni. Con Jupiter Fabric, Google ha creato uno stack di rete solido, scalabile e stabile che può continuare a evolversi senza influire sui tuoi carichi di lavoro. Mentre Google migliora e rafforza le sue funzionalità di rete interne, la soluzione di condivisione file trae vantaggio dall'aggiunta delle prestazioni.

Una funzionalità di Google Cloud che può aiutarti a ottenere il massimo dal tuo investimento è la possibilità di specificare tipi di VM personalizzate. Quando scegli le dimensioni del filer, puoi scegliere esattamente la combinazione ottimale di memoria e CPU, in modo che il filer funzioni con prestazioni ottimali senza essere sovrascritto.

Inoltre, è importante scegliere il Compute Engine corretto del disco permanente e il numero di vCPU per garantire che i dispositivi di archiviazione ricevono la larghezza di banda e gli IOP necessari, e la larghezza di banda della rete. Una VM riceve 2 Gbps di velocità effettiva di rete per ogni vCPU (fino al massimo). Per ottimizzare il disco permanente, consulta Ottimizzazione delle prestazioni dei dischi permanenti e degli SSD locali.

Tieni presente che Cloud Storage è anche un ottimo modo per archiviare petabyte di dati con elevati livelli di redundanza a basso costo, ma Cloud Storage ha un profilo di prestazioni e un'API diversi rispetto ai file server discussi qui.

Riepilogo delle soluzioni per file server

La seguente tabella riassume le soluzioni e le funzionalità dei file server:

Soluzione Set di dati ottimale Velocità effettiva Assistenza gestita Protocolli di esportazione
Filestore Basic Da 1 TiB a 64 TiB Fino a 1,2 GiB/s Completamente gestito da Google NFSv3
Filestore Zonal Da 1 TiB a 100 TiB Fino a 26 GiB/s Completamente gestito da Google NFSv3
Filestore a livello di regione Da 1 TiB a 100 TiB Fino a 26 GiB/s Completamente gestito da Google NFSv3
Google Cloud NetApp Volumes Da 1 GiB a 100 TiB MB/s a 4,5 GiB/s Completamente gestito da Google NFSv3, NFSv4.1, SMB2, SMB3
NetApp Cloud Volumes ONTAP Da 1 GiB a 1 PiB varia Gestita dal cliente NFSv3, NFSv4.1, SMB2, SMB3, iSCSI
Nasuni Da decine di TB a più di 1 PB Fino a 1,2 Gbps Gestita da Nasuni e dal cliente NFSv3, NFSv4, NFSv4.1, NFSv4.2, SMB2, SMB3
Disco permanente di sola lettura < 64 TB Da 240 a 1200 MBps No Collegamento diretto

Disco permanente e SSD locale

Se hai dati a cui deve accedere solo una singola VM o che non cambiano nel tempo, puoi utilizzare i volumi di dischi permanenti Compute Engine ed evitare del tutto un file server. Con i dischi permanenti, puoi formattarli con un file system come Ext4 o XFS e collegare i volumi in modalità di lettura e scrittura o di sola lettura. Ciò significa che puoi prima collegare un volume a un'istanza, caricarlo con i dati necessari e poi collegarlo come disco di sola lettura a centinaia di VM contemporaneamente. L'utilizzo di dischi permanenti di sola lettura non funziona per tutti i casi d'uso, ma può ridurre notevolmente la complessità rispetto all'utilizzo di un file server.

I dischi permanenti offrono prestazioni costanti. Tutti i dischi delle stesse dimensioni (e per i dischi permanenti SSD, lo stesso numero di vCPU) che colleghi le stesse caratteristiche di prestazioni dell'istanza. Non è necessario preriscaldare o testare i dischi permanenti prima di utilizzarli in produzione.

Il costo dei dischi permanenti è facile da determinare perché non ci sono costi di I/O da considerare dopo il provisioning del volume. I dischi permanenti possono anche essere ridimensionati se necessario. Ciò ti consente di iniziare con un modello di prezzi senza dover creare istanze o dischi aggiuntivi e scalare la capacità.

Se la capacità di archiviazione totale è il requisito principale, puoi utilizzare dischi permanenti standard a basso costo. Per un rendimento ottimale senza compromettere la durabilità, puoi usare i dischi permanenti SSD.

Se i tuoi dati sono temporanei e richiedono una latenza inferiore al millisecondo e un I/O elevato operazioni al secondo (IOPS), potete sfruttare fino a 9 TB di SSD locali per prestazioni estreme. Le unità SSD locali forniscono una larghezza di banda di GBps e milioni di IOPS, il tutto senza utilizzare la larghezza di banda di rete allocata delle istanze. È è importante ricordare, tuttavia, che gli SSD locali presentano alcuni disponibilità, durabilità e flessibilità.

Per un confronto dei molti tipi di dischi disponibili per le istanze Compute Engine, consulta la documentazione per lo spazio di archiviazione a blocchi.

Considerazioni sulla scelta di una soluzione di archiviazione file

La scelta di una soluzione di archiviazione di file richiede compromessi in termini di gestibilità, costi, prestazioni e scalabilità. A prendere la decisione semplifica il lavoro con un carico di lavoro ben definito, cosa che non accade spesso. Se i carichi di lavoro si evolvono nel tempo o sono molto variabili, è consigliabile scambiare i risparmi sui costi con flessibilità ed elasticità, in modo da poter crescere con la tua soluzione. D'altra parte, se hai un modello temporale e per un carico di lavoro, puoi creare un'architettura di archiviazione di file distruggere e ricreare per soddisfare le tue esigenze immediate di archiviazione.

Una delle prime decisioni da prendere è se vuoi pagare per un un servizio di archiviazione, una soluzione che include assistenza per i prodotti o soluzione non supportata.

  • I servizi di archiviazione di file gestiti sono i più facili da funzionare, in quanto Tutte le operazioni sono gestite da Google o da un partner. Questi servizi potrebbero persino fornire un accordo sul livello del servizio (SLA) per la disponibilità, come la maggior parte degli altri servizi Google Cloud.
  • Le soluzioni non gestite, ma supportate, offrono una maggiore flessibilità. I partner possono aiutarti in caso di problemi, ma il funzionamento quotidiano della soluzione di archiviazione è lasciato all'utente.
  • Le soluzioni non supportate richiedono il massimo impegno per il deployment e la manutenzione, lasciando tutti i problemi all'utente. Queste soluzioni non sono trattate in questo documento.

La decisione successiva consiste nel determinare i requisiti di durata e disponibilità della soluzione. La maggior parte delle soluzioni per i file sono soluzioni zonali e non forniscono protezione per impostazione predefinita in caso di errore nella zona. È quindi importante valutare se è necessaria una soluzione di ripristino di emergenza (DR) che protegga da eventuali errori a livello di zona. Inoltre, è importante comprendere i requisiti dell'applicazione durabilità e disponibilità. Ad esempio, la scelta di unità SSD locali o dischi permanenti nel deployment ha un impatto significativo, così come la configurazione del software della soluzione di file. Ogni soluzione richiede un'attenta pianificazione per ottenere in termini di durabilità, disponibilità e persino errori.

Infine, considera le località (ovvero zone, regioni, dati on-premise center) da cui devi accedere ai dati. Le sedi delle farm di calcolo che accedono ai tuoi dati influiscono sulla scelta della soluzione di filer perché solo alcune soluzioni consentono l'accesso ibrido on-premise e in cloud.

Soluzioni di archiviazione file gestite

Questa sezione descrive le soluzioni gestite da Google per l'archiviazione di file.

Filestore Basic

Filestore è la soluzione NAS completamente gestita di Google.

Le istanze Filestore Basic sono adatte per la condivisione di file, lo sviluppo di software e i carichi di lavoro GKE. Per l'archiviazione dei dati puoi scegliere tra HDD o SSD. L'SSD offre prestazioni migliori. Con entrambe le opzioni, la capacità aumenta in modo incrementale e puoi proteggere i dati utilizzando i backup.

Filestore Zonal

Zona Filestore semplifica l'archiviazione aziendale e la gestione dei dati su Google Cloud e nei cloud ibridi. Filestore Zonal offre accesso parallelo economicamente conveniente e ad alte prestazioni ai dati globali, mantenendo al contempo una consistenza rigorosa grazie a un file system distribuito e scalabile dinamicamente. Con Il servizio di zona Filestore, le applicazioni NFS esistenti e i flussi di lavoro NAS possono possono essere eseguite nel cloud senza richiedere il refactoring, mantenendo comunque i vantaggi e servizi per i dati aziendali, come snapshot e backup. Il driver CSI Filestore consente la persistenza, la portabilità e la condivisione dei dati senza interruzioni per i carichi di lavoro con contenitori.

Puoi scalare le istanze di zona Filestore on demand. Questo consente di creare ed espandere l'infrastruttura del file system quando necessario, assicurando che le prestazioni e la capacità dello spazio di archiviazione devono essere sempre in linea con il flusso di lavoro dinamico i tuoi requisiti. Quando un cluster di zona Filestore si espande, entrambi i metadati e le prestazioni di I/O in modo lineare. Questa scalabilità consente di migliorare e accelerare un'ampia gamma di flussi di lavoro ad alta intensità di dati, tra cui computing ad alte prestazioni, Analytics, aggregazione di dati tra siti, DevOps e molto altro. Di conseguenza, Filestore a livello di zona è ideale per l'utilizzo in settori incentrati sui dati scienze biologiche (ad esempio il sequenziamento del genoma), servizi finanziari e media e intrattenimento.

Filestore a livello di regione

Filestore Regional è una soluzione NFS cloud-native completamente gestita che ti consente di eseguire il deployment di applicazioni basate su file critiche in Google Cloud, supportata da uno SLA che garantisce una disponibilità a livello di regione del 99,99%. Con un SLA (accordo sul livello del servizio) con disponibilità a livello di area geografica del 99,99%, Filestore Regional è progettato per le applicazioni che richiedono un'alta disponibilità. Con pochi clic del mouse (o con alcuni comandi gcloud o chiamate API), puoi eseguire il provisioning delle condivisioni NFS che vengono replicate in modo sincrono su tre zone all'interno di una regione. Se una zona all'interno della regione diventa non disponibile, Filestore Regional continua a fornire in modo trasparente i dati all'applicazione senza alcun intervento operativo da parte tua.

Per proteggere ulteriormente i dati critici, Filestore consente inoltre e conservare snapshot periodici del file system. Con Filestore, puoi recuperare un singolo file o un intero file system in meno di a 10 minuti da uno dei Recovery Point precedenti.

Per le applicazioni critiche come SAP, sia i livelli di database che di applicazione devono essere di alta disponibilità. Per soddisfare questo requisito, puoi eseguire il deployment livello di database a Google Cloud Hyperdisk Extreme, in più zone utilizzando l'alta disponibilità del database integrato. Analogamente, il livello di applicazione NetWeaver, che richiede eseguibili condivisi su molte VM, può essere implementato in Filestore Regional, che replica i dati di Netweaver in più zone all'interno di una regione. Il risultato finale è un processo l'architettura delle applicazioni mission-critical a tre livelli disponibile.

Inoltre, le organizzazioni IT stanno sempre più implementando applicazioni con stato in contenuti su Google Kubernetes Engine (GKE). Questo spesso li spinge a ripensare quale infrastruttura di archiviazione utilizzare per supportare queste applicazioni. Puoi utilizzare lo spazio di archiviazione a blocchi (Persistent Disk), lo spazio di archiviazione di file (Filestore Basic, zonale o regionale) o lo spazio di archiviazione di oggetti (Cloud Storage). Filestore Multishares per GKE combinato con il driver CSI Filestore consente alle organizzazioni che richiedono più pod GKE di avere accesso ai file condivisi, fornendo un livello più elevato di disponibilità per i carichi di lavoro mission-critical.

NetApp Volumes

NetApp Volumes è un servizio Google completamente gestito che ti consente di montare rapidamente l'archiviazione di file condivisa sulle tue istanze di calcolo Google Cloud. NetApp Volumes supporta l'accesso SMB, NFS e multiprotocollo. NetApp Volumes offre alle tue applicazioni prestazioni elevate con bassa latenza, oltre a funzionalità di protezione dei dati efficaci: snapshot, copie, replica tra regioni e backup. Il servizio è adatto alle applicazioni richiedono carichi di lavoro sia sequenziali che casuali, che possono scalare in centinaia o migliaia di istanze Compute Engine. In pochi secondi, è possibile eseguire il provisioning e proteggere i volumi con dimensioni che vanno da 100 GiB a 100 TiB con funzionalità di protezione dei dati efficaci. Con tre livelli di servizio (Standard, Premium e estrema) che si può cambiare on demand, NetApp Volumes offre le prestazioni appropriate per il tuo carico di lavoro, senza influire sulla disponibilità. Per informazioni sulle località di Google Cloud in cui è disponibile NetApp Volumes, consulta Località di NetApp Volumes.

Soluzioni dei partner in Cloud Marketplace

Le seguenti soluzioni fornite dai partner sono disponibili in Google Cloud Marketplace.

NetApp Cloud Volumes ONTAP

NetApp Cloud Volumes ONTAP (NetApp CVO) è una soluzione basata su cloud e gestita dal cliente che offre l'intero set di funzionalità ONTAP Il principale sistema operativo di gestione dei dati di NetApp fino a Google Cloud. NetApp CVO viene implementato all'interno della tua VPC, con fatturazione e assistenza da parte di Google. Il software ONTAP viene eseguito su una VM di Compute Engine e utilizza un combinazione di dischi permanenti e bucket Cloud Storage (se disponi di livelli attiva) per archiviare i dati NAS. Il filer integrato ospita il sistema NAS i volumi usando il thin provisioning, così paghi solo per lo spazio di archiviazione che utilizzi. Come aumenta il volume dei dati, alla capacità aggregata vengono aggiunti altri dischi piscina.

NetApp CVO astrae l'infrastruttura sottostante e ti consente di creare volumi di dati estratti dal pool aggregato che sono coerenti con tutti volumi ONTAP in qualsiasi ambiente cloud o on-premise. I volumi di dati che create e devono supportare tutte le versioni di NFS, SMB, NFS/SMB multiprotocollo e iSCSI. Loro supportare una vasta gamma di carichi di lavoro basati su file, tra cui web e rich media contenuti, utilizzati in molti settori, come l'Electronic Design automation (EDA) media e intrattenimento.

NetApp CVO supporta snapshot istantanei e in tempo reale che consentono di risparmiare spazio, backup incrementali a livello di blocco integrati in Cloud Storage e replica asincrona tra regioni per il ripristino di emergenza. L'opzione per selezionare il tipo di istanza Compute Engine e i dischi permanenti ti consente di ottenere le prestazioni desiderate per i tuoi carichi di lavoro. Anche quando si opera in un ad alte prestazioni, NetApp CVO implementa di efficienza come deduplicazione, compattazione e compressione nonché livello automatico dei dati usati raramente nel bucket Cloud Storage che ti consente di archiviare petabyte di dati riducendo in modo significativo le quantità complessive i costi di archiviazione.

DDN EXAScaler Cloud

La piattaforma EXAScaler Cloud di DDN è un file condiviso parallelo leader del settore soluzione per l'elaborazione dati ad alte prestazioni e per la gestione di grandi volumi dei dati necessari per supportare i carichi di lavoro di AI, HPC e analisi. I clienti che operano nel settore delle scienze biologiche, dell'energia, dei veicoli autonomi, dei servizi finanziari e di altri settori che richiedono un uso intensivo dei dati possono sfruttare EXAScaler Cloud per l'IA e l'analisi nel cloud per massimizzare il ritorno dalle risorse Google Cloud e creare flussi di lavoro agili con il cloud bursting e la conservazione dei dati a lungo termine.

Gli utilizzi ideali di EXAScaler Cloud includono applicazioni di IA di inferenza e di deep learning, architetture di cloud ibrido per il cloud bursting per sfruttare l'elaborazione ad alte prestazioni on demand e come repository per contenere asset a lungo termine da un deployment di EXAScaler on-premise. EXAScaler basato su cloud è semplice da implementare e sfrutta il file system parallelo di DDN, che alimenta più di due terzi dei 100 supercomputer più potenti al mondo.

EXAScaler Cloud è progettato per ottimizzare i carichi di lavoro cloud ad alta intensità di dati per ridurre il time-to-insight riducendo i conflitti di I/O e garantendo un accesso resiliente spazio di archiviazione condiviso per un numero elevato di client. EXAScaler Cloud ottimizza dell'intero ambiente per prestazioni elevate dall'applicazione all'archiviazione tra cui la rete e le istanze di calcolo.

Grazie alle configurazioni flessibili, EXAScaler Cloud è utile per prestazioni carichi di lavoro temporanei, IOPS più permanenti o applicazioni orientate alla velocità effettiva anche i dati persistenti a lungo termine. Emulando le architetture on-premise nel cloud, i clienti possono eseguire la transizione dei carichi di lavoro senza problemi, contribuendo a ridurre al minimo l'interruzione delle applicazioni per gli utenti finali durante lo spostamento dei carichi di lavoro.

DDN EXAScaler Cloud gestisce carichi di lavoro scalabili ed è supportata dalle competenze appreso supportando i più grandi ambienti di dati del mondo. Con le opzioni di assistenza premium, i clienti ricevono la stessa esperienza di assistenza da esperti on-premise e nel cloud.

Per ulteriori informazioni, consulta le seguenti risorse:

Archiviazione dei file su cloud Nasuni

Nasuni sostituisce i file server e i dispositivi NAS aziendali e tutte le infrastrutture associate, incluso l'hardware di backup e RE, con un'alternativa cloud più semplice e a basso costo. Nasuni utilizza l'archiviazione di oggetti Google Cloud per distribuire soluzione di archiviazione Software as a Service (SaaS) più efficiente che scala per gestire una crescita rapida e non strutturata dei dati dei file. Nasuni è progettato per condivisione file di un reparto, un progetto e un'organizzazione e i flussi di lavoro dell'applicazione per ogni dipendente, ovunque lavori.

Cloud File Storage di Nasuni.

Nasuni offre tre pacchetti, con prezzi per aziende e organizzazioni di di tutte le dimensioni, in modo che possano crescere ed espandersi a seconda delle esigenze.

I vantaggi includono:

  • Archiviazione dei file principali basata su cloud fino al 70% in meno. Nasuni sfrutta il ciclo di vita integrato degli oggetti i criteri di gestione. Questi criteri consentono la massima flessibilità per l'utilizzo di Cloud Storage, tra cui Standard, Nearline, Coldline e Archive. Utilizzando la classe di archiviazione ad accesso immediato per lo spazio di archiviazione principale con Nasuni, puoi risparmiare fino al 70% sui costi.

  • Condivisioni di file a livello di organizzazione e dipartimentale nel cloud. Nasuni basata su cloud offre un unico spazio dei nomi globale regioni di Google Cloud, senza limiti relativi a numero di file, di dimensioni o snapshot, che ti consentono di archiviare i file direttamente dal desktop Google Cloud tramite protocolli di mappatura delle unità NAS (SMB) standard.

  • Backup e ripristino di emergenza integrati. Le operazioni "imposta e dimentica" di Nasuni semplificano la gestione dello spazio di archiviazione dei file a livello globale. Backup & RE è e un'unica console di gestione che ti consente di supervisionare e controllare dell'ambiente ovunque e in qualsiasi momento.

  • Sostituisce i file server obsoleti. Nasuni semplifica la migrazione dei file server Microsoft Windows e di altre i file system esistenti in Google Cloud, riducendo i costi e e una gestione complessa di questi ambienti.

Per ulteriori informazioni, consulta le seguenti risorse:

Archiviazione Sycomp basata su IBM Spectrum Scale

Sycomp Storage basato su IBM Spectrum Scale in Google Cloud Marketplace ti consente di eseguire i tuoi carichi di lavoro di calcolo ad alte prestazioni (HPC), intelligenza artificiale (IA), machine learning (ML) e big data in Google Cloud. Con Sycomp Storage puoi accedere contemporaneamente ai dati di migliaia di VM, ridurre i costi gestendo automaticamente i livelli di archiviazione ed eseguire l'applicazione on-premise o in Google Cloud. Sycomp Storage Alimentato da IBM Spectrum Scale è disponibile in può essere implementato rapidamente e supporta l'accesso tramite NFS e il client IBM Spectrum Scale.

IBM Spectrum Scale è un file system parallelo che consente di proteggere gestire grandi volumi di dati (PB). Il file system parallelo IBM Spectrum Scale è adatto per HPC, AI, ML, big data e altre applicazioni che richiedono un file system condiviso conforme a POSIX. Con una capacità di archiviazione adattabile e la scalabilità delle prestazioni, Sycomp Storage può supportare carichi di lavoro HPC, IA e ML di piccole e grandi dimensioni.

Dopo aver eseguito il deployment di un cluster in Google Cloud, sei tu a decidere come usarlo. Scegli se utilizzarlo solo nel cloud o in modalità ibrida collegandoti a un cluster IBM Spectrum Scale on-premise esistente.

Per ulteriori informazioni, consulta le seguenti risorse:

Collaboratori

Autore: Sean Derrington | Group Outbound Product Manager, Storage

Altri collaboratori: