Cloud Storage è un servizio altamente scalabile che utilizza la tecnologia di scalabilità automatica per raggiungere tassi di richiesta molto elevati. Questa pagina illustra le linee guida per ottimizzare la scalabilità e le prestazioni offerte da Cloud Storage.
Scalabilità automatica
Cloud Storage è un servizio multi-tenant, il che significa che gli utenti condividono lo stesso insieme di risorse sottostanti. Per utilizzare al meglio queste risorse condivise, i bucket hanno una capacità IO iniziale di:
- Circa 1000 richieste di scrittura di oggetti al secondo, inclusi caricamento, aggiornamento ed eliminazione di oggetti. Tieni presente che Cloud Storage ha anche un limite più basso per le scritture ripetute nello stesso nome dell'oggetto.
- Circa 5000 richieste di lettura di oggetti al secondo, che includono l'elenco degli oggetti, la lettura dei dati degli oggetti e la lettura dei metadati degli oggetti.
Queste frequenze di lettura e scrittura iniziali hanno una media di 2,5 PB scritti e 13 PB letti in un mese per oggetti di 1 MB. Con l'aumento del tasso di richieste per un determinato bucket, Cloud Storage esegue la scalabilità automatica e aumenta automaticamente la capacità di I/O per quel bucket distribuendo il carico delle richieste su più server.
Tempo di ridistribuzione del carico
Quando un bucket si avvicina al limite della capacità di I/O, in genere Cloud Storage impiega alcuni minuti per rilevare e ridistribuire di conseguenza il carico su più server. Di conseguenza, se la tasso di richieste del bucket aumenta più velocemente di quanto Cloud Storage possa eseguire questa ridistribuzione, potresti riscontrare limiti temporanei, in particolare una latenza e tassi di errore più elevati. Aumentare gradualmente la tasso di richieste per i bucket, come descritto di seguito, consente di evitare questi errori e questa latenza.
Indicizzazione delle chiavi degli oggetti
Cloud Storage supporta l'elenco di oggetti coerenti, che consente agli utenti di eseguire facilmente flussi di lavoro di elaborazione dei dati su Cloud Storage. Per fornire un elenco di oggetti coerente, Cloud Storage gestisce un indice delle chiavi degli oggetti per ogni bucket. Questo indice viene archiviato in ordine alfabetico e viene aggiornato ogni volta che gli oggetti vengono scritti o eliminati da un bucket. L'aggiunta ed eliminazione di oggetti le cui chiavi esistono tutte in un piccolo intervallo dell'indice aumentano naturalmente le probabilità di concorrenza.
Cloud Storage rileva questa contesa, nota anche come hotspotting, e ridistribuisce automaticamente il carico sull'intervallo dell'indice interessato su più server. Analogamente allo scaling della capacità IO di un bucket, quando accedi a un nuovo intervallo dell'indice, ad esempio quando scrivi oggetti sotto un nuovo prefisso, devi aumentare gradualmente la frequenza di richiesta, come descritto di seguito. In caso contrario, la latenza e i tassi di errore potrebbero essere temporaneamente più elevati.
Best practice
Le sezioni seguenti forniscono best practice su come aumentare la frequenza di richiesta, scegliere le chiavi degli oggetti e distribuire le richieste per evitare limiti temporanei nel bucket. Tieni presente che, oltre a queste considerazioni per bucket, esistono anche limiti di larghezza di banda combinati che si applicano ai bucket nello stesso progetto e nella stessa località.
Aumenta gradualmente il tasso di richieste
Per assicurarti che la scalabilità automatica di Cloud Storage offra sempre le migliori prestazioni, devi aumentare gradualmente il tasso di richieste per tutti i bucket che non hanno registrato un tasso di richieste elevato da diversi giorni o che hanno un nuovo intervallo di chiavi degli oggetti. Se la frequenza delle richieste è inferiore a 1000 richieste di scrittura al secondo o a 5000 richieste di lettura al secondo, non è necessario alcun periodo di transizione. Se si prevede che il tasso di richieste superi queste soglie, devi iniziare con un tasso di richieste inferiore o vicino alle soglie e poi aumentarlo gradualmente non più velocemente del raddoppio del tasso in un periodo di 20 minuti.
Se riscontri problemi come un aumento della latenza o dei tassi di errore, metti in pausa la fase di implementazione o riduci temporaneamente la tasso di richieste per dare a Cloud Storage più tempo per scalare il bucket. Devi effettuare nuovi tentativi per le richieste con backoff esponenziale quando:
- Ricezione di errori con i codici di risposta
408
e429
. - Ricezione di errori con codici di risposta
5xx
.
I bucket con spazio dei nomi gerarchico abilitato offrono limiti iniziali di query al secondo (QPS) fino a otto volte superiori per la lettura e la scrittura di oggetti rispetto ai bucket senza spazio dei nomi gerarchico abilitato. Il QPS iniziale più elevato semplifica la scalabilità dei carichi di lavoro che richiedono un uso intensivo dei dati e offre una maggiore velocità in uscita. Per ulteriori informazioni sull'abilitazione dello spazio dei nomi gerarchico nel bucket, consulta Creare un bucket con lo spazio dei nomi gerarchico abilitato.
Utilizza una convenzione di denominazione che distribuisca il carico in modo uniforme tra gli intervalli di chiavi
La scalabilità automatica di un intervallo di indici può essere rallentata quando si utilizzano nomi sequenziali, come le chiavi degli oggetti basate su una sequenza di numeri o timestamp. Questo accade perché le richieste passano costantemente a un nuovo intervallo di indici, rendendo la redistribuzione del carico più difficile e meno efficace.
Per mantenere un tasso di richieste elevato, evita di utilizzare nomi sequenziali. L'utilizzo di nomi di oggetti completamente casuali offre la migliore distribuzione del carico. Se vuoi utilizzare numeri sequenziali o timestamp come parte degli oggetti, introduci la casualità nei nomi degli oggetti aggiungendo un valore hash prima del numero di sequenza o del timestamp.
Ad esempio, se i nomi degli oggetti originali che vuoi utilizzare sono:
my-bucket/2016-05-10-12-00-00/file1 my-bucket/2016-05-10-12-00-00/file2 my-bucket/2016-05-10-12-00-01/file3 ...
Puoi calcolare l'hash MD5 del nome dell'oggetto originale e aggiungere i primi 6 caratteri dell'hash come prefisso al nome dell'oggetto. I nuovi nomi degli oggetti diventano:
my-bucket/2fa764-2016-05-10-12-00-00/file1 my-bucket/5ca42c-2016-05-10-12-00-00/file2 my-bucket/6e9b84-2016-05-10-12-00-01/file3 ...
Un prefisso casuale più lungo offre una scalabilità automatica più efficace quando si passa a velocità di lettura e scrittura molto elevate. Ad esempio, un prefisso di 1 carattere che utilizza un valore esadecimale random fornisce un'automazione efficace dalle 5000/1000 letture/scritture al secondo iniziali fino a circa 80000/16000 letture/scritture al secondo, perché il prefisso ha 16 valori potenziali. Se il tuo caso d'uso non richiede un numero di richieste superiore, un prefisso casuale di 1 carattere è altrettanto efficace per aumentare le frequenze di richiesta di un prefisso casuale di 2 caratteri o più.
La casualità dopo un prefisso comune è efficace sotto il prefisso
Tieni presente che la stringa casuale non deve necessariamente trovarsi all'inizio del nome dell'oggetto. L'aggiunta di una stringa casuale dopo un prefisso comune consente comunque di utilizzare la scalabilità automatica, ma l'effetto è limitato a quel prefisso, senza considerare il resto del bucket.
Ad esempio:
my-bucket/images/animals/4ce4c6af-6d27-4fa3-8a91-5701a8552705/1.jpg my-bucket/images/animals/9a495e72-1d85-4637-a243-cbf3e4a90ae7/2.jpg ... my-bucket/images/landscape/585356ac-ce89-47a8-bdd2-78a86b58fee6/1.jpg my-bucket/images/landscape/2550ae5b-395e-4243-a29b-bbf5aece60ef/2.jpg ... my-bucket/images/clouds/1.jpg my-bucket/images/clouds/2.jpg ...
La denominazione sopra riportata consente una scalabilità automatica efficiente degli oggetti in images/animals
e images/landscape,
, ma non in images/clouds
.
La casualità dopo i prefissi sequenziali non è altrettanto efficace
Come accennato sopra, l'utilizzo di una stringa casuale dopo un prefisso comune è utile solo per l'autoscaling sotto quel prefisso. Una volta che le richieste passano a un nuovo prefisso, potresti non più beneficiare degli effetti della scalabilità automatica precedenti. Questo è un problema soprattutto quando i prefissi seguono uno schema sequenziale.
Ad esempio, se scrivi file con un nuovo prefisso basato su timestamp ogni ora:
my-bucket/2016-05-10-00/cf9a7b95-0d2e-4466-9596-840ff388ddbd my-bucket/2016-05-10-00/f1e16a88-16b8-4c66-ba66-a225c87be80c my-bucket/2016-05-10-00/646d8272-4a88-4dc2-b2d4-d537c778df41 ... my-bucket/2016-05-10-01/bdcba6de-ac25-4c27-8550-0d08f249e69d my-bucket/2016-05-10-01/a32c867c-09a9-4d65-9668-ddd4ebe4138b my-bucket/2016-05-10-01/d619485c-5243-4a4e-8ef3-0f7e1d26ce1d ...
Sebbene la scalabilità automatica aiuti ad aumentare la frequenza di scrittura in un prefisso nel tempo, la frequenza di scrittura viene reimpostata all'inizio di ogni ora. Ciò comporta una frequenza di scrittura non ottimale e aumenti periodici della latenza e del tasso di errore. Se devi scrivere in prefissi diversi nel tempo, per evitare questo problema, assicurati che i nuovi prefissi siano distribuiti uniformemente nell'intero intervallo di chiavi.
Riordina le operazioni collettive per distribuire il carico in modo uniforme tra gli intervalli di chiavi
A volte potresti voler eseguire un caricamento collettivo o un'eliminazione collettiva dei dati in Cloud Storage. In entrambi i casi, potresti non avere il controllo sui nomi degli oggetti. Tuttavia, puoi controllare l'ordine in cui gli oggetti vengono caricati o eliminati per ottenere la massima frequenza di scrittura o eliminazione possibile.
A tal fine, devi distribuire i caricamenti o le eliminazioni su più prefissi. Ad esempio, se hai molte cartelle e molti file da caricare in ogni cartella, una buona strategia è caricare da più cartelle in parallelo e scegliere in modo casuale quali cartelle e file caricare. In questo modo, il sistema può distribuire il carico in modo più uniforme nell'intero intervallo di chiavi, il che consente di ottenere un tasso di richieste elevato dopo l'aumento iniziale.
Passaggi successivi
- Esamina le quote e i limiti di Cloud Storage.
- Scopri la strategia di ripetizione consigliata per le richieste a Cloud Storage.