Linee guida per tasso di richieste e distribuzione degli accessi

Cloud Storage è un servizio altamente scalabile che utilizza la tecnologia di scalabilità automatica per raggiungere tassi di richieste molto elevati. Questa pagina illustra le linee guida per ottimizzare lo scaling e le prestazioni forniti da Cloud Storage.

Scalabilità automatica

Cloud Storage è un servizio multi-tenant, il che significa che gli utenti condividono lo stesso insieme di risorse sottostanti. Per utilizzare al meglio queste risorse condivise, i bucket hanno una capacità di I/O iniziale di:

  • Circa 1000 richieste di scrittura di oggetti al secondo, inclusi caricamento, aggiornamento ed eliminazione di oggetti. Tieni presente che Cloud Storage ha anche un limite inferiore per le scritture ripetute nello stesso nome dell'oggetto.
  • Circa 5000 richieste di lettura di oggetti al secondo, inclusi elenchi di oggetti, lettura dei dati degli oggetti e lettura dei metadati degli oggetti.

Queste velocità di lettura e scrittura iniziali corrispondono in media a 2,5 PB scritti e 13 PB letti in un mese per oggetti da 1 MB. Man mano che la tasso di richieste per un determinato bucket aumenta, Cloud Storage esegue la scalabilità automatica e aumenta automaticamente la capacità I/O per quel bucket distribuendo il carico delle richieste su più server.

Tempo di ridistribuzione del carico

Quando un bucket si avvicina al limite di capacità I/O, in genere Cloud Storage impiega alcuni minuti per rilevare e ridistribuire di conseguenza il carico su più server. Di conseguenza, se la tasso di richieste sul bucket aumenta più rapidamente di quanto Cloud Storage possa eseguire questa ridistribuzione, potresti riscontrare limiti temporanei, in particolare latenza e tassi di errore più elevati. Aumentare gradualmente la tasso di richieste per i bucket, come descritto di seguito, evita latenza ed errori di questo tipo.

Indicizzazione delle chiavi degli oggetti

Cloud Storage supporta l'elenco coerente degli oggetti, che consente agli utenti di eseguire facilmente flussi di lavoro di elaborazione dei dati in Cloud Storage. Per fornire un elenco di oggetti coerente, Cloud Storage gestisce un indice delle chiavi degli oggetti per ogni bucket. Questo indice viene archiviato in ordine lessicografico e viene aggiornato ogni volta che gli oggetti vengono scritti o eliminati da un bucket. L'aggiunta ed eliminazione di oggetti le cui chiavi esistono tutte in un piccolo intervallo dell'indice aumenta naturalmente le probabilità di contesa.

Cloud Storage rileva questa contesa, nota anche come hotspotting, e ridistribuisce automaticamente il carico sull'intervallo di indici interessato su più server. Analogamente allo scaling della capacità I/O di un bucket, quando accedi a un nuovo intervallo dell'indice, ad esempio quando scrivi oggetti con un nuovo prefisso, devi aumentare gradualmente la frequenza delle richieste, come descritto di seguito. In caso contrario, potrebbero verificarsi tassi di latenza ed errore temporaneamente più elevati.

Best practice

Le sezioni seguenti forniscono best practice su come aumentare la frequenza delle richieste, scegliere le chiavi degli oggetti e distribuire le richieste per evitare limiti temporanei per il bucket. Tieni presente che, oltre a queste considerazioni per bucket, esistono anche limiti di larghezza di banda combinati che si applicano ai bucket che si trovano nella stessa località e nello stesso progetto.

Aumenta gradualmente il tasso di richieste

Per garantire che la scalabilità automatica di Cloud Storage offra sempre le prestazioni migliori, devi aumentare gradualmente la frequenza delle richieste per qualsiasi bucket che non ha avuto una tasso di richieste elevata per diversi giorni o che ha un nuovo intervallo di chiavi oggetto. Se la frequenza delle richieste è inferiore a 1000 richieste di scrittura al secondo o a 5000 richieste di lettura al secondo, non è necessario alcun aumento graduale. Se prevedi che la frequenza delle richieste superi queste soglie, devi iniziare con una tasso di richieste inferiore o vicina alle soglie e poi aumentare gradualmente la frequenza non più velocemente del doppio della frequenza in un periodo di 20 minuti.

Se riscontri problemi come aumento della latenza o dei tassi di errore, metti in pausa l'incremento o riduci temporaneamente la tasso di richieste per dare a Cloud Storage più tempo per scalare il bucket. Devi riprovare a inviare le richieste con backoff esponenziale quando:

  • Ricezione di errori con i codici di risposta 408 e 429.
  • Ricezione di errori con codici di risposta 5xx.

I bucket con lo spazio dei nomi gerarchico abilitato offrono limiti iniziali di query al secondo (QPS) fino a 8 volte superiori per la lettura e la scrittura di oggetti rispetto ai bucket senza spazio dei nomi gerarchico abilitato. Il QPS iniziale più elevato semplifica lo scaling dei carichi di lavoro che richiedono un uso intensivo dei dati e offre una velocità effettiva migliorata. Per saperne di più su come abilitare lo spazio dei nomi gerarchico nel bucket, consulta Creare un bucket con lo spazio dei nomi gerarchico abilitato.

Utilizza una convenzione di denominazione che distribuisca il carico in modo uniforme tra gli intervalli di chiavi

La scalabilità automatica di un intervallo di indici può essere rallentare quando si utilizzano nomi sequenziali, ad esempio chiavi oggetto basate su una sequenza di numeri o un timestamp. Ciò si verifica perché le richieste vengono costantemente spostate in un nuovo intervallo di indice, rendendo la ridistribuzione del carico più difficile e meno efficace.

Per mantenere una tasso di richieste elevata, evita di utilizzare nomi sequenziali. L'utilizzo di nomi di oggetti completamente casuali offre la migliore distribuzione del carico. Se vuoi utilizzare numeri sequenziali o timestamp come parte dei nomi degli oggetti, introduci la casualità nei nomi degli oggetti aggiungendo un valore hash prima del numero di sequenza o del timestamp.

Ad esempio, se i nomi degli oggetti originali che vuoi utilizzare sono:

my-bucket/2016-05-10-12-00-00/file1
my-bucket/2016-05-10-12-00-00/file2
my-bucket/2016-05-10-12-00-01/file3
...

Puoi calcolare l'hash MD5 del nome dell'oggetto originale e aggiungere i primi 6 caratteri dell'hash come prefisso al nome dell'oggetto. I nuovi nomi degli oggetti diventano:

my-bucket/2fa764-2016-05-10-12-00-00/file1
my-bucket/5ca42c-2016-05-10-12-00-00/file2
my-bucket/6e9b84-2016-05-10-12-00-01/file3
...

Un prefisso randomizzato più lungo fornisce una scalabilità automatica più efficace quando si aumenta in modo significativo la velocità di lettura e scrittura. Ad esempio, un prefisso di un carattere che utilizza un valore esadecimale casuale fornisce uno scalabilità automatica efficace dalle 5000/1000 letture/scritture al secondo iniziali fino a circa 80.000/16.000 letture/scritture al secondo, perché il prefisso ha 16 valori potenziali. Se il tuo caso d'uso non richiede tassi più elevati, un prefisso randomizzato di un carattere è efficace quanto un prefisso randomizzato di due o più caratteri per aumentare i tassi di richiesta.

La casualità dopo un prefisso comune è efficace nel prefisso

Tieni presente che la stringa casuale non deve necessariamente trovarsi all'inizio del nome dell'oggetto. L'aggiunta di una stringa casuale dopo un prefisso comune consente comunque il funzionamento della scalabilità automatica, ma l'effetto è limitato a quel prefisso, senza alcuna considerazione del resto del bucket.

Ad esempio:

my-bucket/images/animals/4ce4c6af-6d27-4fa3-8a91-5701a8552705/1.jpg
my-bucket/images/animals/9a495e72-1d85-4637-a243-cbf3e4a90ae7/2.jpg
...
my-bucket/images/landscape/585356ac-ce89-47a8-bdd2-78a86b58fee6/1.jpg
my-bucket/images/landscape/2550ae5b-395e-4243-a29b-bbf5aece60ef/2.jpg
...
my-bucket/images/clouds/1.jpg
my-bucket/images/clouds/2.jpg
...

La denominazione precedente consente la scalabilità automatica efficiente degli oggetti in images/animals e images/landscape,, ma non in images/clouds.

La casualità dopo i prefissi sequenziali non è altrettanto efficace

Come accennato in precedenza, l'utilizzo di una stringa casuale dopo un prefisso comune aiuta solo con la scalabilità automatica con quel prefisso. Una volta che le richieste passano a un nuovo prefisso, potresti non beneficiare più degli effetti della scalabilità automatica precedente. Questo è un problema soprattutto quando i prefissi seguono un pattern sequenziale.

Ad esempio, se scrivi file con un nuovo prefisso basato sul timestamp ogni ora:

my-bucket/2016-05-10-00/cf9a7b95-0d2e-4466-9596-840ff388ddbd
my-bucket/2016-05-10-00/f1e16a88-16b8-4c66-ba66-a225c87be80c
my-bucket/2016-05-10-00/646d8272-4a88-4dc2-b2d4-d537c778df41
...
my-bucket/2016-05-10-01/bdcba6de-ac25-4c27-8550-0d08f249e69d
my-bucket/2016-05-10-01/a32c867c-09a9-4d65-9668-ddd4ebe4138b
my-bucket/2016-05-10-01/d619485c-5243-4a4e-8ef3-0f7e1d26ce1d
...

Sebbene la scalabilità automatica contribuisca ad aumentare la velocità di scrittura in un prefisso nel tempo, la velocità di scrittura viene reimpostata all'inizio di ogni ora. Ciò comporta una frequenza di scrittura non ottimale e aumenti periodici della latenza e del tasso di errore. Se nel tempo devi scrivere su prefissi diversi, per evitare questo problema, assicurati che i nuovi prefissi siano distribuiti uniformemente nell'intero intervallo di chiavi.

Riordina le operazioni collettive per distribuire il carico in modo uniforme tra gli intervalli di chiavi

A volte è necessario eseguire un caricamento o un'eliminazione collettiva dei dati in Cloud Storage. In entrambi i casi, potresti non avere il controllo sui nomi degli oggetti. Tuttavia, puoi controllare l'ordine in cui gli oggetti vengono caricati o eliminati per ottenere la velocità di scrittura o eliminazione più elevata possibile.

Per farlo, devi distribuire i caricamenti o le eliminazioni su più prefissi. Ad esempio, se hai molte cartelle e molti file in ogni cartella da caricare, una buona strategia è caricare da più cartelle in parallelo e scegliere in modo casuale quali cartelle e file caricare. In questo modo, il sistema distribuisce il carico in modo più uniforme nell'intero intervallo di chiavi, il che ti consente di raggiungere una tasso di richiestete elevata dopo l'incremento iniziale.

Passaggi successivi