Linee guida per tasso di richieste e distribuzione degli accessi

Cloud Storage è un servizio a scalabilità elevata che utilizza la tecnologia di scalabilità automatica per ottenere percentuali di richieste molto elevate. Questa pagina illustra le linee guida per ottimizzare la scalabilità e le prestazioni offerte da Cloud Storage.

Scalabilità automatica

Cloud Storage è un servizio multi-tenant, il che significa che gli utenti condividono nello stesso insieme di risorse sottostanti. Per sfruttare al meglio i contenuti condivisi risorse, i bucket hanno una capacità di I/O iniziale pari a:

  • Circa 1000 richieste di scrittura di oggetti al secondo, inclusi caricamento, aggiornamento ed eliminazione di oggetti. Tieni presente che Cloud Storage ha anche un limite più basso per le scritture ripetute nello stesso nome dell'oggetto.
  • Circa 5000 richieste di lettura di oggetti al secondo, tra cui l'elenco di oggetti, la lettura dei dati degli oggetti e della lettura dei metadati degli oggetti.

Queste velocità di lettura e scrittura iniziali sono in media di 2,5 PB di scrittura e 13 PB di lettura in un al mese per oggetti da 1 MB. Con l'aumento del tasso di richieste per un determinato bucket, Cloud Storage esegue la scalabilità automatica e aumenta automaticamente la capacità di I/O per quel bucket distribuendo il carico delle richieste su più server.

Tempo di ridistribuzione del carico

Quando un bucket si avvicina al limite di capacità di I/O, in genere Cloud Storage impiega nell'ordine dei minuti per rilevare e di conseguenza ridistribuire il carico su più server. Di conseguenza, se la frequenza di richiesta del bucket aumenta più velocemente di quanto Cloud Storage possa eseguire questa ridistribuzione, potresti riscontrare limiti temporanei, in particolare una latenza e tassi di errore più elevati. Aumentare gradualmente la tasso di richieste per i bucket, come descritto di seguito evitando tempi di latenza ed errori simili.

Indicizzazione delle chiavi degli oggetti

Cloud Storage supporta un elenco coerente degli oggetti, che consente agli utenti di eseguire facilmente flussi di lavoro di elaborazione dati rispetto a Cloud Storage. Nella per fornire un elenco coerente degli oggetti, Cloud Storage mantiene delle chiavi degli oggetti per ciascun bucket. Questo indice viene archiviato in ordine alfabetico e viene aggiornato ogni volta che gli oggetti vengono scritti o eliminati da un bucket. L'aggiunta e l'eliminazione di oggetti le cui chiavi si trovano tutte in un piccolo intervallo aumenta naturalmente le possibilità di conflitto.

Cloud Storage rileva tali conflitti, noti anche come hotspot e si ridistribuisce automaticamente del carico sull'intervallo dell'indice interessato su più server. Simile alla scalabilità la capacità IO di un bucket, quando si accede a un nuovo intervallo dell'indice, come quando scrivi oggetti con un nuovo prefisso, devi incrementare la richiesta la valutazione in modo graduale, come descritto di seguito. In caso contrario, potrebbero verificarsi la latenza e i tassi di errore sono temporaneamente più alti.

Best practice

Le sezioni seguenti forniscono le best practice su come incrementare la richiesta valutare, scegliere le chiavi degli oggetti e distribuire le richieste per evitare limiti temporanei al bucket. Tieni presente che, oltre a queste considerazioni per bucket, esistono anche limiti di larghezza di banda combinati che si applicano ai bucket nello stesso progetto e nella stessa località.

Aumento graduale del tasso di richieste

Per assicurarti che la scalabilità automatica di Cloud Storage offra sempre il meglio dovresti aumentare gradualmente il tasso di richieste per qualsiasi bucket che non ha registrato un tasso di richieste elevato da diversi giorni o che presenta un nuovo intervallo chiave dell'oggetto. Se il tasso di richieste è inferiore a 1000 richieste di scrittura o 5000 richieste di lettura al secondo, non sono necessarie operazioni preliminari. Se si prevede che il tasso di richieste superi queste soglie, devi iniziare con un tasso di richieste inferiore o vicino alle soglie e poi aumentarlo gradualmente non più velocemente del raddoppio del tasso in un periodo di 20 minuti.

Se riscontri problemi come un aumento della latenza o delle percentuali di errore, metti in pausa la fase di implementazione o riduci temporaneamente la frequenza delle richieste per dare a Cloud Storage più tempo per scalare il bucket. Dovresti ritentare le richieste con backoff esponenziale quando:

  • Ricezione di errori con i codici di risposta 408 e 429.
  • Ricezione di errori con codici di risposta 5xx.

I bucket con spazio dei nomi gerarchico abilitato offrono limiti iniziali di query al secondo (QPS) fino a otto volte superiori per la lettura e la scrittura di oggetti rispetto ai bucket senza spazio dei nomi gerarchico abilitato. Il QPS iniziale più elevato semplifica la scalabilità dei carichi di lavoro che richiedono un uso intensivo dei dati e offre una maggiore velocità in uscita. Per ulteriori informazioni sull'abilitazione dello spazio dei nomi gerarchico nel bucket, consulta Creare un bucket con lo spazio dei nomi gerarchico abilitato.

Utilizza una convenzione di denominazione che distribuisce il carico in modo uniforme tra gli intervalli di chiavi

La scalabilità automatica di un intervallo di indice può essere rallentata quando si utilizzano nomi sequenziali, ad esempio come chiavi oggetto basate su una sequenza di numeri o di timestamp. Ciò si verifica perché delle richieste passano costantemente a un nuovo intervallo di indice, con una conseguente il carico è più difficile e meno efficace.

Per mantenere un tasso di richieste elevato, evita di utilizzare nomi sequenziali. L'utilizzo di nomi di oggetti completamente casuali offre la migliore distribuzione del carico. Se vuoi utilizzare numeri sequenziali o timestamp come parte degli oggetti, introduci la casualità nei nomi degli oggetti aggiungendo un valore hash prima del numero di sequenza o del timestamp.

Ad esempio, se i nomi originali degli oggetti che vuoi utilizzare sono:

my-bucket/2016-05-10-12-00-00/file1
my-bucket/2016-05-10-12-00-00/file2
my-bucket/2016-05-10-12-00-01/file3
...

Puoi calcolare l'hash MD5 del nome originale dell'oggetto e aggiungere il primo 6 caratteri dell'hash come prefisso al nome dell'oggetto. Il nuovo oggetto i nomi diventano:

my-bucket/2fa764-2016-05-10-12-00-00/file1
my-bucket/5ca42c-2016-05-10-12-00-00/file2
my-bucket/6e9b84-2016-05-10-12-00-01/file3
...

Un prefisso randomizzato più lungo fornisce una scalabilità automatica più efficace durante l'accelerazione verso velocità di lettura e scrittura molto elevate. Ad esempio, un prefisso di 1 carattere che utilizza un valore esadecimale random fornisce un'automazione efficace dalle 5000/1000 letture/scritture al secondo iniziali fino a circa 80000/16000 letture/scritture al secondo, perché il prefisso ha 16 valori potenziali. Se il tuo caso d'uso non ha bisogno rispetto a questo, un prefisso randomizzato di 1 carattere è altrettanto efficace con l'aumento delle richieste come prefisso randomizzato di 2 caratteri o più.

La casualità dopo un prefisso comune è efficace sotto il prefisso

Tieni presente che la stringa casuale non deve necessariamente trovarsi all'inizio del nome dell'oggetto. L'aggiunta di una stringa casuale dopo un prefisso comune consente il funzionamento della scalabilità automatica, ma l'effetto è limitato a quel prefisso, con senza considerare il resto del bucket.

Ad esempio:

my-bucket/images/animals/4ce4c6af-6d27-4fa3-8a91-5701a8552705/1.jpg
my-bucket/images/animals/9a495e72-1d85-4637-a243-cbf3e4a90ae7/2.jpg
...
my-bucket/images/landscape/585356ac-ce89-47a8-bdd2-78a86b58fee6/1.jpg
my-bucket/images/landscape/2550ae5b-395e-4243-a29b-bbf5aece60ef/2.jpg
...
my-bucket/images/clouds/1.jpg
my-bucket/images/clouds/2.jpg
...

La denominazione descritta sopra consente una scalabilità automatica efficiente degli oggetti in images/animals e images/landscape,, ma non images/clouds.

La casualità dopo i prefissi sequenziali non è altrettanto efficace

Come già detto, l'utilizzo di una stringa casuale dopo un prefisso comune aiuta solo con con la scalabilità automatica sotto quel prefisso. Una volta che le richieste passano a un nuovo prefisso, potresti non più beneficiare degli effetti della scalabilità automatica precedenti. Questo è un problema soprattutto quando i prefissi seguono uno schema sequenziale.

Ad esempio, se scrivi file sotto un nuovo prefisso basato su timestamp ogni ora:

my-bucket/2016-05-10-00/cf9a7b95-0d2e-4466-9596-840ff388ddbd
my-bucket/2016-05-10-00/f1e16a88-16b8-4c66-ba66-a225c87be80c
my-bucket/2016-05-10-00/646d8272-4a88-4dc2-b2d4-d537c778df41
...
my-bucket/2016-05-10-01/bdcba6de-ac25-4c27-8550-0d08f249e69d
my-bucket/2016-05-10-01/a32c867c-09a9-4d65-9668-ddd4ebe4138b
my-bucket/2016-05-10-01/d619485c-5243-4a4e-8ef3-0f7e1d26ce1d
...

Sebbene la scalabilità automatica aiuti ad aumentare la frequenza di scrittura in un prefisso nel tempo, la frequenza di scrittura viene reimpostata all'inizio di ogni ora. Questo porta con una frequenza di scrittura non ottimale e con aumenti periodici della latenza e del tasso di errore. Se nel tempo devi scrivere su prefissi diversi, per evitare questo problema, assicurarsi che i nuovi prefissi siano distribuiti uniformemente nell'intero intervallo di chiavi.

Riordina le operazioni collettive per distribuire il carico in modo uniforme tra gli intervalli di chiavi

A volte può essere utile eseguire un caricamento collettivo o un'eliminazione collettiva dei dati in Cloud Storage. In entrambi i casi, potresti non avere il controllo sui nomi degli oggetti. Tuttavia, puoi controllare l'ordine di caricamento degli oggetti o eliminati per ottenere la più alta velocità di scrittura o eliminazione possibile.

Per farlo, devi distribuire i caricamenti o le eliminazioni tra più prefissi. Ad esempio, se in ogni cartella sono presenti molte cartelle e molti file caricare, una buona strategia è eseguire caricamenti in parallelo da più cartelle scegliere casualmente quali cartelle e file vengono caricati. In questo modo il sistema di distribuire il carico in modo più uniforme sull'intero intervallo di chiavi, per raggiungere una percentuale elevata di richieste dopo l'avvio iniziale.

Passaggi successivi