Linee guida per tasso di richieste e distribuzione degli accessi

Cloud Storage è un servizio altamente scalabile che utilizza la tecnologia di scalabilità automatica per raggiungere tassi di richiesta molto elevati. Questa pagina fornisce le linee guida per l'ottimizzazione la scalabilità e le prestazioni offerte da Cloud Storage.

Scalabilità automatica

Cloud Storage è un servizio multi-tenant, il che significa che gli utenti condividono nello stesso insieme di risorse sottostanti. Per sfruttare al meglio i contenuti condivisi risorse, i bucket hanno una capacità di I/O iniziale pari a:

  • Circa 1000 richieste di scrittura di oggetti al secondo, inclusi caricamento, aggiornamento ed eliminazione di oggetti. Tieni presente che Cloud Storage ha anche un limite più basso per le scritture ripetute nello stesso nome dell'oggetto.
  • Circa 5000 richieste di lettura di oggetti al secondo, che include un elenco di oggetti, la lettura dei dati degli oggetti e della lettura dei metadati degli oggetti.

Queste velocità di lettura e scrittura iniziali sono in media di 2,5 PB di scrittura e 13 PB di lettura in un al mese per oggetti da 1 MB. Con l'aumento del tasso di richieste per un determinato bucket, Cloud Storage scala e aumenta automaticamente la capacità di I/O per quel bucket distribuendo il carico delle richieste su più server.

Tempo di ridistribuzione del caricamento

Quando un bucket si avvicina al limite di capacità di I/O, in genere Cloud Storage impiega nell'ordine dei minuti per rilevare e di conseguenza ridistribuire il carico su più server. Di conseguenza, se la tasso di richieste sul tuo bucket aumenta più rapidamente di quanto sia in grado di eseguire la ridistribuzione da Cloud Storage, potrebbero imbattersi in limiti temporanei, in particolare una maggiore latenza e tassi di errore. Aumentare gradualmente la tasso di richieste per i bucket, come descritto di seguito evitando tempi di latenza ed errori simili.

Indicizzazione delle chiavi degli oggetti

Cloud Storage supporta un elenco coerente degli oggetti, che consente agli utenti di eseguire facilmente flussi di lavoro di elaborazione dati rispetto a Cloud Storage. Nella per fornire un elenco coerente degli oggetti, Cloud Storage mantiene delle chiavi degli oggetti per ogni bucket. Questo indice viene archiviato in ordine alfabetico e viene aggiornato ogni volta che gli oggetti vengono scritti o eliminati da un bucket. L'aggiunta e l'eliminazione di oggetti le cui chiavi si trovano tutte in un piccolo intervallo di aumenta naturalmente le possibilità di conflitto.

Cloud Storage rileva tali conflitti, noti anche come hotspot e si ridistribuisce automaticamente del carico sull'intervallo dell'indice interessato su più server. Analogamente allo scaling della capacità IO di un bucket, quando accedi a un nuovo intervallo dell'indice, ad esempio quando scrivi oggetti sotto un nuovo prefisso, devi aumentare gradualmente la frequenza di richiesta, come descritto di seguito. In caso contrario, la latenza e i tassi di errore potrebbero essere temporaneamente più elevati.

Best practice

Le sezioni seguenti forniscono best practice su come aumentare la frequenza di richiesta, scegliere le chiavi degli oggetti e distribuire le richieste per evitare limiti temporanei nel bucket. Tieni presente che oltre a queste per bucket considerazioni, esistono anche limiti di larghezza di banda combinati che si applicano nella stessa località e nello stesso progetto.

Aumento graduale del tasso di richieste

Per assicurarti che la scalabilità automatica di Cloud Storage offra sempre il meglio dovresti aumentare gradualmente il tasso di richieste per qualsiasi bucket che non ha registrato un tasso di richieste elevato da diversi giorni o che presenta un nuovo intervallo chiave dell'oggetto. Se la frequenza delle richieste è inferiore a 1000 richieste di scrittura al secondo o a 5000 richieste di lettura al secondo, non è necessario alcun periodo di transizione. Se si prevede che il tasso di richieste superi queste soglie, devi iniziare con un tasso di richieste inferiore o vicino alle soglie e poi aumentarlo gradualmente non più velocemente del raddoppio del tasso in un periodo di 20 minuti.

Se riscontri problemi come un aumento della latenza o delle percentuali di errore, metti in pausa la fase di implementazione o riduci temporaneamente la frequenza delle richieste per dare a Cloud Storage più tempo per scalare il bucket. Devi effettuare nuovi tentativi per le richieste con backoff esponenziale quando:

  • Ricezione di errori con i codici di risposta 408 e 429.
  • Ricezione di errori con codici di risposta 5xx.

Utilizza una convenzione di denominazione che distribuisce il carico in modo uniforme tra gli intervalli di chiavi

La scalabilità automatica di un intervallo di indici può essere rallentata se utilizzi nomi sequenziali, come le chiavi degli oggetti basate su una sequenza di numeri o timestamp. Questo accade perché le richieste passano costantemente a un nuovo intervallo di indici, rendendo la redistribuzione del carico più difficile e meno efficace.

Per mantenere un tasso di richieste elevato, evita di usare i nomi degli utenti. L'utilizzo di nomi di oggetti completamente casuali offre la migliore distribuzione del carico. Se vuoi utilizzare numeri sequenziali o timestamp come parte dei tuoi nomi degli oggetti, introduci la casualità nei nomi degli oggetti aggiungendo un valore hash prima del numero di sequenza o del timestamp.

Ad esempio, se i nomi degli oggetti originali che vuoi utilizzare sono:

my-bucket/2016-05-10-12-00-00/file1
my-bucket/2016-05-10-12-00-00/file2
my-bucket/2016-05-10-12-00-01/file3
...

Puoi calcolare l'hash MD5 del nome dell'oggetto originale e aggiungere i primi 6 caratteri dell'hash come prefisso al nome dell'oggetto. I nuovi nomi degli oggetti diventano:

my-bucket/2fa764-2016-05-10-12-00-00/file1
my-bucket/5ca42c-2016-05-10-12-00-00/file2
my-bucket/6e9b84-2016-05-10-12-00-01/file3
...

Un prefisso casuale più lungo offre una scalabilità automatica più efficace quando si passa a velocità di lettura e scrittura molto elevate. Ad esempio, un prefisso di 1 carattere che utilizza un valore esadecimale random fornisce un'automazione efficace dalle 5000/1000 letture/scritture al secondo iniziali fino a circa 80000/16000 letture/scritture al secondo, perché il prefisso ha 16 valori potenziali. Se il tuo caso d'uso non ha bisogno rispetto a questo, un prefisso randomizzato di 1 carattere è altrettanto efficace con l'aumento delle richieste come prefisso randomizzato di 2 caratteri o più.

La casualità dopo che un prefisso comune diventa effettivo sotto il prefisso

Tieni presente che la stringa casuale non deve necessariamente trovarsi all'inizio del nome dell'oggetto. L'aggiunta di una stringa casuale dopo un prefisso comune consente il funzionamento della scalabilità automatica, ma l'effetto è limitato a quel prefisso, con senza considerare il resto del bucket.

Ad esempio:

my-bucket/images/animals/4ce4c6af-6d27-4fa3-8a91-5701a8552705/1.jpg
my-bucket/images/animals/9a495e72-1d85-4637-a243-cbf3e4a90ae7/2.jpg
...
my-bucket/images/landscape/585356ac-ce89-47a8-bdd2-78a86b58fee6/1.jpg
my-bucket/images/landscape/2550ae5b-395e-4243-a29b-bbf5aece60ef/2.jpg
...
my-bucket/images/clouds/1.jpg
my-bucket/images/clouds/2.jpg
...

La denominazione descritta sopra consente una scalabilità automatica efficiente degli oggetti in images/animals e images/landscape,, ma non images/clouds.

La casualità dopo i prefissi sequenziali non è altrettanto efficace

Come accennato sopra, l'utilizzo di una stringa casuale dopo un prefisso comune è utile solo per l'autoscaling sotto quel prefisso. Quando le richieste passano a un nuovo prefisso, puoi non usufruiscono più dei precedenti effetti di scalabilità automatica. In particolare quando i prefissi seguono uno schema sequenziale.

Ad esempio, se scrivi file con un nuovo prefisso basato su timestamp ogni ora:

my-bucket/2016-05-10-00/cf9a7b95-0d2e-4466-9596-840ff388ddbd
my-bucket/2016-05-10-00/f1e16a88-16b8-4c66-ba66-a225c87be80c
my-bucket/2016-05-10-00/646d8272-4a88-4dc2-b2d4-d537c778df41
...
my-bucket/2016-05-10-01/bdcba6de-ac25-4c27-8550-0d08f249e69d
my-bucket/2016-05-10-01/a32c867c-09a9-4d65-9668-ddd4ebe4138b
my-bucket/2016-05-10-01/d619485c-5243-4a4e-8ef3-0f7e1d26ce1d
...

Sebbene la scalabilità automatica aiuti ad aumentare la velocità di scrittura sotto un prefisso rispetto di scrittura, la frequenza di scrittura viene reimpostata all'inizio di ogni ora. Ciò comporta una frequenza di scrittura non ottimale e aumenti periodici della latenza e del tasso di errore. Se nel tempo devi scrivere su prefissi diversi, per evitare questo problema, assicurarsi che i nuovi prefissi siano distribuiti uniformemente nell'intero intervallo di chiavi.

Riordinare le operazioni collettive per distribuire il carico in modo uniforme tra gli intervalli di chiavi

A volte può essere utile eseguire un caricamento collettivo o un'eliminazione collettiva dei dati in Cloud Storage. In entrambi i casi, potresti non avere il controllo sui nomi degli oggetti. Tuttavia, puoi controllare l'ordine di caricamento degli oggetti o eliminati per ottenere la più alta velocità di scrittura o eliminazione possibile.

Per farlo, devi distribuire i caricamenti o le eliminazioni tra più prefissi. Ad esempio, se hai molte cartelle e molti file da caricare in ogni cartella, una buona strategia è caricare da più cartelle in parallelo e scegliere in modo casuale quali cartelle e file caricare. In questo modo, il sistema può distribuire il carico in modo più uniforme nell'intero intervallo di chiavi, il che consente di ottenere un tasso di richieste elevato dopo l'aumento iniziale.

Passaggi successivi