Pianificazione degli eventi di traffico di picco e di lancio

Last reviewed 2023-06-25 UTC

Questo documento del framework dell'architettura Google Cloud mostra come pianificare il picco di traffico e gli eventi di lancio per evitare di interrompere la tua attività.

Gli eventi di picco sono eventi aziendali importanti che causano un forte aumento del traffico oltre il valore di riferimento standard dell'applicazione. Questi eventi di picco richiedono una scalabilità pianificata.

Ad esempio, le attività di vendita al dettaglio con una presenza online possono aspettarsi picchi durante le festività. Il Black Friday, il giorno successivo al Giorno del ringraziamento negli Stati Uniti, è uno dei giorni di shopping più intenso dell'anno. Per il settore sanitario negli Stati Uniti, i mesi di ottobre e novembre possono avere picchi di attività a causa dei picchi del traffico online per la registrazione dei benefit.

Gli eventi di lancio sono qualsiasi implementazione o migrazione sostanziale di nuove capacità in produzione. Ad esempio, una migrazione da on-premise al cloud, il lancio di un nuovo servizio di prodotto o una nuova funzionalità.

Se stai lanciando un nuovo prodotto, dovresti aspettarti un aumento del carico sui tuoi sistemi durante la comunicazione e potenzialmente dopo. Questi eventi possono spesso causare un aumento del carico di 5-20 volte (o superiore) nei sistemi frontend. Questo aumento del carico aumenta anche quello sui sistemi di backend. Spesso, questi caricamenti di frontend e backend sono caratterizzati da una rapida scalabilità in un breve periodo di tempo quando l'evento si apre per il traffico web. Gli eventi di lancio prevedono una minore riduzione del traffico verso i livelli normali. Questa diminuzione è in genere più lenta della scala a picco.

Gli eventi di picco e di lancio comprendono tre fasi:

  • Pianificazione e preparazione per l'evento di lancio o di picco di traffico
  • Lancio dell'evento in corso...
  • Esaminare il rendimento degli eventi e l'analisi post-evento

Le pratiche descritte in questo documento possono aiutare a eseguire ciascuna di queste fasi in modo ottimale.

Crea un playbook generale per il lancio e gli eventi di picco

Crea una guida pratica generale con una visione a lungo termine degli eventi di picco attuali e futuri. Continua ad aggiungere le lezioni apprese al documento, in modo che possa essere un riferimento per i futuri eventi di picco.

Pianifica il tuo lancio e gli eventi di picco

Pianifica per tempo. Crea proiezioni aziendali per i lanci futuri e per gli eventi di picco previsti (e imprevisti). La preparazione del sistema per i picchi di scalabilità dipende dalla comprensione delle proiezioni aziendali. Più conosci le previsioni precedenti, più precise possono essere le tue previsioni di business. Queste nuove previsioni sono input critici per la proiezione della domanda prevista sul tuo sistema.

Stabilire una gestione dei programmi e una pianificazione coordinata, sia per l'organizzazione che con fornitori di terze parti, è fondamentale anche per il successo. Configura questi team in anticipo per consentire al team di gestione del programma di configurare tempistiche, proteggere i budget e raccogliere risorse per ulteriore infrastruttura, supporto per i test e formazione.

È importante impostare canali di comunicazione chiari. La comunicazione è fondamentale per tutte le fasi del lancio o per un evento di picco. Discuti dei rischi e delle aree di preoccupazione in anticipo e dei problemi prima che diventino ostacoli. Crea la documentazione della pianificazione degli eventi. Riunisci le informazioni più importanti sull'evento di picco e distribuiscile. In questo modo, le persone possono assorbire le informazioni di pianificazione e risolvere domande di base. Il documento aiuta ad ampliare le persone per la pianificazione degli eventi di picco.

Documenta il tuo piano per ogni evento. Quando documenti il tuo piano, assicurati di:

  • Identifica ipotesi, rischi e fattori sconosciuti.
  • Esamina gli eventi passati per determinare le informazioni pertinenti al prossimo evento di lancio o di picco. Determinare quali dati sono disponibili e il valore fornito in passato.
  • Definire in dettaglio il piano di rollback per gli eventi di lancio e di migrazione.
  • Esegui una revisione dell'architettura:
    • Documentare risorse e componenti architetturali chiave.
    • Utilizza il framework dell'architettura per esaminare tutti gli aspetti dell'ambiente ai fini dei rischi e delle preoccupazioni.
    • Crea un diagramma che mostri come sono collegati i componenti principali dell'architettura. Una revisione del diagramma potrebbe aiutarti a isolare i problemi e ad accelerarne la risoluzione.
  • Se necessario, configura il servizio in modo che utilizzi azioni di avviso per il riavvio automatico in caso di errore. Quando utilizzi Compute Engine, valuta la possibilità di utilizzare la scalabilità automatica per gestire i picchi di velocità effettiva.
  • Per assicurarti che le risorse Compute Engine siano disponibili quando ne hai bisogno, utilizza Prenotazioni. Le prenotazioni offrono un livello molto elevato di garanzia nell'ottenimento di capacità per le risorse di zona di Compute Engine. Puoi utilizzare le prenotazioni per assicurarti che il tuo progetto abbia risorse disponibili.
  • Identifica metriche e avvisi da monitorare:
    • Identifica le metriche aziendali e di sistema da monitorare per l'evento. Se non vengono raccolte metriche o indicatori di livello di servizio (SLI), modifica il sistema per raccogliere questi dati.
    • Assicurati di disporre di capacità di monitoraggio e avviso sufficienti e di aver esaminato i modelli di traffico di picco normali e precedenti. Assicurati che gli avvisi siano impostati in modo appropriato. Utilizza gli strumenti di Google Cloud Monitoring per visualizzare l'utilizzo e la capacità delle applicazioni e lo stato complessivo delle tue applicazioni e infrastruttura.
    • Assicurati che le metriche di sistema vengano acquisite con livelli di interesse e monitoraggio.
  • Esamina i requisiti di capacità maggiori con il team dedicato al tuo account Google Cloud e pianifica la gestione della quota richiesta. Per ulteriori dettagli, consulta la pagina Assicurarsi che le quote corrispondano ai requisiti di capacità.
  • Assicurati di disporre dei livelli di assistenza cloud appropriati, che il tuo team sappia come aprire le richieste di assistenza e di aver stabilito un percorso di escalation. Per maggiori dettagli, consulta Stabilire i processi di escalation e assistenza Cloud.
  • Definisci un piano di comunicazione, le tempistiche e le responsabilità.
    • Coinvolgi gli stakeholder interfunzionali per coordinare la comunicazione e la pianificazione dei programmi. Queste stakeholder possono includere persone appropriate di team tecnici, operativi e di leadership e fornitori di terze parti.
    • Stabilisci una sequenza temporale non ambigua contenente attività critiche e i team che ne sono proprietari.
    • Stabilisci una matrice di assegnazione della responsabilità (RACI) per comunicare la proprietà a team, lead di team, stakeholder e parti responsabili.
    • Puoi utilizzare il servizio di gestione degli eventi dell'assistenza Premium per eventi di picco pianificati. Con questo servizio, l'assistenza clienti collabora con il tuo team per creare un piano e fornire indicazioni durante l'evento.

Stabilire processi di revisione

Al termine dell'evento di picco di traffico o di evento di lancio, rivedi l'evento per documentare le lezioni che hai imparato. Aggiorna la tua guida pratica con queste lezioni. Infine, applica quanto appreso al prossimo evento importante. Imparare dagli eventi precedenti è importante, soprattutto quando evidenziano i vincoli al sistema mentre sono in stato di stress.

Le revisioni retrospettive, chiamate anche post mortem, per gli eventi di picco di traffico o gli eventi di lancio sono una tecnica utile per acquisire i dati e comprendere gli incidenti che si sono verificati. Esegui questa revisione per verificare il picco di traffico e gli eventi di lancio che si sono verificati come previsto, nonché per individuare eventuali incidenti che hanno causato problemi. In questa recensione, favorisci la cultura della condanna.

Per ulteriori informazioni sui post mortem, consulta la pagina dedicata alla coltura post mortem: l'apprendimento dagli errori.

Passaggi successivi