Best practice per la gestione degli eventi

Quando gestisci eventi nel cloud con traffico elevato o in un periodo di punta, ci sono tre fasi chiave:

  1. Preparazione: completa le attività e le operazioni per prepararti all'evento, tra cui un esame dell'architettura, la pianificazione della capacità e la creazione di prenotazioni.
  2. Esecuzione: quando inizia l'evento, monitoralo attentamente e reagisci di conseguenza.
  3. Analisi: al termine dell'evento, analizza cosa è andato bene, cosa no e come migliorare gli eventi futuri.

Durante queste fasi, devi comprendere e seguire alcune best practice in modo da poter fornire i tuoi servizi con tempi di inattività minimi o nulli, senza degradare le prestazioni o l'esperienza utente durante l'evento.

Preparazione: descrivi in dettaglio la procedura di pianificazione dell'evento

Durante la fase di preparazione di un evento di picco della capacità, devi contattare il team dedicato all'account o il TAM per farti aiutare a esaminare l'architettura, creare diagrammi, sequenze temporali ed elenchi di controllo per il lancio, controllare le quote di servizio in base al profilo di traffico previsto e determinare l'impatto complessivo sui tuoi progetti.

La pianificazione deve iniziare molto prima della data dell'evento. In alcuni casi, potrebbe essere necessario iniziare la pianificazione con mesi di anticipo mentre il servizio è ancora in fase di sviluppo. Crea un team che possa aiutarti a esaminare il workflow dell'evento proposto, il pubblico previsto, i tuoi requisiti e criteri di successo e la catena di distribuzione dei contenuti end-to-end. La fase di preparazione deve includere analisi dei rischi, pianificazione della mitigazione e una revisione della preparazione operativa per garantire che il workflow sia ben progettato.

Per saperne di più, consulta il Framework dell'architetturaGoogle Cloud , che fornisce suggerimenti per aiutare architetti, sviluppatori, amministratori e altri professionisti del cloud a progettare e gestire una topologia cloud sicura, efficiente, resiliente, ad alte prestazioni ed economica.

Esecuzione: monitora e reagisci durante l'esecuzione

Quando inizia il periodo di punta o l'evento di lancio, dovrai monitorare attentamente l'attività e reagire in base alle necessità. Una volta configurati il monitoraggio, gli avvisi e la registrazione nella fase di preparazione, puoi monitorare il traffico, i log e i livelli di quota business critical e utilizzare queste informazioni per determinare le cause principali e risolvere rapidamente i problemi. Per saperne di più, vedi Esamina gli avvisi e le dashboard.

In caso di problemi, un processo di gestione e riassegnazione degli incidenti ben definito è fondamentale per ridurre lo sforzo e il tempo necessari per affrontarli e risolverli. Se non l'hai ancora fatto, stabilisci una procedura di gestione degli incidenti. Per saperne di più, consulta Preparati a risolvere i problemi durante l'evento.

Analisi: rivedi e documenta l'analisi

Al termine del periodo di punta o dell'evento di lancio, esamina e analizza l'evento e documenta quanto appreso in modo da poterlo applicare al prossimo evento importante.

Concentrati sulle seguenti aree:

  • Riepilogo delle tempistiche: acquisisci il momento in cui il traffico ha iniziato ad aumentare e gli eventi chiave (picchi) durante l'evento. Identifica il momento in cui si sono verificati i problemi, se presenti.

  • Analisi delle cause principali: esamina eventuali problemi che si sono verificati. C'è qualcosa che tu o Google Cloud avreste potuto fare diversamente? È qualcosa da tenere presente la prossima volta? Documenta le lezioni apprese e i passaggi necessari per migliorare in futuro.

  • Confronta le previsioni con i dati effettivi: analizza la previsione del traffico rispetto al traffico effettivo registrato. Dove sono state necessarie risorse aggiuntive? Dove le risorse sono state invece sottoutilizzate o non necessarie?

  • Retrospettiva: condividi e rivedi le informazioni precedenti con gli stakeholder chiave. Promuovi una cultura della non colpevolizzazione, in cui si presume che tutti i soggetti coinvolti avessero buone intenzioni, concentrandoti invece sull'identificazione delle cause che hanno contribuito al problema senza indicare alcun individuo o team.

Passaggi successivi