Google Cloud Well-Architected Framework: Operational excellence

Last reviewed 2025-02-14 UTC

Il pilastro dell'eccellenza operativa nel Google Cloud Well-Architected Framework fornisce consigli per gestire in modo efficiente i carichi di lavoro su Google Cloud. L'eccellenza operativa nel cloud prevede la progettazione, l'implementazione e la gestione di soluzioni cloud che offrono valore, prestazioni, sicurezza e affidabilità. I consigli di questo pilastro ti aiutano a migliorare continuamente e ad adattare i carichi di lavoro per soddisfare le esigenze dinamiche e in continua evoluzione nel cloud.

Il pilastro dell'eccellenza operativa è pertinente per i seguenti segmenti di pubblico:

  • Manager e leader: un framework per stabilire e mantenere l'eccellenza operativa nel cloud e garantire che gli investimenti in cloud generino valore e supportino gli obiettivi commerciali.
  • Team di operazioni cloud: indicazioni per gestire incidenti e problemi, pianificare la capacità, ottimizzare le prestazioni e gestire il cambiamento.
  • Site Reliability Engineer (SRE): best practice che ti aiutano a raggiungere elevati livelli di affidabilità del servizio, tra cui monitoraggio, risposta agli incidenti e automazione.
  • Cloud architect e ingegneri: requisiti operativi e best practice per le fasi di progettazione e implementazione, per contribuire a garantire che le soluzioni siano progettate per l'efficienza e la scalabilità operativa.
  • Team DevOps: indicazioni su automazione, pipeline CI/CD e gestione del cambiamento per contribuire a rendere la distribuzione del software più rapida e affidabile.

Per raggiungere l'eccellenza operativa, devi adottare l'automazione, l'orchestrazione e gli approfondimenti basati sui dati. L'automazione contribuisce a eliminare le attività ripetitive. Inoltre, semplifica e crea barriere intorno alle attività ripetitive. L'orchestrazione consente di coordinare processi complessi. Le informazioni basate sui dati consentono di prendere decisioni basate su evidenze. Se utilizzi queste pratiche, puoi ottimizzare le operazioni sul cloud, ridurre i costi, migliorare la disponibilità dei servizi e rafforzare la sicurezza.

L'eccellenza operativa nel cloud va oltre la competenza tecnica nelle operazioni cloud. Include un cambiamento culturale che incoraggia l'apprendimento e la sperimentazione continui. I team devono essere in grado di innovare, eseguire l'iterazione e adottare un'attitudine di crescita. Una cultura di eccellenza operativa favorisce un ambiente collaborativo in cui le persone sono incoraggiate a condividere idee, mettere in discussione le supposizioni e promuovere il miglioramento.

Per i principi e i consigli per l'eccellenza operativa specifici per i carichi di lavoro di IA e ML, consulta Punto di vista sull'IA e sul ML: eccellenza operativa nel framework Well-Architected.

Principi fondamentali

I consigli nel pilastro dell'eccellenza operativa del framework Well-Architected sono mappati ai seguenti principi fondamentali:

Collaboratori

Autori:

Altri collaboratori:

Garantire l'idoneità operativa e le prestazioni utilizzando CloudOps

Questo principio del pilastro dell'eccellenza operativa del Google Cloud Well-Architected Framework ti aiuta a garantire l'idoneità operativa e il rendimento dei tuoi carichi di lavoro cloud. Mette l'accento sull'importanza di stabilire aspettative e impegni chiari per le prestazioni del servizio, sull'implementazione di un monitoraggio e di un sistema di avvisi efficaci, sull'esecuzione di test delle prestazioni e sulla pianificazione proattiva delle esigenze di capacità.

Panoramica del principio

Organizzazioni diverse potrebbero interpretare la disponibilità operativa in modo diverso. La preparazione operativa indica il modo in cui la tua organizzazione si prepara a eseguire correttamente i carichi di lavoro su Google Cloud. La preparazione per gestire un carico di lavoro cloud complesso e a più livelli richiede un'attenta pianificazione sia per il lancio sia per le operazioni di giorno 2. Queste operazioni sono spesso chiamate CloudOps.

Aree di attenzione per l'idoneità operativa

La prontezza operativa è composta da quattro aree di interesse. Ogni area di interesse è costituita da un insieme di attività e componenti necessari per prepararsi a utilizzare un'applicazione o un ambiente complesso in Google Cloud. La seguente tabella elenca i componenti e le attività di ogni area di interesse:

Area di attenzione della prontezza operativa Attività e componenti
Forza lavoro
  • Definire ruoli e responsabilità chiari per i team che gestiscono e utilizzano le risorse cloud.
  • Assicurati che i membri del team abbiano le competenze appropriate.
  • Sviluppo di un programma di apprendimento.
  • Stabilire una struttura di team chiara.
  • Assunzione del talento necessario.
Processi
  • Osservabilità.
  • Gestione delle interruzioni del servizio.
  • Pubblicazione sul cloud.
  • Operazioni cloud di base.
Strumenti Strumenti necessari per supportare le procedure CloudOps.
Governance
  • Livelli di servizio e report.
  • Finanza del cloud.
  • Modello operativo cloud.
  • Commissioni di revisione dell'architettura e di governance.
  • Architettura cloud e conformità.

Consigli

Per garantire l'idoneità operativa e le prestazioni utilizzando CloudOps, prendi in considerazione i consigli riportati nelle sezioni seguenti. Ogni consiglio in questo documento è pertinente a una o più delle aree di attenzione della prontezza operativa.

Definire SLO e SLA

Una responsabilità fondamentale del team di operazioni cloud è definire gli obiettivi sul livello del servizio (SLO) e gli accordi sul livello del servizio (SLA) per tutti i carichi di lavoro critici. Questo consiglio è pertinente alla area di attenzione della governance relativa all'idoneità operativa.

Gli SLO devono essere specifici, misurabili, realizzabili, pertinenti e vincolati al tempo (SMART) e devono riflettere il livello di servizio e prestazioni che vuoi.

  • Specifico: definisce chiaramente il livello di servizio e di rendimento richiesto.
  • Misurabili: quantificabili e monitorabili.
  • Raggiungibile: raggiungibile nei limiti delle funzionalità e delle risorse della tua organizzazione.
  • Rilevanti: in linea con gli scopi e le priorità dell'attività.
  • Con scadenza: ha un periodo di tempo definito per la misurazione e la valutazione.

Ad esempio, uno SLO per un'applicazione web potrebbe essere "disponibilità del 99,9%" o "tempo di risposta medio inferiore a 200 ms". Questi SLO definiscono chiaramente il livello di servizio e le prestazioni richiesti per l'applicazione web e possono essere misurati e monitorati nel tempo.

Gli SLA descrivono gli impegni assunti nei confronti dei clienti in merito alla disponibilità, alle prestazioni e all'assistenza del servizio, incluse eventuali penali o ingiunzioni per mancata conformità. Gli SLA devono includere dettagli specifici sui servizi forniti, sul livello di servizio che ci si può aspettare, sulle responsabilità del fornitore di servizi e del cliente e su eventuali penali o rimedi per la mancata conformità. Gli SLA fungono da contratto tra le due parti e garantiscono che entrambe abbiano una comprensione chiara delle aspettative e delle obbligazioni associate al servizio cloud.

Google Cloud fornisce strumenti come il monitoraggio di Cloud e gli indicatori di livello del servizio (SLI) per aiutarti a definire e monitorare gli SLO. Cloud Monitoring offre funzionalità di monitoraggio e osservabilità complete che consentono alla tua organizzazione di raccogliere e analizzare le metriche relative alla disponibilità, alle prestazioni e alla latenza di applicazioni e servizi basati su cloud. Gli SLI sono metriche specifiche che puoi utilizzare per misurare e monitorare gli SLO nel tempo. Utilizzando questi strumenti, puoi monitorare e gestire in modo efficace i servizi cloud e assicurarti che soddisfino gli SLO e gli SLA.

Definire e comunicare chiaramente gli SLO e gli SLA per tutti i servizi cloud critici contribuisce a garantire l'affidabilità e le prestazioni delle applicazioni e dei servizi di cui è stato eseguito il deployment.

Implementa un'osservabilità completa

Per avere visibilità in tempo reale sull'integrità e sulle prestazioni del tuo ambiente cloud, ti consigliamo di utilizzare una combinazione di strumenti di osservabilità di Google Cloud e soluzioni di terze parti. Questo consiglio è pertinente per queste aree di attenzione della prontezza operativa: procedure e strumenti.

L'implementazione di una combinazione di soluzioni di osservabilità ti offre una strategia di osservabilità completa che copre vari aspetti della tua infrastruttura e delle tue applicazioni cloud. Google Cloud Observability è una piattaforma unificata per raccogliere, analizzare e visualizzare metriche, log e tracce da variGoogle Cloud servizi, applicazioni e origini esterne. Con Cloud Monitoring puoi ottenere informazioni sull'utilizzo delle risorse, sulle caratteristiche delle prestazioni e sullo stato complessivo delle risorse.

Per garantire un monitoraggio completo, monitora le metriche importanti in linea con gli indicatori di salute del sistema, come l'utilizzo della CPU, l'utilizzo della memoria, il traffico di rete, l'I/O del disco e i tempi di risposta delle applicazioni. Devi inoltre prendere in considerazione le metriche specifiche per l'attività. Monitorando queste metriche, puoi identificare potenziali colli di bottiglia, problemi di prestazioni e limitazioni delle risorse. Inoltre, puoi configurare avvisi per notificare in modo proattivo ai team competenti potenziali problemi o anomalie.

Per migliorare ulteriormente le funzionalità di monitoraggio, puoi integrare soluzioni di terze parti con Google Cloud Observability. Queste soluzioni possono fornire funzionalità aggiuntive, come analisi avanzate, rilevamento di anomalie basato sul machine learning e funzionalità di gestione degli incidenti. Questa combinazione di strumenti di osservabilità di Google Cloud e soluzioni di terze parti ti consente di creare un ecosistema di monitoraggio robusto e personalizzabile, personalizzato in base alle tue esigenze specifiche. Con questo approccio combinato, puoi identificare e risolvere in modo proattivo i problemi, ottimizzare l'utilizzo delle risorse e garantire l'affidabilità e la disponibilità complessive delle tue applicazioni e dei tuoi servizi cloud.

Implementare test di prestazioni e carico

L'esecuzione di test di prestazioni regolari ti aiuta ad assicurarti che le tue applicazioni e la tua infrastruttura basate su cloud possano gestire i picchi di carico e mantenere prestazioni ottimali. I test di carico simulano modelli di traffico realistici. I test di stress spingono il sistema al limite per identificare potenziali colli di bottiglia e limitazioni delle prestazioni. Questo consiglio è pertinente per queste aree di attenzione della prontezza operativa: procedure e strumenti.

Strumenti come Cloud Load Balancing e servizi di test di carico possono aiutarti a simulare modelli di traffico reali e a sottoporre le tue applicazioni a stress test. Questi strumenti forniscono informazioni preziose sul comportamento del sistema in varie condizioni di carico e possono aiutarti a identificare le aree che richiedono ottimizzazione.

In base ai risultati dei test sulle prestazioni, puoi prendere decisioni per ottimizzare la tua infrastruttura e le tue applicazioni cloud in termini di prestazioni e scalabilità. Questa ottimizzazione potrebbe comportare la regolazione della distribuzione delle risorse, la messa a punto delle configurazioni o l'implementazione di meccanismi di memorizzazione nella cache.

Ad esempio, se noti che la tua applicazione presenta rallentamenti durante periodi di traffico elevato, potresti dover aumentare il numero di macchine virtuali o contenitori allocati all'applicazione. In alternativa, potrebbe essere necessario modificare la configurazione del server web o del database per migliorare il rendimento.

Conducendo regolarmente test di prestazioni e implementando le ottimizzazioni necessarie, puoi assicurarti che le tue applicazioni e la tua infrastruttura basate su cloud funzionino sempre al massimo delle prestazioni e offrano un'esperienza fluida e adattabile agli utenti. In questo modo, puoi mantenere un vantaggio competitivo e conquistare la fiducia dei clienti.

Pianificare e gestire la capacità

Pianificare in modo proattivo le esigenze di capacità future, sia organiche che inorganiche, ti aiuta a garantire il funzionamento regolare e la scalabilità dei tuoi sistemi basati su cloud. Questo consiglio è pertinente per le procedure dell'area di attenzione della prontezza operativa.

La pianificazione della capacità futura include la comprensione e la gestione delle quote per varie risorse come istanze di calcolo, spazio di archiviazione e richieste API. Analizzando i modelli di utilizzo storici, le proiezioni di crescita e i requisiti aziendali, puoi prevedere con precisione le esigenze di capacità future. Puoi utilizzare strumenti come Cloud Monitoring e BigQuery per raccogliere e analizzare i dati sull'utilizzo, identificare le tendenze e prevedere la domanda futura.

I pattern di utilizzo storici forniscono informazioni preziose sull'utilizzo delle risorse nel tempo. Esaminando metriche come utilizzo della CPU, utilizzo della memoria e traffico di rete, puoi identificare periodi di alta domanda e potenziali colli di bottiglia. Inoltre, puoi contribuire a stimare le esigenze future in termini di capacità effettuando proiezioni di crescita in base a fattori quali la crescita della base utenti, i nuovi prodotti e le funzionalità e le campagne di marketing. Quando valuti le esigenze di capacità, devi anche prendere in considerazione i requisiti aziendali, come gli SLA e i target di rendimento.

Quando determini le dimensioni delle risorse per un carico di lavoro, tieni conto dei fattori che possono influire sull'utilizzo delle risorse. Le variazioni stagionali, come i periodi di shopping per le festività o i saldi di fine trimestre, possono causare picchi temporanei della domanda. Anche gli eventi pianificati, come i lanci di prodotti o le campagne di marketing, possono aumentare notevolmente il traffico. Per assicurarti che il sistema principale e di ripristino di emergenza (RE) possa gestire picchi di domanda imprevisti, pianifica una capacità in grado di supportare il failover graduale durante interruzioni come calamità naturali e attacchi informatici.

La scalabilità automatica è una strategia importante per regolare dinamicamente le risorse cloud in base alle fluttuazioni del carico di lavoro. Utilizzando i criteri di scalabilità automatica, puoi eseguire lo scale up e lo scale down automatici di istanze di calcolo, spazio di archiviazione e altre risorse in risposta alla domanda in evoluzione. Ciò garantisce prestazioni ottimali durante i periodi di picco e minimizza i costi quando l'utilizzo delle risorse è ridotto. Gli algoritmi di scalabilità automatica utilizzano metriche come l'utilizzo della CPU, l'utilizzo della memoria e la profondità della coda per determinare quando scalare le risorse.

Monitorare e ottimizzare continuamente

Per gestire e ottimizzare i carichi di lavoro cloud, devi stabilire un processo per monitorare e analizzare continuamente le metriche sul rendimento. Questo consiglio è pertinente per le seguenti aree di attenzione della prontezza operativa: processi e strumenti.

Per stabilire una procedura di monitoraggio e analisi continua, monitori, raccolgi e valuti i dati relativi a vari aspetti del tuo ambiente cloud. Utilizzando questi dati, puoi identificare in modo proattivo le aree di miglioramento, ottimizzare l'utilizzo delle risorse e assicurarti che la tua infrastruttura cloud soddisfi o superi costantemente le tue aspettative in termini di prestazioni.

Un aspetto importante del monitoraggio del rendimento è la revisione regolare di log e tracce. I log forniscono informazioni preziose su eventi, errori e avvisi di sistema. Le tracce forniscono informazioni dettagliate sul flusso di richieste all'interno della tua applicazione. Analizzando i log e le tracce, puoi identificare potenziali problemi, le cause principali dei problemi e comprendere meglio il comportamento delle tue applicazioni in condizioni diverse. Metriche come il tempo di percorrenza tra i servizi possono aiutarti a identificare e comprendere i colli di bottiglia nei tuoi carichi di lavoro.

Inoltre, puoi utilizzare tecniche di ottimizzazione delle prestazioni per migliorare notevolmente i tempi di risposta dell'applicazione e l'efficienza complessiva. Di seguito sono riportati alcuni esempi di tecniche che puoi utilizzare:

  • Memorizzazione nella cache: memorizza in memoria i dati a cui si accede di frequente per ridurre la necessità di query ripetute al database o chiamate all'API.
  • Ottimizzazione del database: utilizza tecniche come l'indicizzazione e l'ottimizzazione delle query per migliorare le prestazioni delle operazioni del database.
  • Profilazione del codice: identifica le aree del codice che consumano risorse eccessive o causano problemi di prestazioni.

Applicando queste tecniche, puoi ottimizzare le tue applicazioni e assicurarti che funzionino in modo efficiente nel cloud.

Gestire incidenti e problemi

Questo principio del pilastro dell'eccellenza operativa del Google Cloud Well-Architected Framework fornisce consigli per aiutarti a gestire incidenti e problemi relativi ai carichi di lavoro cloud. Richiede l'implementazione di monitoraggio e osservabilità completi, l'istituzione di procedure chiare di risposta agli incidenti, l'esecuzione di un'analisi approfondita delle cause principali e l'implementazione di misure preventive. Molti degli argomenti trattati in questo principio sono trattati in dettaglio nel pilastro Attendibilità.

Panoramica del principio

La gestione degli incidenti e la gestione dei problemi sono componenti importanti di un ambiente operativo funzionale. Il modo in cui rispondi, categorizzi e risolvi gli incidenti di gravità diversa può influire in modo significativo sulle tue operazioni. Inoltre, devi apportare modifiche in modo proattivo e continuo per ottimizzare l'affidabilità e le prestazioni. Una procedura efficiente per la gestione di incidenti e problemi si basa su i seguenti elementi fondamentali:

  • Monitoraggio continuo: identifica e risolvi i problemi rapidamente.
  • Automazione: semplifica le attività e migliora l'efficienza.
  • Orchestrazione: coordina e gestisci in modo efficace le risorse cloud.
  • Approfondimenti basati sui dati: ottimizza le operazioni sul cloud e prendi decisioni informate.

Questi elementi ti aiutano a creare un ambiente cloud resiliente in grado di gestire un'ampia gamma di sfide e interruzioni. Questi elementi possono anche contribuire a ridurre il rischio di incidenti e tempi di riposo costosi e aiutarti a ottenere una maggiore agilità e un maggiore successo aziendale. Questi elementi di base sono distribuiti nelle quattroaree di attenzione della prontezza operativa: personale, processi, strumenti e governance.

Consigli

Per gestire efficacemente gli incidenti e i problemi, consulta i consigli riportati nelle sezioni seguenti. Ogni consiglio in questo documento è pertinente a una o più delle aree di attenzione della prontezza operativa.

Stabilisci procedure di risposta agli incidenti chiare

Ruoli e responsabilità chiari sono essenziali per garantire una risposta efficace e coordinata agli incidenti. Inoltre, protocolli di comunicazione chiari e percorsi di riassegnazione contribuiscono a garantire che le informazioni vengano condivise tempestivamente ed efficacemente durante un incidente. Questo consiglio è pertinente per queste aree di attenzione della prontezza operativa: la forza lavoro, i processi e gli strumenti.

Per stabilire le procedure di risposta agli incidenti, devi definire i ruoli e le aspettative di ciascun membro del team, ad esempio incident commander, investigatori, comunicatori ed esperti tecnici. L'impostazione di percorsi di comunicazione e riassegnazione include l'identificazione dei contatti importanti, la configurazione dei canali di comunicazione e la definizione della procedura per la riassegnazione degli incidenti a livelli di gestione superiori, se necessario. La formazione e la preparazione regolari contribuiscono a garantire che i team dispongano delle conoscenze e delle competenze per rispondere efficacemente agli incidenti.

Documentando le procedure di risposta agli incidenti in un runbook o un playbook, puoi fornire una guida di riferimento standardizzata che i team devono seguire durante un incidente. Il runbook deve descrivere i passaggi da seguire in ogni fase della procedura di risposta agli incidenti, tra cui comunicazione, triage, indagine e risoluzione. Deve inoltre includere informazioni su strumenti e risorse pertinenti e i dati di contatto del personale importante. Devi esaminare e aggiornare regolarmente il runbook per assicurarti che rimanga aggiornato ed efficace.

Centralizzare la gestione degli incidenti

Per un monitoraggio e una gestione efficaci durante tutto il ciclo di vita dell'incidente, valuta la possibilità di utilizzare un sistema di gestione degli incidenti centralizzato. Questo consiglio è pertinente per le seguenti aree di attenzione della prontezza operativa: procedure e strumenti.

Un sistema di gestione degli incidenti centralizzato offre i seguenti vantaggi:

  • Maggiore visibilità: consolidando tutti i dati relativi agli incidenti in un'unica posizione, elimini la necessità per i team di cercare il contesto in vari canali o sistemi. Questo approccio consente di risparmiare tempo e ridurre la confusione, nonché di offrire agli stakeholder una visione completa dell'incidente, incluso lo stato, l'impatto e l'avanzamento.
  • Migliore coordinamento e collaborazione: un sistema centralizzato offre una piattaforma unificata per la comunicazione e la gestione delle attività. Promuove la collaborazione senza interruzioni tra i diversi reparti e le varie funzioni coinvolte nella risposta agli incidenti. Questo approccio garantisce a tutti l'accesso a informazioni aggiornate e riduce il rischio di mancata comunicazione e mancata allineamento.
  • Accountability e proprietà migliorate: un sistema di gestione degli incidenti centralizzato consente alla tua organizzazione di allocare le attività a persone o team specifici e garantisce che le responsabilità siano chiaramente definite e monitorate. Questo approccio promuove la responsabilità e incoraggia la risoluzione proattiva dei problemi perché i membri del team possono monitorare facilmente i propri progressi e contributi.

Un sistema di gestione degli incidenti centralizzato deve offrire funzionalità efficaci per il monitoraggio degli incidenti, l'assegnazione delle attività e la gestione delle comunicazioni. Queste funzionalità ti consentono di personalizzare i flussi di lavoro, impostare le priorità e integrare altri sistemi, come strumenti di monitoraggio e sistemi di ticketing.

Implementando un sistema di gestione degli incidenti centralizzato, puoi ottimizzare le procedure di risposta agli incidenti della tua organizzazione, migliorare la collaborazione e aumentare la visibilità. In questo modo, i tempi di risoluzione degli incidenti si riducono, il tempo di inattività si riduce e la soddisfazione dei clienti migliora. Inoltre, contribuisce a promuovere una cultura di miglioramento continuo perché puoi imparare dagli incidenti passati e identificare le aree di miglioramento.

Esegui revisioni approfondite dopo l'incidente

Dopo che si è verificato un incidente, devi eseguire un'analisi post-incidente dettagliata (PIR), nota anche come post-mortem, per identificare la causa principale, i fattori che hanno contribuito all'incidente e le lezioni apprese. Questa revisione approfondita ti aiuta a evitare incidenti simili in futuro. Questo consiglio è pertinente per queste aree di attenzione della preparazione operativa: processi e governance.

La procedura PIR deve coinvolgere un team multidisciplinare con competenze in vari aspetti dell'incidente. Il team deve raccogliere tutte le informazioni pertinenti tramite interviste, revisione della documentazione e ispezioni del sito. È necessario creare una sequenza temporale degli eventi per stabilire la sequenza di azioni che hanno portato all'incidente.

Dopo aver raccolto le informazioni richieste, il team deve eseguire un'analisi della causa principale per determinare i fattori che hanno causato l'incidente. Questa analisi deve identificare sia la causa immediata sia i problemi sistemici che hanno contribuito all'incidente.

Oltre a identificare la causa principale, il team PIR deve identificare eventuali altri fattori che potrebbero aver causato l'incidente. Questi fattori possono includere errori umani, guasti dell'apparecchiatura o fattori organizzativi come interruzioni delle comunicazioni e mancanza di formazione.

Il report PIR deve documentare i risultati dell'indagine, inclusa la cronologia degli eventi, l'analisi delle cause principali e le azioni consigliate. Il report è una risorsa preziosa per implementare azioni correttive e prevenire la ricorrenza. Il report deve essere condiviso con tutti gli stakeholder pertinenti e deve essere utilizzato per sviluppare procedure e formazione sulla sicurezza.

Per garantire un processo PIR efficace, la tua organizzazione deve promuovere una cultura senza colpa che si focalizzi sull'apprendimento e sul miglioramento anziché sull'assegnazione di responsabilità. Questa cultura incoraggia le persone a segnalare gli incidenti senza temere ritorsioni e ti consente di risolvere i problemi sistemici e apportare miglioramenti significativi.

Conducendo PIR approfonditi e implementando misure correttive in base ai risultati, puoi ridurre notevolmente il rischio che si verifichino incidenti simili in futuro. Questo approccio proattivo alla prevenzione e all'indagine sugli incidenti contribuisce a creare un ambiente di lavoro più sicuro ed efficiente per tutte le persone coinvolte.

Gestire una knowledge base

Una knowledge base di problemi noti, soluzioni e guide alla risoluzione dei problemi è obbligatoria per la gestione e la risoluzione degli incidenti. I membri del team possono utilizzare la knowledge base per identificare e risolvere rapidamente i problemi comuni. L'implementazione di una base di conoscenza contribuisce a ridurre la necessità di riassegnazione e migliora l'efficienza complessiva. Questo consiglio è pertinente per queste aree di attenzione per l'idoneità operativa: risorse umane e processi.

Uno dei vantaggi principali di una knowledge base è che consente ai team di imparare dalle esperienze passate ed evitare di ripetere gli errori. Acquisendo e condividendo le soluzioni ai problemi noti, i team possono acquisire una conoscenza collettiva di come risolvere i problemi comuni e le best practice per la gestione degli incidenti. L'utilizzo di una base di conoscenza consente di risparmiare tempo e fatica, aiuta a standardizzare i processi e garantisce la coerenza nella risoluzione degli incidenti.

Oltre a contribuire a migliorare i tempi di risoluzione degli incidenti, una knowledge base promuove la condivisione delle conoscenze e la collaborazione tra i team. Con un repository centralizzato di informazioni, i team possono accedere facilmente alla knowledge base e contribuire a migliorarla, promuovendo una cultura di apprendimento e miglioramento continuo. Questa cultura incoraggia i team a condividere le loro competenze ed esperienze, portando a una knowledge base più completa e preziosa.

Per creare e gestire una knowledge base in modo efficace, utilizza strumenti e tecnologie appropriati. Le piattaforme di collaborazione come Google Workspace sono adatte a questo scopo perché ti consentono di creare, modificare e condividere facilmente i documenti in collaborazione. Questi strumenti supportano anche il controllo della versione e il monitoraggio delle modifiche, che garantisce che la knowledge base rimanga aggiornata e accurata.

Rendi la knowledge base facilmente accessibile a tutti i team pertinenti. Puoi ottenere questo risultato integrando la knowledge base con i sistemi di gestione degli incidenti esistenti o fornendo un portale o un sito intranet dedicato. Una knowledge base facilmente disponibile consente ai team di accedere rapidamente alle informazioni di cui hanno bisogno per risolvere gli incidenti in modo efficiente. Questa disponibilità contribuisce a ridurre i tempi di inattività e a ridurre al minimo l'impatto sulle operazioni aziendali.

Esamina e aggiorna regolarmente la knowledge base per assicurarti che rimanga pertinente e utile. Monitora i report sugli incidenti, identifica le tendenze e i problemi comuni e incorpora nuove soluzioni e guide alla risoluzione dei problemi nella knowledge base. Una knowledge base aggiornata aiuta i team a risolvere gli incidenti più rapidamente ed efficacemente.

Automatizzare la risposta agli incidenti

L'automazione consente di semplificare le procedure di risposta e correzione degli incidenti. Ti consente di gestire in modo tempestivo ed efficace violazioni della sicurezza e guasti del sistema. Utilizzando Google Cloud prodotti come funzioni Cloud Run o Cloud Run, puoi automatizzare varie attività che in genere sono manuali e richiedono molto tempo. Questo consiglio è pertinente per queste aree di attenzione della prontezza operativa: procedure e strumenti.

La risposta automatica agli incidenti offre i seguenti vantaggi:

  • Riduzione dei tempi di rilevamento e risoluzione degli incidenti: gli strumenti automatici possono monitorare continuamente sistemi e applicazioni, rilevare attività sospette o anomale in tempo reale e inviare notifiche agli stakeholder o rispondere senza intervento. Questa automazione ti consente di identificare potenziali minacce o problemi prima che diventino incidenti gravi. Quando viene rilevato un incidente, gli strumenti automatici possono attivare azioni di correzione predefinite, come l'isolamento dei sistemi interessati, la messa in quarantena dei file dannosi o il rollback delle modifiche per ripristinare il sistema a uno stato noto buono.
  • Riduzione del carico sui team di sicurezza e operations: la risposta automatica agli incidenti consente ai team di sicurezza e operations di concentrarsi su attività più strategiche. Automatizzando le attività di routine e ripetitive, come la raccolta di informazioni di diagnostica o l'attivazione di avvisi, la tua organizzazione può liberare il personale per gestire incidenti più complessi e critici. Questa automazione può contribuire a migliorare l'efficacia e l'efficienza complessive della risposta agli incidenti.
  • Maggiore coerenza e accuratezza del processo di correzione: gli strumenti automatici possono garantire che le azioni di correzione vengano applicate in modo uniforme a tutti i sistemi interessati, riducendo al minimo il rischio di errori umani o incongruenze. Questa standardizzazione della procedura di correzione contribuisce a minimizzare l'impatto degli incidenti sugli utenti e sull'attività.

Gestire e ottimizzare le risorse cloud

Questo principio del pilastro dell'eccellenza operativa del Google Cloud Framework Well-Architected fornisce suggerimenti per aiutarti a gestire e ottimizzare le risorse impiegate dai carichi di lavoro cloud. Richiede il dimensionamento ottimale delle risorse in base all'utilizzo e alla domanda effettivi, l'utilizzo della scalabilità automatica per l'allocazione dinamica delle risorse, l'implementazione di strategie di ottimizzazione dei costi e la revisione periodica dell'utilizzo e dei costi delle risorse. Molti degli argomenti trattati in questo principio vengono trattati in dettaglio nel colonna vertebrale Ottimizzazione dei costi.

Panoramica del principio

La gestione e l'ottimizzazione delle risorse cloud svolgono un ruolo fondamentale nell'ottimizzazione della spesa cloud, dell'utilizzo delle risorse e dell'efficienza dell'infrastruttura. Include diverse strategie e best practice volte a massimizzare il valore e il ritorno delle spese cloud.

L'attenzione di questo pilastro sull'ottimizzazione va oltre la riduzione dei costi. Mette in evidenza gli obiettivi seguenti:

  • Efficienza: utilizza l'automazione e l'analisi dei dati per ottenere il rendimento migliore e risparmiare sui costi.
  • Rendimento: scalare le risorse senza sforzo per soddisfare le richieste in continua evoluzione e ottenere risultati ottimali.
  • Scalabilità: adattamento dell'infrastruttura e dei processi per gestire una crescita rapida e carichi di lavoro diversi.

Se ti concentri su questi obiettivi, puoi raggiungere un equilibrio tra costi e funzionalità. Puoi prendere decisioni consapevoli in merito al provisioning, allo scaling e alla migrazione delle risorse. Inoltre, puoi ottenere informazioni preziose sui pattern di consumo delle risorse, il che ti consente di identificare e risolvere in modo proattivo i potenziali problemi prima che vengano riassegnati.

Consigli

Per gestire e ottimizzare le risorse, tieni presenti i consigli riportati nelle seguenti sezioni. Ogni consiglio in questo documento è pertinente a una o più aree di attenzione della prontezza operativa.

Dimensiona correttamente le risorse

Il monitoraggio continuo dell'utilizzo delle risorse e l'aggiustamento della loro allocazione in base alla domanda effettiva sono essenziali per una gestione efficiente delle risorse cloud. L'overprovisioning delle risorse può comportare costi non necessari, mentre il provisioning insufficiente può causare colli di bottiglia che influiscono sul rendimento dell'applicazione e sull'esperienza utente. Per ottenere un equilibrio ottimale, devi adottare un approccio proattivo per il dimensionamento corretto delle risorse cloud. Questo consiglio è pertinente alla area di attenzione della governance relativa all'idoneità operativa.

Cloud Monitoring e Recommender possono aiutarti a identificare le opportunità per il dimensionamento ottimale. Cloud Monitoring fornisce visibilità in tempo reale sulle metriche di utilizzo delle risorse. Questa visibilità consente di monitorare i pattern di utilizzo delle risorse e identificare potenziali inefficienze. Il motore per suggerimenti analizza i dati di utilizzo delle risorse per fornire consigli intelligenti per ottimizzare l'allocazione delle risorse. Utilizzando questi strumenti, puoi ottenere informazioni sull'utilizzo delle risorse e prendere decisioni consapevoli su come dimensionarle correttamente.

Oltre a Cloud Monitoring e Recommender, ti consigliamo di utilizzare le metriche personalizzate per attivare azioni automatiche di dimensionamento adeguato. Le metriche personalizzate ti consentono di monitorare metriche specifiche sull'utilizzo delle risorse pertinenti per le tue applicazioni e i tuoi workload. Puoi anche configurare avvisi per notificare gli amministratori quando vengono raggiunte le soglie predefinite. Gli amministratori possono quindi intraprendere le azioni necessarie per modificare l'allocazione delle risorse. Questo approccio proattivo garantisce che le risorse vengano scalate in modo tempestivo, il che contribuisce a ottimizzare i costi del cloud e a prevenire problemi di prestazioni.

Utilizzare la scalabilità automatica

La scalabilità automatica delle risorse di calcolo e di altro tipo contribuisce a garantire prestazioni e efficacia in termini di costi ottimali per le applicazioni basate su cloud. La scalabilità automatica ti consente di regolare dinamicamente la capacità delle risorse in base alle fluttuazioni del carico di lavoro, in modo da avere le risorse di cui hai bisogno quando ti servono ed evitare il provisioning eccessivo e costi non necessari. Questo consiglio è pertinente per le procedure nell'area di attenzione dell'idoneità operativa.

Per soddisfare le diverse esigenze di applicazioni e carichi di lavoro diversi, Google Cloud offre varie opzioni di scalabilità automatica, tra cui:

  • I gruppi di istanze gestite (MIG) di Compute Engine sono gruppi di VM gestite e scalate come un'unica entità. Con i gruppi MIG, puoi definire criteri di scalabilità automatica che specificano il numero minimo e massimo di VM da mantenere nel gruppo e le condizioni che attivano la scalabilità automatica. Ad esempio, puoi configurare un criterio per aggiungere VM in un MIG quando l'utilizzo della CPU raggiunge una determinata soglia e per rimuovere le VM quando l'utilizzo scende al di sotto di un'altra soglia.
  • L'autoscaling di Google Kubernetes Engine (GKE) modifica dinamicamente le risorse del cluster in base alle esigenze della tua applicazione. Offre i seguenti strumenti:

    • Cluster Autoscaler aggiunge o rimuove i nodi in base alle richieste di risorse dei pod.
    • Horizontal Pod Autoscaler modifica il numero di repliche del pod in base a CPU, memoria o metriche personalizzate.
    • Il gestore della scalabilità automatica pod verticale perfeziona le richieste e i limiti delle risorse dei pod in base ai pattern di utilizzo.
    • Il provisioning automatico dei nodi crea automaticamente pool di nodi ottimizzati per i tuoi carichi di lavoro.

    Questi strumenti lavorano insieme per ottimizzare l'utilizzo delle risorse, garantire le prestazioni delle applicazioni e semplificare la gestione dei cluster.

  • Cloud Run è una piattaforma serverless che ti consente di eseguire il codice senza dover gestire l'infrastruttura. Cloud Run offre la scalabilità automatica integrata, che consente di regolare automaticamente il numero di istanze in base al traffico in entrata. Quando il volume del traffico aumenta, Cloud Run aumenta il numero di istanze per gestire il carico. Quando il traffico diminuisce, Cloud Run riduce il numero di istanze per ridurre i costi.

Utilizzando queste opzioni di scalabilità automatica, puoi assicurarti che le tue applicazioni basate su cloud dispongano delle risorse necessarie per gestire carichi di lavoro variabili, evitando al contempo il provisioning eccessivo e i costi non necessari. L'utilizzo della scalabilità automatica può portare a un miglioramento delle prestazioni, a risparmi sui costi e a un utilizzo più efficiente delle risorse cloud.

Sfrutta le strategie di ottimizzazione dei costi

L'ottimizzazione della spesa per il cloud ti consente di gestire in modo efficace i budget IT della tua organizzazione. Questo consiglio è pertinente alla area di attenzione della governance relativa all'idoneità operativa.

Google Cloud offre diversi strumenti e tecniche per aiutarti a ottimizzare i costi del cloud. Utilizzando questi strumenti e queste tecniche, puoi ottenere il massimo valore dalle tue spese per il cloud. Questi strumenti e queste tecniche ti aiutano a identificare le aree in cui è possibile ridurre i costi, ad esempio identificare le risorse sottoutilizzate o consigliare tipi di istanze più convenienti. Google Cloud Le opzioni per ottimizzare i costi del cloud includono quanto segue:

I modelli di determinazione del prezzo potrebbero cambiare nel tempo e potrebbero essere introdotte nuove funzionalità che offrono un rendimento migliore o un costo inferiore rispetto alle opzioni esistenti. Pertanto, è consigliabile rivedere regolarmente i modelli di prezzi e prendere in considerazione funzionalità alternative. Mantenendoti al corrente dei modelli di prezzi e delle funzionalità più recenti, puoi prendere decisioni consapevoli sulla tua architettura cloud per ridurre al minimo i costi.

Gli strumenti di gestione dei costi diGoogle Cloud, come budget e avvisi, forniscono informazioni preziose sulle spese cloud. Budget e avvisi consentono agli utenti di impostare budget e ricevere avvisi quando questi vengono superati. Questi strumenti aiutano gli utenti a monitorare le spese cloud e identificare le aree in cui è possibile ridurre i costi.

Monitorare l'utilizzo e i costi delle risorse

Puoi utilizzare i tag e le etichette per monitorare l'utilizzo e i costi delle risorse. Se assegni tag ed etichette alle risorse cloud, come progetti, reparti o altre dimensioni pertinenti, puoi classificare e organizzare le risorse. In questo modo, puoi monitorare e analizzare i modelli di spesa per risorse specifiche e identificare aree con un elevato utilizzo o potenziali risparmi sui costi. Questo consiglio è pertinente per queste aree di attenzione della prontezza operativa: governance e strumenti.

Strumenti come la fatturazione Cloud e la gestione dei costi ti aiutano a ottenere una conoscenza completa dei tuoi schemi di spesa. Questi strumenti forniscono informazioni dettagliate sul tuo utilizzo del cloud e ti consentono di identificare le tendenze, prevedere i costi e prendere decisioni consapevoli. Analizzando i dati storici e i modelli di spesa attuali, puoi identificare le aree di intervento per l'ottimizzazione dei costi.

Le dashboard e i report personalizzati ti aiutano a visualizzare i dati sui costi e a ottenere informazioni più approfondite sulle tendenze di spesa. Personalizzando le dashboard con metriche e dimensioni pertinenti, puoi monitorare gli indicatori chiave di prestazione (KPI) e seguire l'avanzamento verso i tuoi obiettivi di ottimizzazione dei costi. I report offrono analisi più approfondite dei dati sui costi. I report ti consentono di filtrare i dati in base a periodi di tempo o tipi di risorse specifici per comprendere i fattori sottostanti che contribuiscono alla spesa per il cloud.

Esamina e aggiorna regolarmente i tag, le etichette e gli strumenti di analisi dei costi per assicurarti di disporre delle informazioni più aggiornate sull'utilizzo e sui costi del cloud. Mantenendoti al corrente e conducendo analisi post mortem o revisioni dei costi proattive, puoi identificare tempestivamente eventuali aumenti imprevisti della spesa. In questo modo, puoi prendere decisioni proattive per ottimizzare le risorse cloud e controllare i costi.

Stabilisci l'allocazione dei costi e il budget

La responsabilità e la trasparenza nella gestione dei costi del cloud sono fondamentali per ottimizzare l'utilizzo delle risorse e garantire il controllo finanziario. Questo consiglio è pertinente alla area di attenzione della governance relativa all'idoneità operativa.

Per garantire responsabilità e trasparenza, devi disporre di meccanismi chiari per l'allocazione dei costi e lo storno di addebito. Se assegni i costi a team, progetti o persone specifici, la tua organizzazione può assicurarsi che ciascuna di queste persone sia responsabile del proprio utilizzo del cloud. Questa pratica favorisce un senso di proprietà e incoraggia una gestione responsabile delle risorse. Inoltre, i meccanismi di addebito diretto consentono alla tua organizzazione di recuperare i costi del cloud dai clienti interni, allineare gli incentivi al rendimento e promuovere la disciplina fiscale.

Stabilire budget per team o progetti diversi è un altro aspetto essenziale della gestione dei costi del cloud. I budget consentono alla tua organizzazione di definire limiti di spesa e monitorare le spese effettive rispetto a questi limiti. Questo approccio consente di prendere decisioni proattive per evitare una spesa incontrollata. Impostando budget realistici e realizzabili, puoi assicurarti che le risorse cloud vengano utilizzate in modo efficiente e in linea con gli obiettivi commerciali. Il monitoraggio regolare della spesa effettiva rispetto ai budget ti aiuta a identificare le variazioni e a risolvere tempestivamente i potenziali superamenti.

Per monitorare i budget, puoi utilizzare strumenti come budget e avvisi di fatturazione Cloud. Questi strumenti forniscono informazioni in tempo reale sulla spesa per il cloud e avvisano gli stakeholder di potenziali superamenti. Utilizzando queste funzionalità, puoi monitorare i costi del cloud e adottare azioni correttive prima che si verifichino deviazioni significative. Questo approccio proattivo aiuta a evitare sorprese finanziarie e garantisce che le risorse cloud vengano utilizzate in modo responsabile.

Automatizza e gestisci le modifiche

Questo principio del pilastro dell'eccellenza operativa del Google Cloud Well-Architected Framework fornisce consigli per aiutarti ad automatizzare e gestire i cambiamenti per i tuoi carichi di lavoro cloud. Richiede l'implementazione di Infrastructure as Code (IaC), l'adozione di procedure operative standard, l'implementazione di un processo di gestione delle modifiche strutturato e l'utilizzo di automazione e orchestrazione.

Panoramica del principio

La gestione del cambiamento e l'automazione svolgono un ruolo fondamentale per garantire transizioni fluide e controllate all'interno degli ambienti cloud. Per una gestione efficace dei cambiamenti, devi utilizzare strategie e best practice che riducano al minimo le interruzioni e garantiscano l'integrazione delle modifiche con i sistemi esistenti.

La gestione e l'automazione dei cambiamenti efficaci includono i seguenti elementi di base:

  • Governance del cambiamento: definisci norme e procedure chiare per la gestione del cambiamento, incluse le procedure di approvazione e i piani di comunicazione.
  • Valutazione del rischio: identifica i potenziali rischi associati alle modifiche e riducili tramite tecniche di gestione del rischio.
  • Test e convalida: testa attentamente le modifiche per assicurarti che soddisfino i requisiti di funzionalità e prestazioni e riduci le potenziali regressioni.
  • Deployment controllato: implementa le modifiche in modo controllato, assicurandoti che la transizione degli utenti al nuovo ambiente avvenga senza problemi, con meccanismi per eseguire il rollback senza problemi, se necessario.

Questi elementi fondamentali contribuiscono a ridurre al minimo l'impatto delle modifiche e assicurano che queste abbiano un effetto positivo sulle operazioni aziendali. Questi elementi sono rappresentati dalle aree di attenzione della prontezza operativa relative a processi, strumenti e governance.

Consigli

Per automatizzare e gestire le modifiche, prendi in considerazione i consigli riportati nelle seguenti sezioni. Ogni consiglio in questo documento è pertinente a una o più aree di attenzione della prontezza operativa.

Adottare l'IaC

Infrastructure as Code (IaC) è un approccio trasformativo per la gestione dell'infrastruttura cloud. Puoi definire e gestire l'infrastruttura cloud in modo dichiarativo utilizzando strumenti come Terraform. L'IaC ti aiuta a ottenere coerenza, ripetibilità e gestione delle modifiche semplificata. Consente inoltre deployment più rapidi e affidabili. Questo consiglio è pertinente per queste aree di attenzione della prontezza operativa: processi e strumenti.

Di seguito sono riportati i principali vantaggi dell'adozione dell'approccio IaC per le implementazioni cloud:

  • Configurazioni delle risorse leggibili: con l'approccio IaC, puoi dichiarare le risorse dell'infrastruttura cloud in un formato leggibile, come JSON o YAML. Gli amministratori e gli operatori dell'infrastruttura possono facilmente comprendere e modificare l'infrastruttura e collaborare con altri.
  • Coerenza e ripetibilità: IaC consente coerenza e ripetibilità nei deployment dell'infrastruttura. Puoi assicurarti che il provisioning e la configurazione dell'infrastruttura vengano eseguiti sempre nello stesso modo, indipendentemente da chi esegue il deployment. Questo approccio contribuisce a ridurre gli errori e garantisce che l'infrastruttura sia sempre in uno stato noto.
  • Responsabilità e risoluzione dei problemi semplificata: l'approccio IaC contribuisce a migliorare la responsabilità e semplifica la risoluzione dei problemi. Se memorizzi il codice IaC in un sistema di controllo delle versioni, puoi monitorare le modifiche e identificare quando e da chi sono state apportate. Se necessario, puoi eseguire facilmente il rollback alle versioni precedenti.

Implementare il controllo delle versioni

Un sistema di controllo della versione come Git è un componente chiave del processo IaC. Fornisce solide funzionalità di gestione del cambiamento e mitigazione dei rischi, motivo per cui è ampiamente adottato, tramite sviluppo interno o soluzioni SaaS. Questo consiglio è pertinente per queste aree di attenzione della prontezza operativa: governance e strumenti.

Monitorando le modifiche al codice e alle configurazioni IaC, il controllo della versione offre una visibilità sull'evoluzione del codice, semplificando la comprensione dell'impatto delle modifiche e l'identificazione di potenziali problemi. Questa visibilità migliorata favorisce la collaborazione tra i membri del team che lavorano allo stesso progetto IaC.

La maggior parte dei sistemi di controllo della versione ti consente di annullare facilmente le modifiche, se necessario. Questa funzionalità contribuisce a ridurre il rischio di conseguenze o errori involontari. Con l'utilizzo di strumenti come Git nel flusso di lavoro IaC, puoi migliorare notevolmente le procedure di gestione delle modifiche, favorire la collaborazione e ridurre i rischi, il che porta a un'implementazione IaC più efficiente e affidabile.

Creare pipeline CI/CD

Le pipeline di integrazione e distribuzione continua (CI/CD) semplificano il processo di sviluppo e deployment delle applicazioni cloud. Le pipeline CI/CD automatizzano le fasi di creazione, test e deployment, il che consente rilasci più rapidi e frequenti con un controllo della qualità migliorato. Questo consiglio è pertinente per gli strumenti della area di attenzione della prontezza operativa.

Le pipeline CI/CD assicurano che le modifiche al codice vengano integrate continuamente in un repository centrale, in genere un sistema di controllo della versione come Git. L'integrazione continua facilita il rilevamento e la risoluzione tempestivi dei problemi e riduce la probabilità di bug o problemi di compatibilità.

Per creare e gestire pipeline CI/CD per le applicazioni cloud, puoi utilizzare strumenti come Cloud Build e Cloud Deploy.

  • Cloud Build è un servizio di compilazione completamente gestito che consente agli sviluppatori di definire ed eseguire i passaggi di compilazione in modo dichiarativo. Si integra perfettamente con le piattaforme di gestione del codice sorgente più diffuse e può essere attivato da eventi come push di codice e pull request.
  • Cloud Deploy è un servizio di deployment serverless che automatizza il processo di deployment delle applicazioni in vari ambienti, come test, gestione temporanea e produzione. Fornisce funzionalità come i deployment blu/verdi, la suddivisione del traffico e le funzionalità di rollback, semplificando la gestione e il monitoraggio dei deployment delle applicazioni.

L'integrazione delle pipeline CI/CD con sistemi di controllo della versione e framework di test contribuisce a garantire la qualità e l'affidabilità delle applicazioni cloud. Eseguendo test automatici nell'ambito del processo CI/CD, i team di sviluppo possono identificare e risolvere rapidamente eventuali problemi prima che il codice venga implementato nell'ambiente di produzione. Questa integrazione contribuisce a migliorare la stabilità complessiva e le prestazioni delle tue applicazioni cloud.

Utilizzare gli strumenti di gestione della configurazione

Strumenti come Puppet, Chef, Ansible e VM Manager ti aiutano ad automatizzare la configurazione e la gestione delle risorse cloud. Con questi strumenti, puoi garantire la coerenza e la conformità delle risorse in tutti gli ambienti cloud. Questo consiglio è pertinente per l'area di attenzione della disponibilità operativa degli strumenti.

L'automazione della configurazione e della gestione delle risorse cloud offre i seguenti vantaggi:

  • Riduzione significativa del rischio di errori manuali: quando sono coinvolti procedimenti manuali, è più probabile che si verifichino errori dovuti a errori umani. Gli strumenti di gestione della configurazione riducono questo rischio automatizzando le procedure, in modo che le configurazioni vengano applicate in modo coerente e preciso a tutte le risorse cloud. Questa automazione può portare a una maggiore affidabilità e stabilità dell'ambiente cloud.
  • Miglioramento dell'efficienza operativa: automatizzando le attività ripetitive, la tua organizzazione può liberare il personale IT per concentrarsi su iniziative più strategiche. Questa automazione può portare a un aumento della produttività e a risparmi sui costi, nonché a una maggiore capacità di risposta alle mutevoli esigenze aziendali.
  • Gestione semplificata di un'infrastruttura cloud complessa: man mano che le dimensioni e la complessità degli ambienti cloud aumentano, la gestione delle risorse può diventare sempre più difficile. Gli strumenti di gestione della configurazione forniscono una piattaforma centralizzata per la gestione delle risorse cloud. Questi strumenti semplificano il monitoraggio delle configurazioni, l'identificazione dei problemi e l'implementazione delle modifiche. L'utilizzo di questi strumenti può migliorare la visibilità, il controllo e la sicurezza del tuo ambiente cloud.

Automatizzare i test

L'integrazione dei test automatici nelle pipeline CI/CD contribuisce a garantire la qualità e l'affidabilità delle applicazioni cloud. Con la convalida delle modifiche prima del deployment, puoi ridurre notevolmente il rischio di errori e regressioni, il che si traduce in un sistema software più stabile e solido. Questo consiglio è pertinente per le seguenti aree di attenzione della prontezza operativa: procedure e strumenti.

Di seguito sono riportati i principali vantaggi dell'integrazione dei test automatici nelle tue pipeline CI/CD:

  • Rilevamento precoce di bug e difetti: i test automatici aiutano a rilevare bug e difetti nelle prime fasi del processo di sviluppo, prima che possano causare problemi gravi in produzione. Questa funzionalità consente di risparmiare tempo e risorse evitando la necessità di costosi rifacimenti e correzioni di bug nelle fasi successive del processo di sviluppo.
  • Codice di alta qualità e basato su standard: i test automatici possono contribuire a migliorare la qualità complessiva del codice garantendo che soddisfi determinati standard e best practice. Questa funzionalità consente di creare applicazioni più manutenibili e affidabili, meno soggette a errori.

Nelle pipeline CI/CD puoi utilizzare vari tipi di tecniche di test. Ogni tipo di test ha uno scopo specifico.

  • I test delle unità si concentrano sul test di singole unità di codice, come funzioni o metodi, per assicurarsi che funzionino come previsto.
  • I test di integrazione verificano le interazioni tra diversi componenti o moduli dell'applicazione per verificare che funzionino correttamente insieme.
  • I test end-to-end vengono spesso utilizzati insieme ai test di unità e di integrazione. I test end-to-end simulano scenari reali per testare l'applicazione nel suo complesso e contribuiscono a garantire che l'applicazione soddisfi i requisiti degli utenti finali.

Per integrare efficacemente i test automatici nelle pipeline CI/CD, devi scegliere gli strumenti e i framework di test appropriati. Esistono molte opzioni diverse, ognuna con i suoi punti di forza e di debolezza. Devi anche stabilire una strategia di test chiara che descriva i tipi di test da eseguire, la frequenza dei test e i criteri per superare o non superare un test. Seguendo questi consigli, puoi assicurarti che il processo di test automatico sia efficiente ed efficace. Questa procedura fornisce informazioni preziose sulla qualità e sull'affidabilità delle tue applicazioni cloud.

Miglioramento e innovazione continui

Questo principio del pilastro dell'eccellenza operativa del Google Cloud Well-Architected Framework fornisce consigli per aiutarti a ottimizzare continuamente le operazioni cloud e promuovere l'innovazione.

Panoramica del principio

Per migliorare e innovare continuamente nel cloud, devi concentrarti su apprendimento, sperimentazione e adattamento continui. In questo modo, puoi esplorare nuove tecnologie e ottimizzare i processi esistenti, nonché promuovere una cultura di eccellenza che consenta alla tua organizzazione di raggiungere e mantenere la leadership nel settore.

Attraverso il miglioramento e l'innovazione continui, puoi raggiungere i seguenti obiettivi:

  • Accelera l'innovazione: esplora nuove tecnologie e servizi per migliorare le funzionalità e distinguerti dalla concorrenza.
  • Riduci i costi: identifica ed elimina le inefficienze tramite iniziative di miglioramento dei processi.
  • Migliora l'agilità: adattati rapidamente alle mutevoli esigenze del mercato e dei clienti.
  • Migliora il processo decisionale: ottieni approfondimenti preziosi dai dati e dalle analisi per prendere decisioni basate sui dati.

Le organizzazioni che adottano il principio di miglioramento e innovazione continui possono sfruttare appieno il potenziale dell'ambiente cloud e ottenere una crescita sostenibile. Questo principio corrisponde principalmente all'area di attenzione della prontezza operativa relativa al personale. Una cultura di innovazione consente ai team di sperimentare nuovi strumenti e nuove tecnologie per ampliare le funzionalità e ridurre i costi.

Consigli

Per migliorare e innovare continuamente i tuoi carichi di lavoro cloud, valuta i consigli riportati nelle sezioni seguenti. Ogni consiglio in questo documento è pertinente a una o più delle aree di attenzione della prontezza operativa.

Promuovi una cultura dell'apprendimento

Incoraggia i team a fare esperimenti, condividere conoscenze e imparare continuamente. Adotta una cultura senza colpe in cui gli errori sono visti come opportunità di crescita e miglioramento. Questo consiglio è pertinente alla area di attenzione della prontezza operativa del personale.

Quando promuovi una cultura dell'apprendimento, i team possono imparare dagli errori e eseguire rapidamente l'iterazione. Questo approccio incoraggia i membri del team ad assumersi rischi, sperimentare nuove idee ed espandere i confini del loro lavoro. Inoltre, crea un ambiente psicologicamente sicuro in cui le persone si sentono a proprio agio a condividere i fallimenti e a imparare da essi. Condividere in questo modo porta a un ambiente più aperto e collaborativo.

Per facilitare la condivisione delle conoscenze e l'apprendimento continuo, crea opportunità per i team di condividere le conoscenze e imparare l'uno dall'altro. Puoi farlo tramite conferenze e sessioni di apprendimento informali e formali.

Favorendo una cultura di sperimentazione, condivisione delle conoscenze e apprendimento continuo, puoi creare un ambiente in cui i team sono in grado di correre rischi, innovare e crescere. Questo ambiente può portare a un aumento della produttività, a una migliore risoluzione dei problemi e a una forza lavoro più coinvolta e motivata. Inoltre, promuovendo una cultura senza responsabilità, puoi creare uno spazio sicuro in cui i dipendenti possono imparare dagli errori e contribuire alla conoscenza collettiva del team. Questa cultura porta a una forza lavoro più resiliente e adattabile, meglio equipaggiata per gestire le sfide e ottenere risultati positivi a lungo termine.

Esegui retrospettive regolari

Le retrospettive offrono ai team l'opportunità di riflettere sulle loro esperienze, identificare cosa è andato bene e cosa può essere migliorato. Conducendo retrospective dopo progetti o incidenti gravi, i team possono imparare dai successi e dagli errori e migliorare continuamente le proprie procedure e pratiche. Questo consiglio è pertinente per queste aree di attenzione della preparazione operativa: processi e governance.

Un modo efficace per strutturare una retrospettiva è utilizzare il modello Inizia-Interrompi-Continua:

  • Inizia: nella fase Inizia del post-mortem, i membri del team identificano nuove pratiche, procedure e comportamenti che ritengono possano migliorare il loro lavoro. Discutono del motivo per cui le modifiche sono necessarie e di come possono essere implementate.
  • Interrompi: nella fase di interruzione, i membri del team identificano ed eliminano pratiche, processi e comportamenti che non sono più efficaci o che ostacolano l'avanzamento. Spiegano perché queste modifiche sono necessarie e come possono essere implementate.
  • Continua: nella fase Continua, i membri del team identificano pratiche, procedimenti e comportamenti che funzionano bene e devono essere mantenuti. Discutono del perché questi elementi sono importanti e di come possono essere rafforzati.

Utilizzando un formato strutturato come il modello Inizia-Interrompi-Continua, i team possono garantire che i retrospettivi siano produttivi e concentrati. Questo modello aiuta a facilitare la discussione, identificare i punti chiave e identificare passaggi operativi per i miglioramenti futuri.

Resta al passo con le tecnologie cloud

Per massimizzare il potenziale dei Google Cloud servizi, devi stare al passo con gli sviluppi, le funzionalità e le best practice più recenti. Questo consiglio è pertinente alla area di attenzione della preparazione operativa del personale.

Partecipare a conferenze, webinar e sessioni di formazione pertinenti è un modo utile per ampliare le tue conoscenze. Questi eventi offrono l'opportunità di imparare da Google Cloud esperti, comprendere nuove funzionalità ed entrare in contatto con Google Cloud colleghi del settore che potrebbero dover affrontare sfide simili. Partecipando a queste sessioni, puoi acquisire informazioni su come utilizzare in modo efficace le nuove funzionalità, ottimizzare le operazioni cloud e promuovere l'innovazione all'interno della tua organizzazione.

Per assicurarti che i membri del tuo team rimangano al passo con le tecnologie cloud, incoraggia li a ottenere certificazioni e a frequentare corsi di formazione. Google Cloud offre una vasta gamma di certificazioni che convalidano le competenze e le conoscenze in domini cloud specifici. L'ottenimento di queste certificazioni dimostra l'impegno per l'eccellenza e fornisce prove tangibili della competenza nelle tecnologie cloud. I corsi di formazione offerti da Google Cloud e dai nostri partner approfondiscono argomenti specifici. Offrono un'esperienza diretta e competenze pratiche che possono essere applicate immediatamente a progetti reali. Investire nello sviluppo professionale del tuo team ti consente di promuovere una cultura di apprendimento continuo e di garantire a tutti le competenze necessarie per avere successo nel cloud.

Raccogliere e incorporare attivamente i feedback

Raccogli i feedback di utenti, stakeholder e membri del team. Utilizza i feedback per identificare le opportunità di miglioramento delle tue soluzioni cloud. Questo consiglio è pertinente alla area di attenzione della prontezza operativa del personale.

I feedback raccolti possono aiutarti a comprendere le esigenze, i problemi e le aspettative in evoluzione degli utenti delle tue soluzioni. Questo feedback costituisce un contributo prezioso per apportare miglioramenti e dare la priorità a quelli futuri. Puoi utilizzare vari meccanismi per raccogliere feedback:

  • I sondaggi sono un modo efficace per raccogliere dati quantitativi da un gran numero di utenti e stakeholder.
  • Le interviste con gli utenti offrono l'opportunità di raccogliere dati qualitativi approfonditi. Le interviste ti consentono di comprendere le sfide e le esperienze specifiche dei singoli utenti.
  • I moduli di feedback inseriti nelle soluzioni cloud offrono agli utenti un modo comodo per fornire un feedback immediato sulla loro esperienza.
  • Riunioni regolari con i membri del team possono facilitare la raccolta di feedback su aspetti tecnici e problemi di implementazione.

Il feedback raccolto tramite questi meccanismi deve essere analizzato e sintezzato per identificare temi e pattern comuni. Questa analisi può aiutarti a dare la priorità ai miglioramenti futuri in base all'impatto e alla fattibilità dei miglioramenti suggeriti. Rispondendo alle esigenze e ai problemi identificati tramite i feedback, puoi assicurarti che le tue soluzioni cloud continuino a soddisfare i requisiti in evoluzione degli utenti e degli stakeholder.

Misura e monitora i progressi

Gli indicatori chiave di prestazione (KPI) e le metriche sono fondamentali per monitorare l'avanzamento e misurare l'efficacia delle operazioni cloud. I KPI sono misurazioni quantificabili che riflettono il rendimento complessivo. Le metriche sono punti dati specifici che contribuiscono al calcolo dei KPI. Esamina regolarmente le metriche e utilizzale per identificare opportunità di miglioramento e misurare i progressi. In questo modo, puoi migliorare e ottimizzare continuamente il tuo ambiente cloud. Questo consiglio è pertinente per queste aree di attenzione della prontezza operativa: governance e processi.

Un vantaggio principale dell'utilizzo di KPI e metriche è che consentono alla tua organizzazione di adottare un approccio basato sui dati per le operazioni cloud. Monitorando e analizzando i dati operativi, puoi prendere decisioni consapevoli su come migliorare l'ambiente cloud. Questo approccio basato sui dati ti aiuta a identificare tendenze, pattern e anomalie che potrebbero non essere visibili senza l'utilizzo di metriche sistematiche.

Per raccogliere e analizzare i dati operativi, puoi utilizzare strumenti come Cloud Monitoring e BigQuery. Cloud Monitoring consente il monitoraggio in tempo reale delle risorse e dei servizi cloud. BigQuery ti consente di archiviare e analizzare i dati raccolti tramite il monitoraggio. Utilizzando questi strumenti insieme, puoi creare dashboard personalizzate per visualizzare metriche e tendenze importanti.

Le dashboard operative possono fornire una visualizzazione centralizzata delle metriche più importanti, che consente di identificare rapidamente le aree che richiedono attenzione. Ad esempio, una dashboard potrebbe includere metriche come utilizzo della CPU, utilizzo della memoria, traffico di rete e latenza per una determinata applicazione o un determinato servizio. Monitorando queste metriche, puoi identificare rapidamente eventuali potenziali problemi e adottare le misure necessarie per risolverli.