Questa pagina è stata tradotta dall'API Cloud Translation.

Well-Architected Framework: pilastro dell'eccellenza operativa

Last reviewed 2025-02-14 UTC

Il pilastro dell'eccellenza operativa nel Google Cloud Well-Architected Framework fornisce consigli per gestire i carichi di lavoro in modo efficiente su Google Cloud. L'eccellenza operativa nel cloud prevede la progettazione, l'implementazione e la gestione di soluzioni cloud che offrono valore, prestazioni, sicurezza e affidabilità. I consigli di questo pilastro ti aiutano a migliorare continuamente e ad adattare i carichi di lavoro per soddisfare le esigenze dinamiche e in continua evoluzione nel cloud.

Il pilastro dell'eccellenza operativa è pertinente ai seguenti segmenti di pubblico:

Manager e leader: un framework per stabilire e mantenere l'eccellenza operativa nel cloud e per garantire che gli investimenti nel cloud generino valore e supportino gli obiettivi aziendali.
Team di operazioni cloud: indicazioni per gestire incidenti e problemi, pianificare la capacità, ottimizzare le prestazioni e gestire le modifiche.
Site Reliability Engineer (SRE): best practice che ti aiutano a raggiungere livelli elevati di affidabilità del servizio, tra cui monitoraggio, risposta agli incidenti e automazione.
Cloud Architect e ingegneri: requisiti operativi e best practice per le fasi di progettazione e implementazione, per garantire che le soluzioni siano progettate per l'efficienza operativa e la scalabilità.
Team DevOps: indicazioni su automazione, pipeline CI/CD e gestione delle modifiche per contribuire a una distribuzione del software più rapida e affidabile.

Per raggiungere l'eccellenza operativa, devi adottare l'automazione, l'orchestrazione e gli approfondimenti basati sui dati. L'Automation contribuisce a eliminare il lavoro. Inoltre, semplifica e crea misure di salvaguardia per le attività ripetitive. L'orchestrazione consente di coordinare processi complessi. Gli approfondimenti basati sui dati consentono un processo decisionale basato sulle evidenze. Utilizzando queste pratiche, puoi ottimizzare le operazioni cloud, ridurre i costi, migliorare la disponibilità dei servizi e rafforzare la sicurezza.

L'eccellenza operativa nel cloud va oltre la competenza tecnica nelle operazioni cloud. Include un cambiamento culturale che incoraggia l'apprendimento continuo e la sperimentazione. I team devono avere la possibilità di innovare, iterare e adottare una mentalità di crescita. Una cultura dell'eccellenza operativa promuove un ambiente collaborativo in cui le persone sono incoraggiate a condividere idee, mettere in discussione i presupposti e promuovere il miglioramento.

Per principi e consigli di eccellenza operativa specifici per i workload di AI e ML, consulta Prospettiva AI e ML: eccellenza operativa nel framework Well-Architected.

Principi fondamentali

I consigli del pilastro dell'eccellenza operativa del Well-Architected Framework sono mappati ai seguenti principi fondamentali:

Garantisci la preparazione e le prestazioni operative utilizzando CloudOps: assicurati che le soluzioni cloud soddisfino i requisiti operativi e di prestazioni definendo gli obiettivi del livello di servizio (SLO) ed eseguendo un monitoraggio completo, test delle prestazioni e pianificazione della capacità.
Gestisci incidenti e problemi: riduci al minimo l'impatto degli incidenti cloud e previeni la ricorrenza tramite un'osservabilità completa, procedure di risposta agli incidenti chiare, retrospettive approfondite e misure preventive.
Gestisci e ottimizza le risorse cloud: ottimizza e gestisci le risorse cloud tramite strategie come il dimensionamento corretto, lo scalabilità automatica e l'utilizzo di strumenti efficaci di monitoraggio dei costi.
Automatizza e gestisci le modifiche: automatizza i processi, semplifica la gestione delle modifiche e riduci il carico di lavoro manuale.
Migliorare e innovare continuamente: concentrati sui miglioramenti continui e sull'introduzione di nuove soluzioni per rimanere competitivo.

Collaboratori

Autori:

Ryan Cox | Principal Architect
Hadrian Knotz | Enterprise Architect

Altri collaboratori:

Daniel Lees | Cloud Security Architect
Filipe Gracio, PhD | Customer Engineer, AI/ML Specialist
Gary Harmson | Principal Architect
Jose Andrade | Customer Engineer, SRE Specialist
Kumar Dhanagopal | Sviluppatore di soluzioni cross-prodotto
Nicolas Pintaux | Customer Engineer, specialista della modernizzazione delle applicazioni
Radhika Kanakam | Program Lead, Google Cloud Well-Architected Framework
Samantha He | Technical Writer
Zach Seils | Specialista di networking
Wade Holmes | Global Solutions Director

Garantire l'operatività e le prestazioni utilizzando CloudOps

Questo principio del pilastro dell'eccellenza operativa del Google Cloud framework Well-Architected ti aiuta a garantire la preparazione operativa e il rendimento dei tuoi carichi di lavoro cloud. Sottolinea la necessità di stabilire aspettative e impegni chiari per le prestazioni del servizio, implementare monitoraggio e avvisi efficaci, eseguire test delle prestazioni e pianificare in modo proattivo le esigenze di capacità.

Panoramica del principio

Organizzazioni diverse potrebbero interpretare la prontezza operativa in modo diverso. La preparazione operativa indica il modo in cui la tua organizzazione si prepara a gestire correttamente i workload su Google Cloud. La preparazione per l'operazione di un workload cloud complesso e multilivello richiede un'attenta pianificazione sia per il lancio che per le operazioni del day-2. Queste operazioni sono spesso chiamate CloudOps.

Aree di interesse della preparazione operativa

La preparazione operativa è costituita da quattro aree di interesse. Ogni area di interesse è costituita da un insieme di attività e componenti necessari per prepararsi a utilizzare un'applicazione o un ambiente complessi in Google Cloud. La seguente tabella elenca i componenti e le attività di ogni area di interesse:

Area di interesse della preparazione operativa	Attività e componenti
Forza lavoro	Definizione di ruoli e responsabilità chiari per i team che gestiscono e operano le risorse cloud. Assicurarsi che i membri del team abbiano le competenze appropriate. Sviluppare un programma di apprendimento. Stabilire una struttura del team chiara. Assunzione dei talenti richiesti.
Processi	Osservabilità. Gestione delle interruzioni di servizio. Distribuzione cloud. Operazioni cloud principali.
Strumenti	Strumenti necessari per supportare i processi CloudOps.
Governance	Livelli di servizio e report. Finanze cloud. Modello operativo cloud. Consigli di revisione e governance dell'architettura. Architettura cloud e conformità.

Consigli

Per garantire l'operatività e le prestazioni utilizzando CloudOps, prendi in considerazione i suggerimenti nelle sezioni seguenti. Ogni consiglio riportato in questo documento è pertinente a una o più delle aree di interesse della preparazione operativa.

Definire SLO e SLA

Una responsabilità fondamentale del team di operazioni cloud è definire gli obiettivi del livello del servizio (SLO) e gli accordi sul livello del servizio (SLA) per tutti i carichi di lavoro critici. Questo consiglio è pertinente all'area di interesse della governance relativa alla preparazione operativa.

Gli SLO devono essere specifici, misurabili, raggiungibili, pertinenti e con limiti di tempo (SMART) e devono riflettere il livello di servizio e le prestazioni che desideri.

Specifico: indica chiaramente il livello di servizio e rendimento richiesti.
Misurabile: quantificabile e monitorabile.
Raggiungibile: ottenibile entro i limiti delle capacità e delle risorse della tua organizzazione.
Pertinente: in linea con gli scopi e le priorità aziendali.
Time-bound: ha un periodo di tempo definito per la misurazione e la valutazione.

Ad esempio, uno SLO per un'applicazione web potrebbe essere "Disponibilità del 99,9%" o "Tempo di risposta medio inferiore a 200 ms". Questi SLO definiscono chiaramente il livello di servizio e le prestazioni richiesti per l'applicazione web e possono essere misurati e monitorati nel tempo.

Gli SLA descrivono gli impegni nei confronti dei clienti in merito a disponibilità, prestazioni e assistenza del servizio, incluse eventuali sanzioni o rimedi per la mancata conformità. Gli SLA devono includere dettagli specifici sui servizi forniti, sul livello di servizio che ci si può aspettare, sulle responsabilità del fornitore di servizi e del cliente e su eventuali sanzioni o rimedi per la mancata conformità. Gli SLA fungono da accordo contrattuale tra le due parti, garantendo che entrambe abbiano una chiara comprensione delle aspettative e degli obblighi associati al servizio cloud.

Google Cloud fornisce strumenti come Cloud Monitoring e indicatori del livello del servizio (SLI) per aiutarti a definire e monitorare gli SLO. Cloud Monitoring offre funzionalità complete di monitoraggio e osservabilità che consentono alla tua organizzazione di raccogliere e analizzare metriche relative a disponibilità, prestazioni e latenza di applicazioni e servizi basati sul cloud. Gli SLI sono metriche specifiche che puoi utilizzare per misurare e monitorare gli SLO nel tempo. Utilizzando questi strumenti, puoi monitorare e gestire in modo efficace i servizi cloud e assicurarti che soddisfino gli SLO e gli SLA.

Definire e comunicare chiaramente gli SLO e gli SLA per tutti i servizi cloud critici contribuisce a garantire l'affidabilità e le prestazioni delle applicazioni e dei servizi di cui è stato eseguito il deployment.

Implementare l'osservabilità completa

Per ottenere visibilità in tempo reale sull'integrità e sulle prestazioni del tuo ambiente cloud, ti consigliamo di utilizzare una combinazione di strumenti Google Cloud Observability e soluzioni di terze parti. Questo consiglio è pertinente alle seguenti aree di interesse della preparazione operativa: procedure e strumenti.

L'implementazione di una combinazione di soluzioni di osservabilità ti offre una strategia di osservabilità completa che copre vari aspetti della tua infrastruttura e delle tue applicazioni cloud. Google Cloud Observability è una piattaforma unificata per raccogliere, analizzare e visualizzare metriche, log e tracce da vari servizi, applicazioni e origini esterne.Google Cloud Utilizzando Cloud Monitoring, puoi ottenere informazioni dettagliate sull'utilizzo delle risorse, sulle caratteristiche delle prestazioni e sull'integrità complessiva delle tue risorse.

Per garantire un monitoraggio completo, monitora le metriche importanti in linea con gli indicatori di integrità del sistema, come utilizzo della CPU, utilizzo della memoria, traffico di rete, I/O del disco e tempi di risposta delle applicazioni. Devi anche prendere in considerazione le metriche specifiche per l'attività. Monitorando queste metriche, puoi identificare potenziali colli di bottiglia, problemi di prestazioni e vincoli delle risorse. Inoltre, puoi configurare avvisi per notificare in modo proattivo ai team pertinenti potenziali problemi o anomalie.

Per migliorare ulteriormente le tue funzionalità di monitoraggio, puoi integrare soluzioni di terze parti con Google Cloud Observability. Queste soluzioni possono fornire funzionalità aggiuntive, come analisi avanzate, rilevamento di anomalie basato sul machine learning e funzionalità di gestione degli incidenti. Questa combinazione di strumenti di osservabilità di Google Cloud e soluzioni di terze parti ti consente di creare un ecosistema di monitoraggio solido e personalizzabile, su misura per le tue esigenze specifiche. Utilizzando questo approccio combinato, puoi identificare e risolvere in modo proattivo i problemi, ottimizzare l'utilizzo delle risorse e garantire l'affidabilità e la disponibilità complessive delle tue applicazioni e dei tuoi servizi cloud.

Implementare test di carico e delle prestazioni

L'esecuzione di test delle prestazioni regolari ti aiuta a garantire che le tue applicazioni e la tua infrastruttura basate sul cloud possano gestire i picchi di carico e mantenere prestazioni ottimali. Il test di carico simula pattern di traffico realistici. Il test di stress spinge il sistema ai suoi limiti per identificare potenziali colli di bottiglia e limitazioni delle prestazioni. Questo consiglio è pertinente alle seguenti aree di interesse della preparazione operativa: procedure e strumenti.

Strumenti come Cloud Load Balancing e servizi di test di carico possono aiutarti a simulare i pattern di traffico reali e a testare la resistenza delle tue applicazioni. Questi strumenti forniscono informazioni preziose sul comportamento del sistema in varie condizioni di carico e possono aiutarti a identificare le aree che richiedono ottimizzazione.

In base ai risultati dei test delle prestazioni, puoi prendere decisioni per ottimizzare l'infrastruttura cloud e le applicazioni per ottenere prestazioni e scalabilità ottimali. Questa ottimizzazione potrebbe comportare la regolazione dell'allocazione delle risorse, la messa a punto delle configurazioni o l'implementazione di meccanismi di memorizzazione nella cache.

Ad esempio, se riscontri rallentamenti dell'applicazione durante i periodi di traffico elevato, potresti dover aumentare il numero di macchine virtuali o container allocati all'applicazione. In alternativa, potresti dover modificare la configurazione del server web o del database per migliorare le prestazioni.

Eseguendo regolarmente test delle prestazioni e implementando le ottimizzazioni necessarie, puoi assicurarti che le tue applicazioni e la tua infrastruttura basate sul cloud funzionino sempre al massimo delle prestazioni e offrano un'esperienza fluida e reattiva ai tuoi utenti. In questo modo, puoi mantenere un vantaggio competitivo e creare fiducia con i tuoi clienti.

Pianificare e gestire la capacità

La pianificazione proattiva delle esigenze di capacità future, sia organiche che inorganiche, ti aiuta a garantire il funzionamento e la scalabilità dei tuoi sistemi basati sul cloud. Questo consiglio è pertinente ai processi dell'area di interesse della preparazione operativa.

La pianificazione della capacità futura include la comprensione e la gestione delle quote per varie risorse come istanze di calcolo, spazio di archiviazione e richieste API. Analizzando i modelli di utilizzo storici, le proiezioni di crescita e i requisiti aziendali, puoi prevedere con precisione i requisiti di capacità futuri. Puoi utilizzare strumenti come Cloud Monitoring e BigQuery per raccogliere e analizzare i dati sull'utilizzo, identificare le tendenze e prevedere la domanda futura.

I pattern di utilizzo storici forniscono informazioni preziose sull'utilizzo delle risorse nel tempo. Esaminando metriche come l'utilizzo della CPU, l'utilizzo della memoria e il traffico di rete, puoi identificare i periodi di forte domanda e i potenziali colli di bottiglia. Inoltre, puoi contribuire a stimare le esigenze future di capacità effettuando proiezioni di crescita in base a fattori quali la crescita della base utenti, i nuovi prodotti e le nuove funzionalità e le campagne di marketing. Quando valuti le esigenze di capacità, devi anche prendere in considerazione i requisiti aziendali, come gli SLA e i target di rendimento.

Quando determini il dimensionamento delle risorse per un workload, considera i fattori che possono influire sull'utilizzo delle risorse. Le variazioni stagionali, come i periodi di shopping per le festività o le vendite di fine trimestre, possono portare a picchi temporanei della domanda. Anche gli eventi pianificati come i lanci di prodotti o le campagne di marketing possono aumentare in modo significativo il traffico. Per assicurarti che il sistema principale e quello di ripristino di emergenza (RE) possano gestire aumenti imprevisti della domanda, pianifica una capacità in grado di supportare il failover controllato durante interruzioni come calamità naturali e attacchi informatici.

La scalabilità automatica è una strategia importante per modificare dinamicamente le risorse cloud in base alle fluttuazioni del carico di lavoro. Utilizzando le policy di scalabilità automatica, puoi scalare automaticamente le istanze di calcolo, lo spazio di archiviazione e altre risorse in risposta alla variazione della domanda. In questo modo, si garantisce un rendimento ottimale durante i periodi di picco, riducendo al minimo i costi quando l'utilizzo delle risorse è basso. Gli algoritmi di scalabilità automatica utilizzano metriche come l'utilizzo della CPU, l'utilizzo della memoria e la profondità della coda per determinare quando scalare le risorse.

Monitorare e ottimizzare continuamente

Per gestire e ottimizzare i carichi di lavoro cloud, devi stabilire una procedura per monitorare e analizzare continuamente le metriche sul rendimento. Questo consiglio è pertinente alle seguenti aree di interesse della preparazione operativa: processi e strumenti.

Per stabilire una procedura di monitoraggio e analisi continui, devi monitorare, raccogliere e valutare i dati relativi a vari aspetti del tuo ambiente cloud. Utilizzando questi dati, puoi identificare in modo proattivo le aree di miglioramento, ottimizzare l'utilizzo delle risorse e assicurarti che la tua infrastruttura cloud soddisfi o superi costantemente le tue aspettative di rendimento.

Un aspetto importante del monitoraggio del rendimento è la revisione regolare dei log e delle tracce. I log forniscono informazioni preziose su eventi, errori e avvisi del sistema. Le tracce forniscono informazioni dettagliate sul flusso di richieste attraverso la tua applicazione. Analizzando i log e le tracce, puoi identificare potenziali problemi, individuare le cause principali dei problemi e comprendere meglio il comportamento delle tue applicazioni in diverse condizioni. Metriche come il tempo di round trip tra i servizi possono aiutarti a identificare e comprendere i colli di bottiglia nei tuoi workload.

Inoltre, puoi utilizzare tecniche di ottimizzazione delle prestazioni per migliorare significativamente i tempi di risposta delle applicazioni e l'efficienza complessiva. Di seguito sono riportati alcuni esempi di tecniche che puoi utilizzare:

Memorizzazione nella cache: memorizza i dati a cui si accede di frequente nella memoria per ridurre la necessità di query di database o chiamate API ripetute.
Ottimizzazione del database: utilizza tecniche come l'indicizzazione e l'ottimizzazione delle query per migliorare le prestazioni delle operazioni del database.
Profilazione del codice: identifica le aree del codice che consumano risorse eccessive o causano problemi di prestazioni.

Applicando queste tecniche, puoi ottimizzare le tue applicazioni e assicurarti che vengano eseguite in modo efficiente nel cloud.

Gestire incidenti e problemi

Questo principio del pilastro dell'eccellenza operativa del Google Cloud framework Well-Architected fornisce consigli per aiutarti a gestire incidenti e problemi relativi ai tuoi carichi di lavoro cloud. Ciò comporta l'implementazione di un monitoraggio e un'osservabilità completi, la definizione di procedure chiare di risposta agli incidenti, la conduzione di un'analisi approfondita della causa principale e l'implementazione di misure preventive. Molti degli argomenti trattati in questo principio sono trattati in dettaglio nel pilastro Affidabilità.

Panoramica del principio

La gestione degli incidenti e dei problemi sono componenti importanti di un ambiente operativo funzionale. Il modo in cui rispondi, classifichi e risolvi gli incidenti di diversa gravità può influire notevolmente sulle tue operazioni. Devi anche apportare modifiche in modo proattivo e continuo per ottimizzare l'affidabilità e il rendimento. Un processo efficiente per la gestione di incidenti e problemi si basa sui seguenti elementi fondamentali:

Monitoraggio continuo: identifica e risolvi rapidamente i problemi.
Automazione: semplifica le attività e migliora l'efficienza.
Orchestrazione: coordina e gestisci in modo efficace le risorse cloud.
Approfondimenti basati sui dati: ottimizza le operazioni cloud e prendi decisioni informate.

Questi elementi ti aiutano a creare un ambiente cloud resiliente in grado di gestire un'ampia gamma di sfide e interruzioni. Questi elementi possono anche contribuire a ridurre il rischio di incidenti e tempi di inattività costosi e possono aiutarti a ottenere una maggiore agilità e successo aziendale. Questi elementi fondamentali sono distribuiti nelle quattro aree di interesse della preparazione operativa: forza lavoro, processi, strumenti e governance.

Consigli

Per gestire in modo efficace incidenti e problemi, prendi in considerazione i consigli riportati nelle sezioni seguenti. Ogni consiglio in questo documento è pertinente a una o più delle aree di interesse della preparazione operativa.

Stabilire procedure di risposta agli incidenti chiare

Ruoli e responsabilità chiari sono essenziali per garantire una risposta efficace e coordinata agli incidenti. Inoltre, protocolli di comunicazione chiari e percorsi di riassegnazione contribuiscono a garantire che le informazioni vengano condivise tempestivamente ed efficacemente durante un incidente. Questo consiglio è pertinente alle seguenti aree di interesse della preparazione operativa: forza lavoro, processi e strumenti.

Per stabilire le procedure di risposta agli incidenti, devi definire i ruoli e le aspettative di ogni membro del team, ad esempio incident commander, investigatori, comunicatori ed esperti tecnici. La definizione dei percorsi di comunicazione e riassegnazione include l'identificazione dei contatti importanti, la configurazione dei canali di comunicazione e la definizione della procedura per la riassegnazione degli incidenti a livelli superiori di gestione, se necessario. La formazione e la preparazione regolari contribuiscono a garantire che i team dispongano delle conoscenze e delle competenze necessarie per rispondere agli incidenti in modo efficace.

Documentando le procedure di risposta agli incidenti in un runbook o playbook, puoi fornire una guida di riferimento standardizzata che i team possono seguire durante un incidente. Il runbook deve descrivere i passaggi da eseguire in ogni fase della procedura di risposta all'incidente, inclusi comunicazione, triage, indagine e risoluzione. Deve inoltre includere informazioni su strumenti e risorse pertinenti e informazioni di contatto per il personale importante. Devi rivedere e aggiornare regolarmente il runbook per assicurarti che rimanga attuale ed efficace.

Centralizzare la gestione degli incidenti

Per un monitoraggio e una gestione efficaci durante tutto il ciclo di vita dell'incidente, valuta la possibilità di utilizzare un sistema di gestione degli incidenti centralizzato. Questo consiglio è pertinente per queste aree di interesse della preparazione operativa: processi e strumenti.

Un sistema di gestione centralizzata degli incidenti offre i seguenti vantaggi:

Maggiore visibilità: consolidando tutti i dati relativi agli incidenti in un'unica posizione, elimini la necessità per i team di cercare il contesto in vari canali o sistemi. Questo approccio consente di risparmiare tempo e ridurre la confusione, oltre a fornire agli stakeholder una visione completa dell'incidente, inclusi stato, impatto e avanzamento.
Miglior coordinamento e collaborazione: un sistema centralizzato fornisce una piattaforma unificata per la comunicazione e la gestione delle attività. Promuove una collaborazione perfetta tra i diversi reparti e funzioni coinvolti nella risposta agli incidenti. Questo approccio garantisce che tutti abbiano accesso a informazioni aggiornate e riduce il rischio di incomprensioni e disallineamenti.
Maggiore responsabilità e proprietà: un sistema di gestione centralizzato degli incidenti consente alla tua organizzazione di assegnare attività a persone o team specifici e garantisce che le responsabilità siano chiaramente definite e monitorate. Questo approccio promuove la responsabilità e incoraggia la risoluzione proattiva dei problemi, perché i membri del team possono monitorare facilmente i propri progressi e contributi.

Un sistema di gestione centralizzato degli incident deve offrire funzionalità avanzate per il monitoraggio degli incident, l'assegnazione delle attività e la gestione delle comunicazioni. Queste funzionalità ti consentono di personalizzare i flussi di lavoro, impostare le priorità e integrarti con altri sistemi, come strumenti di monitoraggio e sistemi di gestione dei ticket.

Implementando un sistema centralizzato di gestione degli incidenti, puoi ottimizzare i processi di risposta agli incidenti della tua organizzazione, migliorare la collaborazione e aumentare la visibilità. In questo modo, i tempi di risoluzione degli incidenti sono più rapidi, i tempi di inattività ridotti e la soddisfazione dei clienti migliorata. Inoltre, contribuisce a promuovere una cultura del miglioramento continuo, perché puoi imparare dagli incidenti passati e identificare le aree di miglioramento.

Eseguire revisioni post-incidente approfondite

Dopo un incidente, devi condurre una revisione post-incidente dettagliata, nota anche come post mortem, per identificare la causa principale, i fattori che hanno contribuito e le lezioni apprese. Questa revisione approfondita ti aiuta a prevenire incidenti simili in futuro. Questo consiglio è pertinente a queste aree di interesse della preparazione operativa: processi e governance.

La procedura PIR deve coinvolgere un team multidisciplinare con competenze in vari aspetti dell'incidente. Il team deve raccogliere tutte le informazioni pertinenti tramite interviste, revisione della documentazione e ispezioni del sito. Per stabilire la sequenza di azioni che hanno portato all'incidente, è necessario creare una cronologia degli eventi.

Dopo aver raccolto le informazioni richieste, il team deve condurre un'analisi della causa principale per determinare i fattori che hanno portato all'incidente. Questa analisi deve identificare sia la causa immediata sia i problemi sistemici che hanno contribuito all'incidente.

Oltre a identificare la causa principale, il team PIR deve identificare eventuali altri fattori che potrebbero aver causato l'incidente. Questi fattori potrebbero includere errori umani, guasti alle apparecchiature o fattori organizzativi come interruzioni della comunicazione e mancanza di formazione.

Il report PIR deve documentare i risultati dell'indagine, inclusi la cronologia degli eventi, l'analisi delle cause principali e le azioni consigliate. Il report è una risorsa preziosa per implementare azioni correttive e prevenire la ricorrenza. Il report deve essere condiviso con tutte le parti interessate pertinenti e deve essere utilizzato per sviluppare procedure e corsi di formazione sulla sicurezza.

Per garantire una procedura PIR efficace, la tua organizzazione deve promuovere una cultura che si concentri sull'apprendimento e sul miglioramento, anziché sull'attribuzione di responsabilità. Questa cultura incoraggia le persone a segnalare gli incidenti senza timore di ritorsioni e ti consente di affrontare problemi sistemici e apportare miglioramenti significativi.

Se conduci PIR approfondite e implementi misure correttive in base ai risultati, puoi ridurre significativamente il rischio che si verifichino incidenti simili in futuro. Questo approccio proattivo all'indagine e alla prevenzione degli incidenti contribuisce a creare un ambiente di lavoro più sicuro ed efficiente per tutti i soggetti coinvolti.

Gestire una knowledge base

Una knowledge base di problemi noti, soluzioni e guide alla risoluzione dei problemi è essenziale per la gestione e la risoluzione degli incidenti. I membri del team possono utilizzare la knowledge base per identificare e risolvere rapidamente i problemi comuni. L'implementazione di una knowledge base contribuisce a ridurre la necessità di riassegnazione e migliora l'efficienza complessiva. Questo consiglio è pertinente alle seguenti aree di interesse della preparazione operativa: forza lavoro e processi.

Uno dei vantaggi principali di una knowledge base è che consente ai team di imparare dalle esperienze passate ed evitare di ripetere gli stessi errori. Acquisendo e condividendo le soluzioni ai problemi noti, i team possono sviluppare una comprensione collettiva di come risolvere i problemi comuni e delle best practice per la gestione degli incidenti. L'utilizzo di una knowledge base consente di risparmiare tempo e fatica, oltre a standardizzare i processi e garantire coerenza nella risoluzione degli incidenti.

Oltre a contribuire a ridurre i tempi di risoluzione degli incidenti, una knowledge base promuove la condivisione delle conoscenze e la collaborazione tra i team. Grazie a un repository centrale di informazioni, i team possono accedere facilmente alla knowledge base e contribuire a migliorarla, il che promuove una cultura dell'apprendimento e del miglioramento continui. Questa cultura incoraggia i team a condividere le proprie competenze ed esperienze, portando a unaknowledge basea più completa e preziosa.

Per creare e gestire una knowledge base in modo efficace, utilizza strumenti e tecnologie appropriati. Le piattaforme di collaborazione come Google Workspace sono adatte a questo scopo perché consentono di creare, modificare e condividere facilmente i documenti in modo collaborativo. Questi strumenti supportano anche il controllo delle versioni e il monitoraggio delle modifiche, il che garantisce che la knowledge base rimanga aggiornata e accurata.

Rendi la knowledge base facilmente accessibile a tutti i team pertinenti. Puoi farlo integrando la knowledge base con i sistemi di gestione degli incidenti esistenti o fornendo un portale o un sito intranet dedicato. Una knowledge base facilmente accessibile consente ai team di accedere rapidamente alle informazioni di cui hanno bisogno per risolvere gli incidenti in modo efficiente. Questa disponibilità contribuisce a ridurre i tempi di inattività e a ridurre al minimo l'impatto sulle operazioni aziendali.

Rivedi e aggiorna regolarmente la knowledge base per assicurarti che rimanga pertinente e utile. Monitora i report sugli incidenti, identifica i problemi e le tendenze comuni e incorpora nuove soluzioni e guide alla risoluzione dei problemi nella knowledge base. Una knowledge base aggiornata aiuta i tuoi team a risolvere gli incidenti in modo più rapido ed efficace.

Automatizzare la risposta agli incidenti

L'Automation contribuisce a semplificare i processi di risposta agli incidenti e di risanamento. Ti consente di risolvere violazioni della sicurezza e guasti del sistema in modo rapido ed efficiente. Utilizzando prodotti come Cloud Run Functions o Cloud Run, puoi automatizzare varie attività che in genere sono manuali e richiedono molto tempo. Google Cloud Questo consiglio è pertinente alle seguenti aree di interesse della preparazione operativa: procedure e strumenti.

La risposta automatica agli incidenti offre i seguenti vantaggi:

Riduzione dei tempi di rilevamento e risoluzione degli incidenti: gli strumenti automatizzati possono monitorare continuamente sistemi e applicazioni, rilevare attività sospette o anomale in tempo reale e inviare notifiche alle parti interessate o rispondere senza intervento. Questa automazione ti consente di identificare potenziali minacce o problemi prima che si trasformino in incidenti gravi. Quando viene rilevato un incidente, gli strumenti automatizzati possono attivare azioni di correzione predefinite, ad esempio isolare i sistemi interessati, mettere in quarantena i file dannosi o ripristinare le modifiche per riportare il sistema a uno stato di funzionamento noto.
Riduzione del carico di lavoro per i team di sicurezza e operazioni: la risposta automatizzata agli incidenti consente ai team di sicurezza e operazioni di concentrarsi su attività più strategiche. Automatizzando le attività di routine e ripetitive, come la raccolta di informazioni diagnostiche o l'attivazione di avvisi, la tua organizzazione può liberare il personale per gestire incidenti più complessi e critici. Questa automazione può portare a un miglioramento dell'efficacia e dell'efficienza complessive della risposta agli incidenti.
Maggiore coerenza e accuratezza del processo di correzione: gli strumenti automatizzati possono garantire che le azioni di correzione vengano applicate in modo uniforme a tutti i sistemi interessati, riducendo al minimo il rischio di errore umano o incoerenza. Questa standardizzazione della procedura di correzione contribuisce a ridurre al minimo l'impatto degli incidenti sugli utenti e sull'attività.

Gestire e ottimizzare le risorse cloud

Questo principio del pilastro dell'eccellenza operativa del Google Cloud framework Well-Architected fornisce consigli per aiutarti a gestire e ottimizzare le risorse utilizzate dai tuoi carichi di lavoro cloud. Ciò comporta il dimensionamento corretto delle risorse in base all'utilizzo e alla domanda effettivi, l'utilizzo della scalabilità automatica per l'allocazione dinamica delle risorse, l'implementazione di strategie di ottimizzazione dei costi e la revisione regolare dell'utilizzo e dei costi delle risorse. Molti degli argomenti trattati in questo principio sono trattati in dettaglio nel pilastro Ottimizzazione dei costi.

Panoramica del principio

La gestione e l'ottimizzazione delle risorse cloud svolgono un ruolo fondamentale nell'ottimizzazione della spesa cloud, dell'utilizzo delle risorse e dell'efficienza dell'infrastruttura. Include varie strategie e best practice volte a massimizzare il valore e il ritorno della spesa per il cloud.

L'attenzione di questo pilastro all'ottimizzazione va oltre la riduzione dei costi. Enfatizza i seguenti obiettivi:

Efficienza: utilizzo dell'automazione e dell'analisi dei dati per ottenere il massimo rendimento e risparmi sui costi.
Rendimento: scalabilità delle risorse senza problemi per soddisfare le esigenze fluttuanti e fornire risultati ottimali.
Scalabilità: adattamento dell'infrastruttura e dei processi per accogliere una crescita rapida e carichi di lavoro diversi.

Se ti concentri su questi obiettivi, raggiungi un equilibrio tra costi e funzionalità. Puoi prendere decisioni informate in merito al provisioning, allo scaling e alla migrazione delle risorse. Inoltre, ottieni informazioni preziose sui pattern di consumo delle risorse, il che ti consente di identificare e risolvere in modo proattivo i potenziali problemi prima che si aggravino.

Consigli

Per gestire e ottimizzare le risorse, prendi in considerazione i consigli riportati nelle sezioni seguenti. Ogni consiglio in questo documento è pertinente a una o più delle aree di interesse della preparazione operativa.

Dimensionare correttamente le risorse

Il monitoraggio continuo dell'utilizzo delle risorse e l'adeguamento dell'allocazione delle risorse in base alla domanda effettiva sono essenziali per una gestione efficiente delle risorse cloud. Il provisioning eccessivo delle risorse può comportare costi inutili, mentre il provisioning insufficiente può causare colli di bottiglia delle prestazioni che influiscono sulle prestazioni dell'applicazione e sull'esperienza utente. Per raggiungere un equilibrio ottimale, devi adottare un approccio proattivo al dimensionamento corretto delle risorse cloud. Questo consiglio è pertinente all'area di interesse della governance relativa alla preparazione operativa.

Cloud Monitoring e Recommender possono aiutarti a identificare le opportunità di dimensionamento ottimale. Cloud Monitoring fornisce visibilità in tempo reale sulle metriche di utilizzo delle risorse. Questa visibilità ti consente di monitorare i pattern di utilizzo delle risorse e identificare potenziali inefficienze. Recommender analizza i dati di utilizzo delle risorse per fornire suggerimenti intelligenti per ottimizzare l'allocazione delle risorse. Utilizzando questi strumenti, puoi ottenere informazioni sull'utilizzo delle risorse e prendere decisioni informate sul dimensionamento corretto delle risorse.

Oltre a Cloud Monitoring e Recommender, valuta la possibilità di utilizzare metriche personalizzate per attivare azioni di dimensionamento automatico. Le metriche personalizzate ti consentono di monitorare metriche specifiche di utilizzo delle risorse pertinenti per le tue applicazioni e i tuoi workload. Puoi anche configurare avvisi per notificare agli amministratori quando vengono raggiunte soglie predefinite. Gli amministratori possono quindi intraprendere le azioni necessarie per modificare l'allocazione delle risorse. Questo approccio proattivo garantisce che le risorse vengano scalate in modo tempestivo, il che contribuisce a ottimizzare i costi del cloud e a prevenire problemi di prestazioni.

Utilizzare la scalabilità automatica

La scalabilità automatica delle risorse di calcolo e di altro tipo contribuisce a garantire prestazioni ottimali ed efficienza dei costi delle applicazioni basate su cloud. La scalabilità automatica ti consente di regolare dinamicamente la capacità delle risorse in base alle fluttuazioni del workload, in modo da avere le risorse necessarie quando ti servono ed evitare il provisioning eccessivo e costi inutili. Questo consiglio è pertinente alle procedure dell'area di interesse dell'idoneità operativa.

Per soddisfare le diverse esigenze di applicazioni e carichi di lavoro diversi, Google Cloud offre varie opzioni di scalabilità automatica, tra cui le seguenti:

I gruppi di istanze gestite (MIG) di Compute Engine sono gruppi di VM gestiti e scalati come una singola entità. Con i MIG, puoi definire policy di scalabilità automatica che specificano il numero minimo e massimo di VM da mantenere nel gruppo e le condizioni che attivano la scalabilità automatica. Ad esempio, puoi configurare una policy per aggiungere VM in un MIG quando l'utilizzo della CPU raggiunge una determinata soglia e per rimuovere le VM quando l'utilizzo scende al di sotto di una soglia diversa.
La scalabilità automatica di Google Kubernetes Engine (GKE) regola dinamicamente le risorse del cluster in base alle esigenze della tua applicazione. Offre i seguenti strumenti:
- Cluster Autoscaler aggiunge o rimuove i nodi in base alle richieste di risorse dei pod.
- Horizontal Pod Autoscaler modifica il numero di repliche dei pod in base a CPU, memoria o metriche personalizzate.
- Scalabilità automatica pod verticale ottimizza le richieste e i limiti delle risorse dei pod in base ai pattern di utilizzo.
- Il provisioning automatico dei nodi crea automaticamente pool di nodi ottimizzati per i tuoi carichi di lavoro.
Questi strumenti funzionano insieme per ottimizzare l'utilizzo delle risorse, garantire le prestazioni delle applicazioni e semplificare la gestione dei cluster.
Cloud Run è una piattaforma serverless che ti consente di eseguire il codice senza dover gestire l'infrastruttura. Cloud Run offre la scalabilità automatica integrata, che regola automaticamente il numero di istanze in base al traffico in entrata. Quando il volume di traffico aumenta, Cloud Run aumenta il numero di istanze per gestire il carico. Quando il traffico diminuisce, Cloud Run riduce il numero di istanze per ridurre i costi.

Utilizzando queste opzioni di scalabilità automatica, puoi assicurarti che le tue applicazioni basate su cloud dispongano delle risorse necessarie per gestire carichi di lavoro variabili, evitando al contempo il provisioning eccessivo e costi non necessari. L'utilizzo della scalabilità automatica può migliorare le prestazioni, ridurre i costi e utilizzare in modo più efficiente le risorse cloud.

Sfruttare le strategie di ottimizzazione dei costi

L'ottimizzazione della spesa per il cloud ti aiuta a gestire in modo efficace i budget IT della tua organizzazione. Questo consiglio è pertinente all'area di interesse della governance relativa alla preparazione operativa.

Google Cloud offre diversi strumenti e tecniche per aiutarti a ottimizzare i costi del cloud. Utilizzando questi strumenti e queste tecniche, puoi ottenere il massimo valore dalla tua spesa per il cloud. Questi strumenti e tecniche ti aiutano a identificare le aree in cui è possibile ridurre i costi, ad esempio identificando le risorse sottoutilizzate o consigliando tipi di istanza più convenienti. Google Cloud Le opzioni per ottimizzare i costi del cloud includono quanto segue:

Gli sconti per impegno di utilizzo (CUD) sono sconti per l'impegno a un determinato livello di utilizzo per un periodo di tempo.
Gli sconti per utilizzo sostenuto in Compute Engine offrono sconti per l'utilizzo coerente di un servizio.
Le VM spot forniscono l'accesso alla capacità inutilizzata delle VM a un costo inferiore rispetto alle VM regolari.

I modelli di prezzo potrebbero cambiare nel tempo e potrebbero essere introdotte nuove funzionalità che offrono prestazioni migliori o costi inferiori rispetto alle opzioni esistenti. Pertanto, dovresti rivedere regolarmente i modelli di prezzo e prendere in considerazione funzionalità alternative. Se rimani aggiornato sugli ultimi modelli di prezzi e sulle ultime funzionalità, puoi prendere decisioni informate sulla tua architettura cloud per ridurre al minimo i costi.

Gli strumenti di gestione dei costi diGoogle Cloud, come budget e avvisi, forniscono informazioni preziose sulla spesa cloud. Budget e avvisi consentono agli utenti di impostare budget e ricevere avvisi quando i budget vengono superati. Questi strumenti aiutano gli utenti a monitorare la spesa per il cloud e a identificare le aree in cui è possibile ridurre i costi.

Monitorare l'utilizzo e i costi delle risorse

Puoi utilizzare i tag e le etichette per monitorare l'utilizzo e i costi delle risorse. Assegnando tag ed etichette alle risorse cloud come progetti, reparti o altre dimensioni pertinenti, puoi categorizzare e organizzare le risorse. In questo modo puoi monitorare e analizzare i modelli di spesa per risorse specifiche e identificare le aree di utilizzo elevato o i potenziali risparmi sui costi. Questo consiglio è pertinente per queste aree di interesse della preparazione operativa: governance e strumenti.

Strumenti come la fatturazione Cloud e la gestione dei costi ti aiutano a ottenere una comprensione completa dei tuoi modelli di spesa. Questi strumenti forniscono informazioni dettagliate sull'utilizzo del cloud e ti consentono di identificare le tendenze, prevedere i costi e prendere decisioni informate. Analizzando i dati storici e i modelli di spesa attuali, puoi identificare le aree di interesse per i tuoi sforzi di ottimizzazione dei costi.

Dashboard e report personalizzati ti aiutano a visualizzare i dati di costo e a ottenere informazioni più approfondite sulle tendenze di spesa. Personalizzando i dashboard con metriche e dimensioni pertinenti, puoi monitorare gli indicatori chiave di prestazione (KPI) e tenere traccia dei progressi verso i tuoi obiettivi di ottimizzazione dei costi. I report offrono analisi più approfondite dei dati sui costi. I report consentono di filtrare i dati in base a periodi di tempo o tipi di risorse specifici per comprendere i fattori sottostanti che contribuiscono alla spesa per il cloud.

Esamina e aggiorna regolarmente i tag, le etichette e gli strumenti di analisi dei costi per assicurarti di avere le informazioni più aggiornate sull'utilizzo e sui costi del cloud. Se ti tieni informato ed esegui analisi post mortem dei costi o revisioni proattive dei costi, puoi identificare tempestivamente eventuali aumenti imprevisti della spesa. In questo modo puoi prendere decisioni proattive per ottimizzare le risorse cloud e controllare i costi.

Stabilisci l'allocazione dei costi e la definizione del budget

Responsabilità e trasparenza nella gestione dei costi del cloud sono fondamentali per ottimizzare l'utilizzo delle risorse e garantire il controllo finanziario. Questo consiglio è pertinente all'area di interesse della governance relativa alla preparazione operativa.

Per garantire responsabilità e trasparenza, devi disporre di meccanismi chiari per la ripartizione e l'addebito dei costi. Assegnando i costi a team, progetti o persone specifici, la tua organizzazione può garantire che ciascuna di queste entità sia responsabile del proprio utilizzo del cloud. Questa pratica favorisce un senso di proprietà e incoraggia una gestione responsabile delle risorse. Inoltre, i meccanismi di riaddebito consentono alla tua organizzazione di recuperare i costi del cloud dai clienti interni, allineare gli incentivi al rendimento e promuovere la disciplina fiscale.

La definizione dei budget per team o progetti diversi è un altro aspetto essenziale della gestione dei costi del cloud. I budget consentono alla tua organizzazione di definire limiti di spesa e monitorare le spese effettive rispetto a questi limiti. Questo approccio ti consente di prendere decisioni proattive per evitare spese incontrollate. Se imposti budget realistici e raggiungibili, puoi assicurarti che le risorse cloud vengano utilizzate in modo efficiente e in linea con gli obiettivi commerciali. Il monitoraggio regolare della spesa effettiva rispetto ai budget ti aiuta a identificare le variazioni e a risolvere tempestivamente i potenziali superamenti.

Per monitorare i budget, puoi utilizzare strumenti come budget e avvisi di fatturazione Cloud. Questi strumenti forniscono informazioni in tempo reale sulla spesa per il cloud e notificano alle parti interessate i potenziali superamenti. Utilizzando queste funzionalità, puoi monitorare i costi del cloud e intraprendere azioni correttive prima che si verifichino deviazioni significative. Questo approccio proattivo contribuisce a evitare sorprese finanziarie e garantisce che le risorse cloud vengano utilizzate in modo responsabile.

Automatizzare e gestire le modifiche

Questo principio del pilastro dell'eccellenza operativa del Google Cloud framework Well-Architected fornisce consigli per aiutarti ad automatizzare e gestire le modifiche ai tuoi carichi di lavoro cloud. Ciò comporta l'implementazione di Infrastructure as Code (IaC), la definizione di procedure operative standard, l'implementazione di un processo strutturato di gestione delle modifiche e l'utilizzo dell'automazione e dell'orchestrazione.

Panoramica del principio

La gestione delle modifiche e l'automazione svolgono un ruolo fondamentale per garantire transizioni fluide e controllate all'interno degli ambienti cloud. Per una gestione efficace del cambiamento, devi utilizzare strategie e best practice che riducano al minimo le interruzioni e garantiscano che le modifiche vengano integrate senza problemi con i sistemi esistenti.

La gestione e l'automazione efficaci delle modifiche includono i seguenti elementi di base:

Gestione delle modifiche: stabilisci policy e procedure chiare per la gestione delle modifiche, inclusi processi di approvazione e piani di comunicazione.
Valutazione del rischio: identifica i potenziali rischi associati alle modifiche e mitigali tramite tecniche di gestione dei rischi.
Test e convalida: testa attentamente le modifiche per assicurarti che soddisfino i requisiti funzionali e di prestazioni e riducano le potenziali regressioni.
Implementazione controllata: implementa le modifiche in modo controllato, assicurandoti che gli utenti passino senza problemi al nuovo ambiente, con meccanismi per eseguire il rollback senza problemi, se necessario.

Questi elementi fondamentali contribuiscono a ridurre al minimo l'impatto delle modifiche e a garantire che abbiano un effetto positivo sulle operazioni aziendali. Questi elementi sono rappresentati dai processi, dagli strumenti e dalla governance aree di interesse della preparazione operativa.

Consigli

Per automatizzare e gestire le modifiche, prendi in considerazione i consigli nelle sezioni seguenti. Ogni consiglio in questo documento è pertinente a una o più delle aree di interesse della preparazione operativa.

Adottare l'IaC

Infrastructure as Code (IaC) è un approccio trasformativo per la gestione dell'infrastruttura cloud. Puoi definire e gestire l'infrastruttura cloud in modo dichiarativo utilizzando strumenti come Terraform. IaC ti aiuta a ottenere coerenza, ripetibilità e gestione semplificata delle modifiche. Consente inoltre deployment più rapidi e affidabili. Questo consiglio è pertinente a queste aree di interesse della preparazione operativa: processi e strumenti.

Di seguito sono riportati i principali vantaggi dell'adozione dell'approccio IaC per le implementazioni cloud:

Configurazioni delle risorse leggibili: con l'approccio IaC, puoi dichiarare le risorse dell'infrastruttura cloud in un formato leggibile, come JSON o YAML. Gli amministratori e gli operatori dell'infrastruttura possono comprendere e modificare facilmente l'infrastruttura e collaborare con altri.
Coerenza e ripetibilità: IaC consente coerenza e ripetibilità nei deployment dell'infrastruttura. Puoi assicurarti che la tua infrastruttura venga sottoposta al provisioning e configurata sempre nello stesso modo, indipendentemente da chi esegue il deployment. Questo approccio aiuta a ridurre gli errori e garantisce che l'infrastruttura sia sempre in uno stato noto.
Responsabilità e risoluzione dei problemi semplificata: l'approccio IaC contribuisce a migliorare la responsabilità e semplifica la risoluzione dei problemi. Se memorizzi il codice IaC in un sistema di controllo della versione, puoi monitorare le modifiche e identificare quando sono state apportate e da chi. Se necessario, puoi eseguire facilmente il rollback alle versioni precedenti.

Implementare il controllo della versione

Un sistema di controllo della versione come Git è un componente chiave del processo IaC. Fornisce solide funzionalità di gestione delle modifiche e mitigazione dei rischi, motivo per cui è ampiamente adottato, tramite sviluppo interno o soluzioni SaaS. Questo consiglio è pertinente a queste aree di interesse della preparazione operativa: governance e strumenti.

Monitorando le modifiche al codice e alle configurazioni IaC, il controllo della versione fornisce visibilità sull'evoluzione del codice, semplificando la comprensione dell'impatto delle modifiche e l'identificazione di potenziali problemi. Questa maggiore visibilità favorisce la collaborazione tra i membri del team che lavorano allo stesso progetto IaC.

La maggior parte dei sistemi di controllo della versione consente di rollback facilmente le modifiche, se necessario. Questa funzionalità contribuisce a mitigare il rischio di conseguenze o errori indesiderati. Utilizzando strumenti come Git nel flusso di lavoro IaC, puoi migliorare in modo significativo i processi di gestione delle modifiche, favorire la collaborazione e mitigare i rischi, il che porta a un'implementazione IaC più efficiente e affidabile.

Crea pipeline CI/CD

Le pipeline di integrazione continua e distribuzione continua (CI/CD) semplificano il processo di sviluppo e deployment delle applicazioni cloud. Le pipeline CI/CD automatizzano le fasi di creazione, test e deployment, il che consente rilasci più rapidi e frequenti con un controllo della qualità migliorato. Questo consiglio è pertinente all'area di interesse strumenti di preparazione operativa.

Le pipeline CI/CD garantiscono che le modifiche al codice vengano integrate continuamente in un repository centrale, in genere un sistema di controllo della versione come Git. L'integrazione continua facilita il rilevamento e la risoluzione tempestivi dei problemi e riduce la probabilità di bug o problemi di compatibilità.

Per creare e gestire pipeline CI/CD per applicazioni cloud, puoi utilizzare strumenti come Cloud Build e Cloud Deploy.

Cloud Build è un servizio di build completamente gestito che consente agli sviluppatori di definire ed eseguire i passaggi di build in modo dichiarativo. Si integra perfettamente con le piattaforme di gestione del codice sorgente più diffuse e può essere attivato da eventi come push di codice e richieste pull.
Cloud Deploy è un servizio di deployment serverless che automatizza il processo di deployment delle applicazioni in vari ambienti, come test, gestione temporanea e produzione. Fornisce funzionalità come i deployment blu/verde, la suddivisione del traffico e le funzionalità di rollback, semplificando la gestione e il monitoraggio dei deployment delle applicazioni.

L'integrazione delle pipeline CI/CD con i sistemi di controllo delle versioni e i framework di test contribuisce a garantire la qualità e l'affidabilità delle tue applicazioni cloud. Eseguendo test automatizzati nell'ambito del processo CI/CD, i team di sviluppo possono identificare e risolvere rapidamente eventuali problemi prima che il codice venga implementato nell'ambiente di produzione. Questa integrazione contribuisce a migliorare la stabilità e il rendimento complessivi delle tue applicazioni cloud.

Utilizzare strumenti di gestione della configurazione

Strumenti come Puppet, Chef, Ansible e VM Manager ti aiutano ad automatizzare la configurazione e la gestione delle risorse cloud. Utilizzando questi strumenti, puoi garantire la coerenza e la conformità delle risorse nei tuoi ambienti cloud. Questo consiglio è pertinente all'area di interesse strumenti della preparazione operativa.

L'automazione della configurazione e della gestione delle risorse cloud offre i seguenti vantaggi:

Riduzione significativa del rischio di errori manuali: quando sono coinvolti processi manuali, è più probabile che si verifichino errori dovuti a errori umani. Gli strumenti di gestione della configurazione riducono questo rischio automatizzando i processi, in modo che le configurazioni vengano applicate in modo coerente e accurato a tutte le risorse cloud. Questa automazione può portare a una maggiore affidabilità e stabilità dell'ambiente cloud.
Miglioramento dell'efficienza operativa: automatizzando le attività ripetitive, la tua organizzazione può liberare il personale IT per concentrarsi su iniziative più strategiche. Questa automazione può portare a un aumento della produttività e a un risparmio dei costi, nonché a una migliore reattività alle mutevoli esigenze aziendali.
Gestione semplificata di un'infrastruttura cloud complessa: man mano che le dimensioni e la complessità degli ambienti cloud aumentano, la gestione delle risorse può diventare sempre più difficile. Gli strumenti di gestione della configurazione forniscono una piattaforma centralizzata per la gestione delle risorse cloud. Gli strumenti semplificano il monitoraggio delle configurazioni, l'identificazione dei problemi e l'implementazione delle modifiche. L'utilizzo di questi strumenti può migliorare la visibilità, il controllo e la sicurezza del tuo ambiente cloud.

Automatizzare i test

L'integrazione di test automatizzati nelle pipeline CI/CD contribuisce a garantire la qualità e l'affidabilità delle tue applicazioni cloud. Convalidando le modifiche prima dell'implementazione, puoi ridurre significativamente il rischio di errori e regressioni, il che porta a un sistema software più stabile e solido. Questo consiglio è pertinente per queste aree di interesse della preparazione operativa: processi e strumenti.

Di seguito sono riportati i principali vantaggi dell'integrazione di test automatizzati nelle pipeline CI/CD:

Rilevamento tempestivo di bug e difetti: i test automatizzati aiutano a rilevare bug e difetti nelle prime fasi del processo di sviluppo, prima che possano causare problemi gravi in produzione. Questa funzionalità consente di risparmiare tempo e risorse evitando la necessità di costose rielaborazioni e correzioni di bug nelle fasi successive del processo di sviluppo.
Codice di alta qualità e basato su standard: i test automatizzati possono contribuire a migliorare la qualità complessiva del codice assicurando che soddisfi determinati standard e best practice. Questa funzionalità consente di creare applicazioni più manutenibili e affidabili, meno soggette a errori.

Puoi utilizzare vari tipi di tecniche di test nelle pipeline CI/CD. Ogni tipo di test ha uno scopo specifico.

Il test delle unità si concentra sul test di singole unità di codice, come funzioni o metodi, per garantire che funzionino come previsto.
I test di integrazione testano le interazioni tra diversi componenti o moduli dell'applicazione per verificare che funzionino correttamente insieme.
I test end-to-end vengono spesso utilizzati insieme ai test delle unità e di integrazione. I test end-to-end simulano scenari reali per testare l'applicazione nel suo complesso e contribuiscono a garantire che l'applicazione soddisfi i requisiti degli utenti finali.

Per integrare in modo efficace i test automatizzati nelle pipeline CI/CD, devi scegliere strumenti e framework di test appropriati. Esistono molte opzioni diverse, ognuna con i propri punti di forza e di debolezza. Devi anche stabilire una strategia di test chiara che delinei i tipi di test da eseguire, la frequenza dei test e i criteri per superare o non superare un test. Se segui questi consigli, puoi assicurarti che il processo di test automatico sia efficiente ed efficace. Questo processo fornisce informazioni preziose sulla qualità e l'affidabilità delle tue applicazioni cloud.

Migliorare e innovare continuamente

Questo principio del pilastro dell'eccellenza operativa del Google Cloud framework Well-Architected fornisce consigli per aiutarti a ottimizzare continuamente le operazioni cloud e promuovere l'innovazione.

Panoramica del principio

Per migliorare e innovare continuamente nel cloud, devi concentrarti su apprendimento continuo, sperimentazione e adattamento. In questo modo, puoi esplorare nuove tecnologie e ottimizzare i processi esistenti, promuovendo una cultura di eccellenza che consente alla tua organizzazione di raggiungere e mantenere la leadership del settore.

Grazie al miglioramento e all'innovazione continui, puoi raggiungere i seguenti obiettivi:

Accelerare l'innovazione: esplora nuove tecnologie e servizi per migliorare le funzionalità e favorire la differenziazione.
Ridurre i costi: identifica ed elimina le inefficienze tramite iniziative di miglioramento dei processi.
Migliorare l'agilità: adattarsi rapidamente alle mutevoli richieste del mercato e alle esigenze dei clienti.
Migliora il processo decisionale: ottieni informazioni preziose da dati e analisi per prendere decisioni basate sui dati.

Le organizzazioni che adottano il principio di miglioramento continuo e innovazione possono sfruttare appieno il potenziale dell'ambiente cloud e ottenere una crescita sostenibile. Questo principio corrisponde principalmente all'area di interesse della preparazione operativa della forza lavoro. Una cultura dell'innovazione consente ai team di sperimentare nuovi strumenti e tecnologie per ampliare le funzionalità e ridurre i costi.

Consigli

Per migliorare e innovare continuamente i tuoi workload cloud, prendi in considerazione i suggerimenti nelle sezioni seguenti. Ogni consiglio riportato in questo documento è pertinente a una o più delle aree di interesse della preparazione operativa.

Promuovi una cultura dell'apprendimento

Incoraggia i team a sperimentare, condividere le conoscenze e imparare continuamente. Adotta una cultura che non attribuisce colpe, in cui i fallimenti sono visti come opportunità di crescita e miglioramento. Questo suggerimento è pertinente all'area di interesse della forza lavoro relativa alla preparazione operativa.

Quando promuovi una cultura dell'apprendimento, i team possono imparare dagli errori e iterare rapidamente. Questo approccio incoraggia i membri del team ad assumersi dei rischi, sperimentare nuove idee ed espandere i confini del proprio lavoro. Inoltre, crea un ambiente psicologicamente sicuro in cui le persone si sentono a proprio agio a condividere i fallimenti e a imparare da questi. La condivisione in questo modo porta a un ambiente più aperto e collaborativo.

Per facilitare la condivisione delle conoscenze e l'apprendimento continuo, crea opportunità per i team di condividere le conoscenze e imparare gli uni dagli altri. Puoi farlo tramite sessioni di apprendimento e conferenze informali e formali.

Promuovendo una cultura della sperimentazione, della condivisione delle conoscenze e dell'apprendimento continuo, puoi creare un ambiente in cui i team sono autorizzati ad assumersi dei rischi, innovare e crescere. Questo ambiente può portare a una maggiore produttività, a una migliore risoluzione dei problemi e a una forza lavoro più coinvolta e motivata. Inoltre, promuovendo una cultura che non attribuisce colpe, puoi creare uno spazio sicuro in cui i dipendenti possano imparare dagli errori e contribuire alle conoscenze collettive del team. Questa cultura porta in definitiva a una forza lavoro più resiliente e adattabile, che è meglio attrezzata per affrontare le sfide e ottenere successo nel lungo periodo.

Eseguire retrospettive regolari

Le retrospettive offrono ai team l'opportunità di riflettere sulle proprie esperienze, identificare gli aspetti positivi e quelli da migliorare. Conducendo retrospective dopo progetti o incidenti gravi, i team possono imparare dai successi e dai fallimenti e migliorare continuamente i propri processi e le proprie pratiche. Questo consiglio è pertinente a queste aree di interesse della preparazione operativa: processi e governance.

Un modo efficace per strutturare una retrospettiva è utilizzare il modello Inizia-Interrompi-Continua:

Inizia: nella fase Inizia della retrospettiva, i membri del team identificano nuove pratiche, processi e comportamenti che ritengono possano migliorare il loro lavoro. Discutono il motivo per cui sono necessarie le modifiche e come possono essere implementate.
Interrompi: nella fase Interrompi, i membri del team identificano ed eliminano pratiche, processi e comportamenti che non sono più efficaci o che ostacolano il progresso. Viene spiegato perché queste modifiche sono necessarie e come possono essere implementate.
Continua: nella fase Continua, i membri del team identificano le pratiche, i processi e i comportamenti che funzionano bene e devono essere continuati. Discutono perché questi elementi sono importanti e come possono essere rafforzati.

Utilizzando un formato strutturato come il modello Start-Stop-Continue, i team possono assicurarsi che le retrospettive siano produttive e mirate. Questo modello aiuta a facilitare la discussione, identificare i principali risultati e individuare i passaggi attuabili per i miglioramenti futuri.

Rimanere al passo con le tecnologie cloud

Per massimizzare il potenziale dei servizi Google Cloud , devi rimanere al passo con gli ultimi progressi, le funzionalità e le best practice. Questo suggerimento è pertinente per l'area di interesse della forza lavoro relativa alla preparazione operativa.

Partecipare a conferenze, webinar e sessioni di formazione pertinenti è un modo prezioso per ampliare le tue conoscenze. Questi eventi offrono l'opportunità di imparare da esperti Google Cloud , comprendere nuove funzionalità e interagire con colleghi del settore che potrebbero affrontare sfide simili. Partecipando a queste sessioni, puoi scoprire come utilizzare in modo efficace le nuove funzionalità, ottimizzare le operazioni cloud e promuovere l'innovazione all'interno della tua organizzazione.

Per assicurarti che i membri del tuo team siano al passo con le tecnologie cloud, incoraggiali a ottenere certificazioni e a frequentare corsi di formazione. Google Cloud offre un'ampia gamma di certificazioni che convalidano le competenze e le conoscenze in domini cloud specifici. L'ottenimento di queste certificazioni dimostra l'impegno per l'eccellenza e fornisce prove tangibili di competenza nelle tecnologie cloud. I corsi di formazione offerti da Google Cloud e dai nostri partner approfondiscono argomenti specifici. Forniscono esperienza diretta e competenze pratiche che possono essere applicate immediatamente a progetti reali. Investendo nello sviluppo professionale del tuo team, puoi promuovere una cultura dell'apprendimento continuo e assicurarti che tutti abbiano le competenze necessarie per avere successo nel cloud.

Cercare e integrare attivamente i feedback

Raccogli i feedback di utenti, stakeholder e membri del team. Utilizza il feedback per identificare le opportunità di migliorare le tue soluzioni cloud. Questo suggerimento è pertinente all'area di interesse della forza lavoro relativa alla preparazione operativa.

Il feedback che raccogli può aiutarti a comprendere le esigenze, i problemi e le aspettative in evoluzione degli utenti delle tue soluzioni. Questo feedback è un contributo prezioso per apportare miglioramenti e dare la priorità a quelli futuri. Puoi utilizzare vari meccanismi per raccogliere feedback:

I sondaggi sono un modo efficace per raccogliere dati quantitativi da un gran numero di utenti e stakeholder.
Le interviste agli utenti offrono l'opportunità di raccogliere dati qualitativi approfonditi. Le interviste ti consentono di comprendere le sfide e le esperienze specifiche dei singoli utenti.
I moduli di feedback inseriti nelle soluzioni cloud offrono agli utenti un modo pratico per fornire un feedback immediato sulla loro esperienza.
Riunioni regolari con i membri del team possono facilitare la raccolta di feedback sugli aspetti tecnici e sulle sfide di implementazione.

Il feedback raccolto tramite questi meccanismi deve essere analizzato e sintetizzato per identificare temi e pattern comuni. Questa analisi può aiutarti a dare la priorità ai miglioramenti futuri in base all'impatto e alla fattibilità dei miglioramenti suggeriti. Se risolvi le esigenze e i problemi identificati tramite il feedback, puoi assicurarti che le tue soluzioni cloud continuino a soddisfare i requisiti in continua evoluzione dei tuoi utenti e stakeholder.

Misurare e monitorare i progressi

Gli indicatori chiave di prestazione (KPI) e le metriche sono fondamentali per monitorare i progressi e misurare l'efficacia delle operazioni cloud. I KPI sono misurazioni quantificabili che riflettono il rendimento complessivo. Le metriche sono punti dati specifici che contribuiscono al calcolo dei KPI. Esamina regolarmente le metriche e utilizzale per identificare le opportunità di miglioramento e misurare i progressi. In questo modo, puoi migliorare e ottimizzare continuamente il tuo ambiente cloud. Questo consiglio è pertinente alle seguenti aree di interesse della preparazione operativa: governance e processi.

Uno dei principali vantaggi dell'utilizzo di KPI e metriche è che consentono alla tua organizzazione di adottare un approccio basato sui dati per le operazioni cloud. Monitorando e analizzando i dati operativi, puoi prendere decisioni informate su come migliorare l'ambiente cloud. Questo approccio basato sui dati ti aiuta a identificare tendenze, pattern e anomalie che potrebbero non essere visibili senza l'utilizzo di metriche sistematiche.

Per raccogliere e analizzare i dati operativi, puoi utilizzare strumenti come Cloud Monitoring e BigQuery. Cloud Monitoring consente il monitoraggio in tempo reale delle risorse e dei servizi cloud. BigQuery ti consente di archiviare e analizzare i dati che raccogli tramite il monitoraggio. Utilizzando questi strumenti insieme, puoi creare dashboard personalizzate per visualizzare metriche e tendenze importanti.

Le dashboard operative possono fornire una visualizzazione centralizzata delle metriche più importanti, consentendoti di identificare rapidamente le aree che richiedono attenzione. Ad esempio, una dashboard potrebbe includere metriche come l'utilizzo della CPU, l'utilizzo della memoria, il traffico di rete e la latenza per una determinata applicazione o un determinato servizio. Monitorando queste metriche, puoi identificare rapidamente eventuali problemi potenziali e adottare misure per risolverli.