Incidenti e dashboard di Google Cloud Service Health

La dashboard di Google Cloud Service Health (CSH) fornisce informazioni sullo stato dei prodotti Google Cloud organizzati per regione e impostazioni internazionali globali.

Incidente grave

Google Cloud definisce un incidente come grave se soddisfa tutte le seguenti condizioni:

  • Ambito elevato: l'incidente ha un impatto globale o interessa una percentuale significativa di progetti dei clienti in una o più regioni.
  • Gravità elevata: uno o più prodotti non sono disponibili o sono caratterizzati da un peggioramento grave.

Nei rari casi in cui si verifica un incidente grave, agiamo con urgenza per risolvere eventuali problemi.

Durante un incidente grave, lo stato del problema viene comunicato tramite la dashboard di Google Cloud Service Health. Un incidente grave è contrassegnato come Interruzione del servizio nelle dashboard dello stato. Una volta risolto il problema, pubblichiamo un report pubblico sugli incidenti contenente i dettagli dei fattori che hanno contribuito all'incidente e le misure che intendiamo adottare per evitare che si ripetano.

In caso di incidenti con ambito più ridotto, i clienti potrebbero inviare un report non pubblico.

Ciclo di vita di un incidente

Quando viene rilevato un degrado di un prodotto, il team di assistenza Google Cloud e il team di tecnico del prodotto collaborano per risolvere l'incidente e fornirti aggiornamenti.

Il seguente diagramma mostra le responsabilità dei team di progettazione e assistenza del prodotto:

Diagramma del ciclo di vita

Per saperne di più su ciascuna di queste responsabilità, consulta le sezioni seguenti.

Rilevamento

Google Cloud utilizza il monitoraggio interno e black-box per rilevare gli incidenti. Per ulteriori informazioni, consulta il Capitolo 6 del libro Site Reliability Engineering.

Se utilizzi l'Assistenza Premium, Avanzata o Standard, puoi segnalare un incidente creando una richiesta di assistenza nella console Google Cloud. In alternativa, puoi utilizzare questo modulo.

Risposta iniziale

Quando viene rilevato un incidente, il team dell'assistenza clienti Google Cloud gestisce le comunicazioni con i clienti. La notifica iniziale di un incidente è spesso scarsa e spesso menziona solo il prodotto in questione. perché diamo la priorità alle notifiche veloci che ai dettagli. I dettagli possono essere forniti negli aggiornamenti successivi.

Per fornirti il maggior numero possibile di informazioni senza sovraccaricarti di problemi che non ti riguardano, vengono utilizzati canali di comunicazione diversi a seconda dell'ambito e della gravità del problema:

Diagramma delle comunicazioni

Ti consigliamo di utilizzare Personalized Service Health come prima tappa in caso di interruzione del servizio per prodotti specifici. Tramite Service Health personalizzato puoi visualizzare le interruzioni pertinenti ai tuoi progetti. Scopri di più su Personalized Service Health e su come integrarla nel tuo flusso di lavoro per la gestione degli incidenti.

La dashboard di Google Cloud Service Health mostra gli incidenti gravi ed è progettata per essere disponibile nei rari casi in cui lo stesso servizio personalizzato non sia disponibile o sia interessato da un'interruzione.

Se non hai abilitato Personalized Service Health per il tuo progetto o se il prodotto non è ancora supportato da Personalized Service Health, ti consigliamo di verificare la presenza di interruzioni attive di quanto segue:

I problemi noti visualizzati nella pagina Assistenza della console Google Cloud includono anche incidenti di minore entità e con ambito limitato.

Le richieste di assistenza sono appropriate per problemi che non sono classificati come incidenti o per cui è necessario un contatto umano. La pagina dei problemi noti consente di creare una richiesta da un incidente pubblicato in modo da ricevere aggiornamenti regolari e poter parlare con il personale di assistenza.

Indaga

I team di tecnici dei prodotti sono responsabili dell'analisi della causa principale degli incidenti. La gestione degli incidenti viene spesso eseguita da Site Reliability Engineer, ma può essere eseguita da ingegneri informatici o altri, a seconda della situazione e del prodotto. Per ulteriori informazioni, consulta il Capitolo 12 del libro Site Reliability Engineering.

Mitigazione/Correzione

Un problema viene considerato risolto solo se sono state apportate delle modifiche che riteniamo siano risolte da Google interromperanno l'impatto a tempo indeterminato. Ad esempio, la correzione potrebbe eseguire il rollback di una modifica che ha attivato un incidente.

Mentre un incidente è in corso, l'assistenza clienti e il team di prodotto tentano di mitigare il problema. Si ha quando l'impatto o la portata di un problema può essere ridotto, ad esempio fornendo temporaneamente risorse aggiuntive a un prodotto soggetto a sovraccarico.

Se non è stata trovata alcuna mitigazione, quando possibile, il team dell'assistenza clienti trova e comunica le soluzioni. Le soluzioni alternative sono passaggi che puoi adottare per risolvere l'esigenza di base nonostante l'incidente. Una soluzione alternativa potrebbe essere usare impostazioni diverse per una chiamata API per evitare un percorso di codice problematico.

Invia un follow-up

Mentre un incidente è in corso, il team dell'assistenza clienti fornisce aggiornamenti regolari. In genere gli aggiornamenti offrono:

  • Maggiori informazioni sull'incidente, ad esempio messaggi di errore, zone o regioni interessate, funzionalità interessate o percentuali di impatto.

  • Progressi verso la mitigazione, comprese eventuali soluzioni alternative.

  • Tempistiche di comunicazione, personalizzate in base all’incidente.

  • Modifiche dello stato, ad esempio quando un incidente viene risolto.

Retrospettiva

Tutti gli incidenti hanno un post mortem internamente per comprendere appieno l'incidente e identificare i miglioramenti dell'affidabilità che Google può apportare. Questi miglioramenti vengono monitorati e implementati. Per ulteriori informazioni sulle analisi post mortem in Google, consulta il Capitolo 15 del Site Reliability Engineering Book.

Report sugli incidenti

Quando gli incidenti hanno un impatto molto ampio e grave, Google fornisce report sugli incidenti che illustrano i sintomi, l'impatto, la causa principale, la correzione e la prevenzione futura degli incidenti. Come per le analisi post mortem, prestiamo particolare attenzione alle misure che adottiamo per apprendere dal problema e migliorare l'affidabilità. L'obiettivo di Google nella redazione e nella pubblicazione di post mortem è la trasparenza e la dimostrazione del nostro impegno nella creazione di prodotti stabili per i clienti.

Modello dei dati sugli incidenti

Un incidente ha impatto su uno o più prodotti in una o più località. Gli incidenti hanno un'ora di inizio e un'ora di fine, nonché una gravità complessiva. Un incidente presenta aggiornamenti che descrivono come cambia l'incidente nel tempo, inclusi il suo stato e le località interessate. Le informazioni sugli incidenti vengono rese disponibili tramite uno schema JSON.

Lo schema JSON contiene campi contrassegnati come Stabile e Instabile. In generale, i campi ID sono considerati stabili, mentre i campi come i nomi visualizzati sono considerati instabili e possono essere modificati senza avviso. Utilizza i campi Stabile solo durante l'integrazione con un sistema esterno o l'automazione degli edifici. Vedi Posso creare integrazioni per utilizzare in modo programmatico i dati visualizzati nella dashboard di Google Cloud Service Health?.

Domande frequenti

Che tipo di informazioni sullo stato posso trovare nella Google CSH Dashboard?

La Google CSH Dashboard fornisce informazioni sullo stato dei prodotti che fanno parte di Google Cloud. Lo stato può includere interruzioni del prodotto, interruzioni del prodotto o messaggi informativi su un problema temporaneo.

Quando viene pubblicato un incidente nella dashboard di Google CSH?

Gli incidenti che soddisfano uno qualsiasi dei seguenti criteri vengono visualizzati nella dashboard CSH:

Dove posso trovare informazioni su interruzioni e interruzioni dei prodotti passate?

La dashboard di Google CSH conserva un registro delle interruzioni e delle interruzioni dei prodotti Google Cloud per un massimo di cinque anni. La scheda Panoramica della dashboard mostra lo stato attuale dei prodotti in base alle impostazioni internazionali. Per visualizzare informazioni su interruzioni e interruzioni dei prodotti nell'ultimo anno, fai clic su Visualizza cronologia nella dashboard. Per visualizzare la cronologia delle interruzioni di un prodotto negli ultimi cinque anni, fai clic su Scopri di più per il prodotto in questione.

Come faccio a visualizzare informazioni sullo stato regionalizzate per i prodotti Google Cloud?

La dashboard Google CSH mostra lo stato di tutti i prodotti Google Cloud organizzati per regione e impostazioni internazionali globali. Per visualizzare lo stato di più regioni, fai clic sulla scheda specifica per ogni regione.

Posso creare integrazioni per consumare i dati visualizzati nella dashboard di Google Cloud Service Health in modo programmatico?

Sì, puoi utilizzare i dati visualizzati nella dashboard di Google CSH nei seguenti modi:

  • Tramite un feed RSS
  • Tramite un file di cronologia JSON

    Puoi scaricare lo schema per il file JSON qui.

Il feed RSS e il file di cronologia JSON forniscono informazioni sullo stato degli incidenti, che possono essere consultate tramite integrazioni.

Utilizza i campi contrassegnati come Stabile nel file di cronologia JSON, anziché i campi contrassegnati come Instabile. Esempio: se stai cercando di identificare in modo programmatico gli incidenti che interessano un determinato insieme di prodotti, utilizza gli ID prodotto (affected_products>id), non i relativi nomi visualizzati.

ID prodotto e nomi di prodotto

In passato, la dashboard di Google Cloud Service Health non offriva un meccanismo per individuare l'ID per un determinato prodotto. Dall'inizio del 2023, la dashboard di Google Cloud Service Health ha reso disponibile un catalogo dei prodotti che fornisce questa mappatura per tutti i prodotti. Un ID prodotto fornisce un campo stabile per l'esclusione permettendo al contempo la modifica del nome visualizzato di un prodotto. Preferisci fare riferimento all'ID prodotto quando identifichi in modo programmatico gli incidenti che interessano un set di prodotti.

Cosa succede se dispongo di integrazioni predefinite basate sulla dashboard dello stato di Google Cloud prima dell'introduzione dei report sullo stato regionalizzati e della modifica del nome nella dashboard di Google Cloud Service Health?

Sia nel feed RSS che nel file JSON, le informazioni sullo stato a livello di regione sono aggiuntive rispetto alle informazioni già pubblicate prima dell'introduzione dei report sullo stato regionalizzati e della modifica del nome della dashboard dello stato di Google Cloud. Di conseguenza, ci aspettiamo che le integrazioni esistenti continuino a funzionare. Tuttavia, se vuoi utilizzare le informazioni sullo stato a livello di regione tramite le integrazioni, devi modificarle.

Ecco una descrizione dettagliata di come vengono presentate le informazioni regionali sia nel feed RSS che nel file JSON:

  • Feed RSS

    Le informazioni sullo stato regionale sono una nuova aggiunta alle informazioni del feed fornite prima dell'introduzione dello stato regionalizzato. Tutte le località segnalate come interessate vengono aggiunte al messaggio RSS.

  • File JSON

    Prima dell'aggiornamento dello stato a livello di regione, Google Cloud ha pubblicato un flusso di incidenti in cui ogni incidente conteneva un elenco dei prodotti interessati e un elenco di aggiornamenti dello stato per ciascuno di essi, se presenti. Questi aggiornamenti dello stato contenevano un campo stringa non strutturato che conteneva o non conteneva le informazioni sulla posizione.

    Ora Google Cloud pubblica un flusso di incidenti come in precedenza. Tuttavia, per ogni incidente, ogni aggiornamento dello stato contiene i seguenti nuovi campi:

    • updates.affected_locations: contiene un elenco strutturato delle località interessate al momento della pubblicazione dell'aggiornamento. Tutti i record di aggiornamento e il record most_recent_update contengono questo campo.
    • currently_affected_locations: contiene le informazioni più recenti sulle località interessate attivamente dall'incidente. A differenza di updates.affected_locations, questo elenco diventa vuoto dopo la risoluzione dell'incidente (ovvero quando end è impostato su un valore non vuoto).
    • previously_affected_locations: contiene un elenco di località che in precedenza sono state interessate da un incidente, ma che non le sono attualmente interessate. Man mano che l'incidente procede, in alcune località potrebbe essere risolta la risoluzione dell'interruzione. Queste località continueranno a esistere in previously_affected_locations field. Una volta risolto l'incidente (ovvero quando end è impostato su un valore non vuoto), questo campo contiene un elenco di tutte le località interessate durante l'incidente.

Che cosa succede se il problema che ho riscontrato non è elencato nella dashboard?

La dashboard di Google Cloud Service Health fornisce informazioni sullo stato attuali e storiche di qualsiasi incidente grave che interessa i prodotti e i servizi Google Cloud. Se riscontri un problema non elencato nella dashboard, potrebbe essere isolato ai tuoi progetti o istanze oppure potrebbe interessare un numero limitato di clienti. Gli incidenti con un ambito inferiore possono essere elencati nel portale di assistenza clienti. Puoi contattare l'assistenza clienti per qualsiasi problema riscontrato che non è elencato nella dashboard.

Se utilizzi già la dashboard Personalized Service Health, controlla se il problema è elencato per determinare se il progetto o l'istanza sono interessati.

Se utilizzi la console Google Cloud, puoi fare clic sullo strumento Invia feedback nell'angolo in alto a destra per segnalare i problemi.

Chi aggiorna la dashboard?

Il team dell'assistenza clienti globale monitora lo stato dei prodotti utilizzando numerosi tipi di indicatori diversi e aggiorna la dashboard in caso di problemi diffusi. Se necessario, pubblicheranno un report dettagliato sull'analisi degli incidenti dopo che l'incidente è stato risolto.