Incidenti e dashboard di Google Cloud Service Health

La dashboard di Google Cloud Service Health (CSH) fornisce informazioni sullo stato del i prodotti Google Cloud organizzati per regione e impostazioni internazionali.

Incidente grave

Google Cloud definisce un incidente come grave se soddisfa tutti i le seguenti condizioni:

  • Ambito elevato: l'incidente ha un impatto globale o interessa una situazione percentuale di progetti dei clienti in una o più regioni.
  • Gravità elevata: uno o più prodotti non sono disponibili o sono molto ridotti.

Nei rari casi in cui si verifica un incidente grave, agiamo con urgenza per risolvere eventuali problemi.

Durante un incidente grave, lo stato del problema viene comunicato tramite Dashboard di Google Cloud Service Health. Un incidente grave è contrassegnato come Interruzione del servizio nelle dashboard dello stato. Una volta risolto il problema, pubblicare una segnalazione pubblica di un incidente che includa i dettagli dei fattori che ha contribuito all'incidente e le misure che intendiamo adottare per evitare che che si ripetano.

In caso di incidenti con ambito più ridotto, potrebbe essere effettuata una segnalazione non pubblica a disposizione dei clienti.

Ciclo di vita di un incidente

Quando viene rilevato un degrado del prodotto, il team di assistenza Google Cloud e il team tecnico del prodotto collabora per risolvere l'incidente e fornirti grazie agli aggiornamenti.

Il seguente diagramma mostra le responsabilità dell'ingegneria del prodotto e di assistenza tecnica:

Diagramma del ciclo di vita

Puoi scoprire di più su ciascuna di queste responsabilità nei seguenti sezioni.

Rilevamento

Google Cloud utilizza il monitoraggio interno e black-box per rilevare gli incidenti. Per ulteriori informazioni le informazioni, vedi Capitolo 6 del libro Site Reliability Engineering.

Se hai l'Assistenza Premium, Avanzata o Standard, puoi segnalare un incidente creando una richiesta di assistenza Console Google Cloud. Altrimenti, puoi utilizza questo modulo.

Risposta iniziale

Quando viene rilevato un incidente, il team dell'assistenza clienti Google Cloud gestisce il cliente le comunicazioni. La notifica iniziale di un incidente è spesso scarsa, menzionano spesso solo il prodotto in questione. Questo perché dare la priorità alle notifiche rapide rispetto ai dettagli. I dettagli possono essere forniti nelle aggiornamenti.

Fornire quante più informazioni possibile senza sopraffarti con problemi che non ti riguardano, vengono usati canali di comunicazione diversi a seconda dell'ambito e della gravità del problema:

Diagramma delle comunicazioni

È consigliabile utilizzare Service Health personalizzato come prima tappa in caso di interruzione del servizio prodotti specifici. Tramite Con Service Health personalizzato puoi visualizzare le interruzioni pertinenti ai tuoi progetti. Scopri di più su Personalized Service Health e su come integrarlo nell'incidente un flusso di lavoro per la gestione dei dati.

La Dashboard di Google Cloud Service Health mostra gli incidenti gravi ed è progettato per essere disponibile nei rari casi Personalized Service Health stesso non è disponibile o è interessata da un'interruzione.

Se non hai abilitato Personalized Service Health per il tuo progetto o se Il prodotto non è ancora supportato da Personalized Service Health, ti consigliamo di verificare la presenza di interruzioni attive nel seguente modo:

I problemi noti visualizzati nella pagina Assistenza della console Google Cloud includono anche incidenti minori e di portata limitata.

Le richieste di assistenza sono adatte a problemi che non possono essere considerati incidenti o in cui è necessario un contatto umano. La pagina dei problemi noti ti consente creare una richiesta a partire da un incidente pubblicato in modo da ricevere aggiornamenti regolari e parlare con il personale di assistenza.

Indaga

I team di tecnici del prodotto sono responsabili dell'analisi della causa principale e i relativi incidenti. La gestione degli incidenti viene spesso eseguita da Site Reliability Engineer, può essere svolto dagli ingegneri informatici o da altri, a seconda della situazione e prodotto. Per ulteriori informazioni, vedi Capitolo 12 del Libro sulla Site Reliability Engineering.

Mitigazione/Correzione

Un problema viene considerato risolto solo quando sono state apportate modifiche di cui Google sicuro porrà fine all'impatto a tempo indeterminato. Ad esempio, la correzione potrebbe essere una modifica che ha attivato un incidente.

Mentre un incidente è in corso, l'assistenza clienti e il team di prodotto tentare di mitigare il problema. Per mitigazione si intende l'impatto o l'ambito di problema può essere ridotto, ad esempio fornendo temporaneamente risorse aggiuntive a un prodotto che soffre di sovraccarico.

Se non è stata trovata alcuna mitigazione, quando possibile, il team dell'assistenza clienti trova e comunica workarounds. Le soluzioni alternative sono passaggi che puoi seguire le esigenze di base nonostante l'incidente. Una soluzione alternativa potrebbe essere utilizzare le impostazioni per una chiamata API per evitare percorsi di codice problematici.

Invia un follow-up

Mentre un incidente è in corso, il team dell’assistenza clienti fornisce aggiornamenti. In genere gli aggiornamenti offrono:

  • Ulteriori informazioni sull'incidente, come messaggi di errore, zone regioni interessate, le funzionalità interessate o le percentuali di impatto.

  • Progressi verso la mitigazione, comprese eventuali soluzioni alternative.

  • Tempistiche di comunicazione, personalizzate in base all’incidente.

  • Modifiche dello stato, ad esempio quando un incidente viene risolto.

Retrospettiva

Tutti gli incidenti hanno un post mortem internamente per comprendere appieno l’incidente e identificare i miglioramenti all'affidabilità che Google può apportare. Questi miglioramenti sono poi monitorati e implementati. Per ulteriori informazioni sulle analisi post mortem in Google, vedi Capitolo 15 del Libro sulla Site Reliability Engineering.

Report sugli incidenti

Quando gli incidenti hanno un impatto molto ampio e grave, Google fornisce report che descrivono i sintomi, l'impatto, la causa principale, la correzione e il futuro prevenzione degli incidenti. Come per le analisi post mortem, paghiamo particolare attenzione ai passaggi che adottiamo per apprendere dal problema. e migliorare l'affidabilità. L'obiettivo di Google nella scrittura e nella pubblicazione delle analisi post mortem la trasparenza e l'impegno per la creazione di prodotti stabili per i nostri clienti.

Modello dei dati sugli incidenti

Un incidente ha impatto su uno o più prodotti in una o più località. Gli incidenti hanno un'ora di inizio e un'ora di fine, nonché una gravità complessiva. Un incidente include aggiornamenti che descrivono come cambia l'incidente nel tempo, tra cui il suo stato e le località interessate. Le informazioni sull'incidente viene reso disponibile tramite uno schema JSON.

Lo schema JSON contiene campi contrassegnati come Stabile e Instabile. In generale, l'ID sono considerati Stabili, mentre campi come i nomi visualizzati vengono considerati instabili e possono essere modificati senza preavviso. Usare lo stato Stabile solo in caso di integrazione con un sistema esterno o di automazione degli edifici. Vedi Posso creare integrazioni per utilizzare i dati visualizzati nella Dashboard di Google Cloud Service Health in modo programmatico?.

Domande frequenti

Che tipo di informazioni sullo stato posso trovare nella Google CSH Dashboard?

La Google CSH Dashboard fornisce informazioni sullo stato dei prodotti che fanno parte di Google Cloud. Lo stato può includere interruzioni del prodotto, o messaggi informativi su un problema temporaneo.

Quando viene pubblicato un incidente nella dashboard di Google CSH?

Gli incidenti che soddisfano uno qualsiasi dei seguenti criteri vengono visualizzati nella dashboard CSH:

Dove posso trovare informazioni su interruzioni e interruzioni dei prodotti passate?

La dashboard Google CSH conserva un registro delle interruzioni e dei malfunzionamenti per Google Cloud per un massimo di cinque anni. La Panoramica di mostra lo stato corrente dei prodotti in base alle impostazioni internazionali. Per visualizzare le informazioni su interruzioni e interruzioni dei prodotti nell'ultimo anno, fai clic Visualizza cronologia nella dashboard. Per visualizzare la cronologia delle interruzioni di un prodotto negli ultimi cinque anni, fai clic su Mostra di più per quel prodotto.

Come faccio a visualizzare informazioni sullo stato regionalizzate per i prodotti Google Cloud?

La dashboard Google CSH mostra lo stato di tutti i prodotti Google Cloud organizzati per regione e impostazioni internazionali. Per visualizzare lo stato di più regioni, fai clic sulla scheda specifica per la regione.

Posso creare integrazioni per consumare i dati visualizzati nella dashboard di Google Cloud Service Health in modo programmatico?

Sì, potete usufruire dei dati visualizzati nella dashboard di Google CSH nel nei seguenti modi:

  • Tramite un feed RSS
  • Tramite un file di cronologia JSON

    Puoi scaricare lo schema per il file JSON qui.

Il feed RSS e il file di cronologia JSON forniscono informazioni sullo stato degli incidenti, che possono consumate attraverso le integrazioni.

Utilizza i campi contrassegnati come Stabile nel file di cronologia JSON, anziché i campi l'opzione è contrassegnata come Instabile. Esempio: se stai cercando di identificare in modo programmatico che interessano un particolare set di prodotti, utilizza gli ID prodotto (affected_products>id), non i relativi nomi visualizzati.

ID prodotto e nomi di prodotto

In passato, la dashboard di Google Cloud Service Health non forniva un meccanismo di individuazione dell'ID di un determinato prodotto. Dall'inizio del 2023, Dashboard di Google Cloud Service Health resa disponibile catalogo dei prodotti, che fornisce questa mappatura per tutti i prodotti. Un ID prodotto fornisce un campo stabile per l'estrazione della chiave consentendo al contempo la modifica del nome visualizzato di un prodotto. Preferisco fare riferimento quando si identificano in modo programmatico gli incidenti che interessano un insieme prodotti di big data e machine learning.

Cosa succede se dispongo di integrazioni predefinite basate sulla dashboard dello stato di Google Cloud prima dell'introduzione dei report sullo stato regionalizzati e della modifica del nome nella dashboard di Google Cloud Service Health?

Sia nel feed RSS che nel file JSON, le informazioni sullo stato regionale sono: additivo alle informazioni già pubblicate prima del introduzione dei report sullo stato regionalizzati e modifica del nome Dashboard dello stato di Google Cloud. Pertanto, prevediamo che i tuoi integrazioni per continuare a lavorare. Se invece vuoi utilizzare lo stato regionale informazioni tramite le integrazioni, quindi devi modificarle.

Di seguito è riportata una descrizione dettagliata di come vengono presentate le informazioni regionali Feed RSS e file JSON:

  • Feed RSS

    Le informazioni sullo stato regionale sono una nuova aggiunta alle informazioni dei feed che era stata fornita prima dell'introduzione dello status regionalizzato. Qualsiasi posizione segnalate come interessate vengono aggiunte al messaggio RSS.

  • File JSON

    Prima dell'aggiornamento dello stato a livello di regione, Google Cloud ha pubblicato uno stream di incidenti in cui ogni incidente conteneva un elenco di prodotti interessati e un elenco di aggiornamenti di stato per ciascuno. Questi aggiornamenti di stato contenevano campo stringa non strutturato che conteneva o non conteneva la posizione informazioni.

    Ora Google Cloud pubblica un flusso di incidenti come in precedenza. Tuttavia, per ogni incidente, ogni aggiornamento dello stato contiene le seguenti campi:

    • updates.affected_locations: contiene un elenco strutturato delle categorie interessate località al momento della pubblicazione dell'aggiornamento. Ogni record di aggiornamento most_recent_update record contiene questo campo.
    • currently_affected_locations: contiene le informazioni più recenti su località che sono attivamente interessate dall'incidente. Non mi piace updates.affected_locations, questo elenco diventa vuoto dopo che l'incidente è stato rilevato risolto (ovvero quando end è impostato su un valore non vuoto).
    • previously_affected_locations: contiene un elenco di località che sono state in precedenza durante un incidente, ma che al momento non lo sono. Come l'incidente avanza, alcune località potrebbero avere una risoluzione. Questi continueranno a esistere in previously_affected_locations field. Una volta risolto l'incidente (ossia, quando end è impostato su un valore non vuoto), questo campo contiene un elenco di tutte le località interessate durante questo periodo incidente.

Che cosa succede se il problema che ho riscontrato non è elencato nella dashboard?

La dashboard di Google Cloud Service Health fornisce informazioni sullo stato attuali e storiche di qualsiasi incidente grave che interessa i prodotti e i servizi Google Cloud. Se riscontri un problema non elencato nella dashboard, potrebbe essere isolato ai tuoi progetti o istanze oppure potrebbe interessare un numero limitato di clienti. Gli incidenti con un ambito inferiore possono essere elencati nel portale di assistenza clienti. Puoi contattare l'assistenza clienti per qualsiasi problema riscontrato che non è elencato nella dashboard.

Se utilizzi già la dashboard Personalized Service Health, controlla se il problema è elencato per determinare se il progetto o l'istanza sono interessati.

Se utilizzi la console Google Cloud, puoi fare clic sullo strumento Invia feedback nella nell'angolo in alto a destra per segnalare problemi.

Chi aggiorna la dashboard?

Il team globale dell'assistenza clienti monitora lo stato dei prodotti utilizzando molti tipi diversi di indicatori e aggiorna la dashboard nel caso un problema diffuso. Se necessario, pubblicherà un’analisi dettagliata dell’incidente. una segnalazione dopo la risoluzione di un incidente.