Incidenti e stato del servizio Google Cloud

Per rimanere al corrente sull'integrità dei prodotti Google Cloud, controlla quanto segue:

  • Personalized Service Health: fornisce una visualizzazione personalizzata dei prodotti e delle regioni Google Cloud utilizzati dai tuoi progetti o dalla tua organizzazione. Controlla Personalized Service Health per verificare la presenza di comunicazioni relative a incidenti Google Cloud attivi e passati che potrebbero influire sui tuoi progetti e sulle tue risorse.

    Puoi accedere a Personalized Service Health tramite:

  • Google Cloud Service Health: offre una visione a livello di piattaforma l'integrità di tutti i prodotti Google Cloud nelle regioni di Google Cloud ed è disponibili per tutti. Fornisce informazioni sugli incidenti di Google Cloud con impatto diffuso.

    Puoi accedere allo stato di salute dei servizi Google Cloud tramite:

Utilizza Personalized Service Health come prima tappa in caso di interruzione del servizio per prodotti specifici, poiché Personalized Service Health avrà sempre a disposizione le informazioni più aggiornate per i clienti di Google Cloud. Scopri di più su Personalized Service Health e come integrarla nella gestione degli incidenti un flusso di lavoro di machine learning.

Puoi anche controllare la presenza di interruzioni attive nella pagina di assistenza della console Google Cloud. I problemi noti visualizzati nella pagina Assistenza della console Google Cloud includono anche incidenti minori e di portata limitata. La pagina dei problemi noti ti consente di creare una richiesta da un incidente pubblicato in modo da ricevere aggiornamenti regolari e poter parlare con l'assistenza personale. Le richieste di assistenza sono adatte a problemi che non possono essere considerati incidenti o per i casi in cui è necessario un contatto umano. Se disponi dell'assistenza Premium, Avanzata o Standard, puoi segnalare un incidente creando una richiesta di assistenza nella console Google Cloud. In caso contrario, possono utilizzare questo modulo.

Questo documento è incentrato sull'integrità del servizio Google Cloud.

Che cos'è Google Cloud Service Health

Google Cloud Service Health fornisce informazioni sullo stato di Google Cloud prodotti organizzati per regione e impostazioni internazionali. Queste informazioni possono includere interruzioni del prodotto, interruzioni del servizio o messaggi informativi su un problema temporaneo.

Google Cloud Service Health è progettato per essere disponibile nel raro evento Personalized Service Health stesso non è disponibile o è interessata da un'interruzione; oppure il prodotto interessato non è stato ancora sottoposto a onboarding in Personalized Service Health.

Quando si verifica un incidente in Google Cloud Service Health

Per la maggior parte degli incidenti di Google Cloud, i clienti interessati ricevono comunicazioni relative agli incidenti direttamente tramite Personalized Service Health nella console Google Cloud. Se soddisfano le condizioni di avviso, questi incidenti attivano anche Avvisi sullo stato dei servizi configurato.

Gli incidenti che soddisfano uno dei seguenti criteri vengono visualizzati nel servizio Google Cloud Salute:

  • Incidenti pubblici gravi
  • Incidenti per i prodotti Google Cloud non ancora disponibili in Personalized Service Health
  • Incidenti che si verificano quando la dashboard di Personalized Service Health non è disponibile

Incidente grave

Google Cloud definisce un incidente come grave se soddisfa tutti i le seguenti condizioni:

  • Ambito elevato: l'incidente ha un impatto globale o sta interessando una percentuale significativa dei progetti dei clienti in una o più regioni.
  • Gravità elevata: uno o più prodotti non sono disponibili o sono molto ridotti.

Nei rari casi in cui si verifica un incidente grave, agiamo con urgenza per risolvere che le applicazioni presentino problemi di prestazioni.

Durante un grave incidente, lo stato del problema viene comunicato tramite il Dashboard di Google Cloud Service Health. Un incidente grave è contrassegnato come Interruzione del servizio nelle dashboard dello stato. Una volta risolto il problema, pubblicare una segnalazione pubblica di un incidente che includa i dettagli dei fattori che ha contribuito all'incidente e le misure che intendiamo adottare per evitare che che si ripetano.

In caso di incidenti di minore portata, potrebbe essere reso disponibile per i clienti un report non pubblico.

Ciclo di vita di un incidente

Quando viene rilevato un degrado del prodotto, il team di assistenza Google Cloud e il team di ingegneria del prodotto collaborano per risolvere l'incidente e fornirti aggiornamenti.

Il seguente diagramma mostra le responsabilità dei team di assistenza e di progettazione del prodotto:

Diagramma del ciclo di vita

Puoi scoprire di più su ciascuna di queste responsabilità nei seguenti sezioni.

Rilevamento

Google Cloud utilizza il monitoraggio interno e black box per rilevare gli incidenti. Per maggiori informazioni le informazioni, vedi Capitolo 6 del libro Site Reliability Engineering.

Risposta iniziale

Quando viene rilevato un incidente, il team dell'assistenza clienti Google Cloud gestisce il cliente le comunicazioni. La notifica iniziale di un incidente è spesso scarsa e spesso menziona solo il prodotto in questione. Questo perché dare la priorità alle notifiche rapide rispetto ai dettagli. I dettagli possono essere forniti negli aggiornamenti successivi.

Fornire quante più informazioni possibile senza sopraffarti con problemi che non ti riguardano, vengono usati canali di comunicazione diversi a seconda dell'ambito e della gravità del problema:

Diagramma di comunicazione

Indaga

I team di tecnici del prodotto sono responsabili dell'analisi della causa principale e i relativi incidenti. La gestione degli incidenti viene spesso eseguita da Site Reliability Engineer, può essere svolto dagli ingegneri informatici o da altri, a seconda della situazione e prodotto. Per ulteriori informazioni, consulta il capitolo 12 del libro Site Reliability Engineering.

Mitigazione e correzione

Un problema viene considerato risolto solo quando sono state apportate modifiche di cui Google sicuro porrà fine all'impatto a tempo indeterminato. Ad esempio, la correzione potrebbe consistere nel rollback di una modifica che ha attivato un incidente.

Mentre è in corso un incidente, l'assistenza clienti e il team di prodotto tentano di mitigare il problema. Si parla di mitigazione quando è possibile ridurre l'impatto o l'ambito di un problema, ad esempio fornendo temporaneamente risorse aggiuntive a un prodotto in sovraccarico.

Se non è stata trovata alcuna mitigazione, quando possibile, il team dell'assistenza clienti trova e comunica le soluzioni. Le soluzioni alternative sono passaggi che puoi seguire le esigenze di base nonostante l'incidente. Una soluzione alternativa potrebbe essere utilizzare le impostazioni per una chiamata API per evitare percorsi di codice problematici.

Invia un follow-up

Mentre un incidente è ancora in corso, il team di assistenza clienti fornisce aggiornamenti regolari. Gli aggiornamenti in genere forniscono:

  • Ulteriori informazioni sull'incidente, ad esempio messaggi di errore, zone o regioni interessate, funzionalità interessate o percentuali di impatto.

  • Progressi verso la mitigazione, comprese eventuali soluzioni alternative.

  • Tempistiche per la comunicazione, personalizzate in base all'incidente.

  • Modifiche dello stato, ad esempio quando un incidente viene risolto.

Retrospettiva

Per tutti gli incidenti viene eseguita un'analisi post mortem interna per comprenderli appieno e identificare i miglioramenti dell'affidabilità che Google può apportare. Questi miglioramenti sono poi monitorati e implementati. Per ulteriori informazioni sui post mortem di Google, consulta il capitolo 15 del libro Site Reliability Engineering.

Report sugli incidenti

Quando gli incidenti hanno un impatto molto ampio e grave, Google fornisce report sugli incidenti che descrivono i sintomi, l'impatto, la causa principale, la correzione e la prevenzione futura degli incidenti. Come per le analisi post mortem, paghiamo particolare attenzione ai passaggi che adottiamo per apprendere dal problema. e migliorare l'affidabilità. L'obiettivo di Google nella scrittura e nella pubblicazione delle analisi post mortem la trasparenza e l'impegno per la creazione di prodotti stabili per i nostri clienti.

Modello dei dati sugli incidenti

Un incidente interessa uno o più prodotti in una o più località. Gli incidenti hanno un'ora di inizio e un'ora di fine e una gravità complessiva. Un incidente ha aggiornamenti che descrivono come cambia nel tempo, incluso lo stato e le località interessate. Le informazioni sull'incidente viene reso disponibile tramite uno schema JSON.

Lo schema JSON contiene campi contrassegnati come Stabile e Instabile. In generale, i campi ID sono considerati stabili, mentre campi come i nomi visualizzati sono considerati instabili e possono essere modificati senza avviso. Usare lo stato Stable solo in caso di integrazione con un sistema esterno o di automazione degli edifici. Vedi Posso creare integrazioni per utilizzare i dati visualizzati nella Dashboard di Google Cloud Service Health in modo programmatico?.

Domande frequenti

Dove posso trovare informazioni su interruzioni e interruzioni dei prodotti passate?

La funzionalità Integrità del servizio Google Cloud tiene traccia delle interruzioni e delle interruzioni dei prodotti Google Cloud per un massimo di cinque anni. La Panoramica di mostra lo stato corrente dei prodotti in base alle impostazioni internazionali. Per visualizzare informazioni su interruzioni e interruzioni del prodotto nell'ultimo anno, fai clic su Visualizza cronologia nella dashboard. Per visualizzare la cronologia delle interruzioni di un prodotto negli ultimi cinque anni, fai clic su Visualizza altri accanto al prodotto.

Come faccio a visualizzare informazioni sullo stato regionalizzate per i prodotti Google Cloud?

Lo stato del servizio Google Cloud mostra lo stato di tutti i prodotti Google Cloud organizzati per regione e locale globale. Per visualizzare lo stato di una località con più regioni, seleziona la scheda specifica della regione.

Posso creare integrazioni per utilizzare i dati visualizzati in Google Cloud Service Health in modo programmatico?

Sì, puoi usufruire dei dati visualizzati in Google Cloud Service Health nel nei seguenti modi:

  • Tramite un feed RSS
  • Tramite un file Cronologia JSON

    Puoi scaricare lo schema per il file JSON qui.

Il feed RSS e il file di cronologia JSON forniscono informazioni sullo stato degli incidenti, che possono consumate attraverso le integrazioni.

Utilizza i campi contrassegnati come Stabili nel file JSON History anziché i campi contrassegnati come Instabili. Esempio: se stai cercando di identificare in modo programmatico che interessano un particolare set di prodotti, utilizza gli ID prodotto (affected_products>id), non i relativi nomi visualizzati.

ID prodotto e nomi di prodotto

In passato, lo stato del servizio Google Cloud non forniva un meccanismo per individuare l'ID di un determinato prodotto. Dall'inizio del 2023, il team di Google Cloud Service Health ha reso disponibile un catalogo dei prodotti che fornisce questa mappatura per tutti i prodotti. Un ID prodotto fornisce un campo stabile su cui basarsi e consente al contempo di modificare il nome visualizzato di un prodotto. Preferisci fare riferimento all'ID prodotto quando identifichi programmatically gli incidenti che interessano un insieme di prodotti.

Cosa succede se dispongo di integrazioni predefinite basate su Google Cloud Service Health prima dell'introduzione dei report sullo stato regionalizzati e della modifica del nome nella dashboard di Google Cloud Service Health?

Sia nel feed RSS che nel file JSON, le informazioni sullo stato regionale sono: additivo alle informazioni già pubblicate prima del introduzione dei report sullo stato regionalizzati e modifica del nome Integrità dei servizi Google Cloud. Pertanto, prevediamo che i tuoi integrazioni per continuare a lavorare. Se invece vuoi utilizzare lo stato regionale informazioni tramite le integrazioni, quindi devi modificarle.

Di seguito è riportata una descrizione dettagliata di come vengono presentate le informazioni regionali Feed RSS e file JSON:

  • Feed RSS

    Le informazioni sullo stato regionale sono una nuova aggiunta alle informazioni dei feed che era stata fornita prima dell'introduzione dello status regionalizzato. Qualsiasi posizione segnalate come interessate vengono aggiunte al messaggio RSS.

  • File JSON

    Prima dell'aggiornamento dello stato a livello di regione, Google Cloud ha pubblicato uno stream di incidenti in cui ogni incidente conteneva un elenco dei prodotti interessati e un elenco di aggiornamenti dello stato per ciascuno, se presenti. Questi aggiornamenti di stato contenevano campo stringa non strutturato che conteneva o non conteneva la posizione informazioni.

    Ora Google Cloud pubblica uno stream di incidenti, come faceva in precedenza. Tuttavia, per ogni incidente, ogni aggiornamento dello stato contiene le seguenti campi:

    • updates.affected_locations: contiene un elenco strutturato delle località interessate al momento della pubblicazione dell'aggiornamento. Ogni record di aggiornamento e il most_recent_update record contengono questo campo.
    • currently_affected_locations: contiene le informazioni più recenti sulle località attivamente interessate dall'incidente. A differenza di updates.affected_locations, questo elenco diventa vuoto dopo la risoluzione dell'incidente (ovvero quando end è impostato su un valore diverso da vuoto).
    • previously_affected_locations: contiene un elenco di località che sono state in precedenza durante un incidente, ma che al momento non lo sono. Man mano che l'incidente si evolve, in alcune località potrebbe essere stata trovata una soluzione all'interruzione del servizio. Queste località continueranno a esistere in previously_affected_locations field. Una volta risolto l'incidente (ovvero quando end è impostato su un valore non vuoto), questo campo contiene un elenco di tutte le località interessate dall'incidente.

Cosa succede se sto riscontrando un problema che però non è elencato nella dashboard?

La dashboard dello stato dei servizi Google Cloud fornisce informazioni sullo stato attuale e storico di qualsiasi incidente grave che interessa i prodotti e i servizi Google Cloud. Se riscontri un problema non elencato nella dashboard, il problema potrebbe essere limitato ai tuoi progetti o alle tue istanze oppure potrebbe interessare un numero limitato di clienti. Gli incidenti con un ambito più ridotto potrebbero essere elencati nel portale di assistenza clienti. Puoi contattare l'assistenza clienti per qualsiasi problema riscontrato che non è elencato nella dashboard.

Se utilizzi già la dashboard Personalized Service Health, controlla se il problema è elencato per determinare se il tuo progetto o la tua istanza sono interessati.

Se utilizzi la console Google Cloud, puoi fare clic sullo strumento Invia feedback nell'angolo in alto a destra per segnalare i problemi.

Chi aggiorna la dashboard?

Il team globale dell'assistenza clienti monitora lo stato dei prodotti utilizzando molti tipi diversi di indicatori e aggiorna la dashboard nel caso un problema diffuso. Se necessario, pubblicheranno un report dettagliato sull'analisi dell'incidente dopo la risoluzione dell'incidente.