Supportabilità

Accedere alle notifiche software

Controlla i seguenti strumenti per ricevere notifiche quando si verifica un problema nei componenti software della tua piattaforma:

  • La dashboard software comune:per le notifiche relative alle informazioni sullo stato del sistema, ad esempio componenti, cluster, servizi e VM GKE Enterprise.
  • La tua casella di posta:per le notifiche via email che includono informazioni di base sul problema, ad esempio i codici di errore.

Fai clic su una notifica per visualizzare la pagina del componente problematico e accedere ai log pertinenti.

Configurare i destinatari delle notifiche

Configura i seguenti canali di comunicazione per ricevere avvisi, anche se sono disconnessi dalla dashboard:

  • SMS
  • Notifiche via email
  • PagerDuty

Organizza il tipo di notifica e il ruolo del destinatario, ad esempio fatturazione, software e hardware.

Informazioni sugli errori software

Segui queste pratiche per accedere alle informazioni pertinenti sugli errori nei componenti software, risolvere il problema e interagire in modo efficace con l'assistenza:

  • Trova il codice di errore di ogni errore.
  • Utilizza i codici di errore per cercare nella documentazione locale e online.
  • L'interfaccia utente fornisce snippet di informazioni relativi a errori specifici. Tieni il puntatore sopra un codice di errore per visualizzare gli snippet.

Elimina le informazioni per la risoluzione dei problemi del software dai dati sensibili

Sanitizza le informazioni per la risoluzione dei problemi per i componenti software, inclusi configurazioni, log, stato e metriche di tutti i dati sensibili, e rispetta i requisiti di sovranità.

Google Distributed Cloud (GDC) con air gap fornisce un elenco di parole chiave sensibili predefinite da offuscare e rimuovere. Per sanificare le informazioni per la risoluzione dei problemi:

  1. Personalizza l'elenco predefinito aggiungendo e rimuovendo parole chiave personalizzate.
  2. Ricevi un report di tutte le occorrenze offuscate.
  3. Ricevi avvisi relativi a potenziali informazioni sensibili rimanenti.

Gli elementi critici da offuscare includono:

  • Nomi di dominio completi (FQDN)
  • Indirizzi IP
  • Nomi utente
  • Nomi host
  • Nomi dei workload
  • Hash
  • Certificati
  • Nomi dei clienti

Crea uno snapshot del sistema software

Crea uno snapshot dei componenti software per raccogliere tutte le informazioni necessarie per risolvere il problema e interagire in modo efficace con l'assistenza:

  1. Seleziona i componenti da includere.
  2. Genera un file tar con tutte le configurazioni, i log, lo stato e le metriche richiesti.
  3. Specifica il componente da eseguire il debug.
  4. Specifica come sanificare i dati.

Condividere informazioni con l'assistenza

Google fornisce assistenza di livello 1 (L1) e livello 2 (L2) per GDC.

Applicare criteri alla condivisione degli snapshot

Segui queste pratiche per assicurarti che i dati dello snapshot che condividi con l'assistenza siano sicuri, protetti e soggetti a norme di conservazione dei dati che controlli:

  • Definisci e applica i criteri di controllo dell'accesso allo snapshot.
  • Definisci e applica le policy di conservazione dei dati per lo snapshot.
  • Configura un canale sicuro per caricare lo snapshot nel portale di assistenza.

Accedere alle notifiche dell'hardware

Controlla le notifiche relative alla comparsa di un problema nei componenti hardware della tua piattaforma. Le notifiche vengono visualizzate in System Manager con le informazioni sullo stato del sistema dei componenti hardware come rack, server, switch e spazio di archiviazione.

Puoi anche ricevere notifiche via email. Questi includono informazioni di base sul problema, ad esempio i codici di errore. Fai clic sulla notifica per visualizzare la pagina del componente problematico e accedere ai log pertinenti.

Richiedere upgrade della capacità

Monitora, prevedi e richiedi capacità hardware aggiuntiva per garantire l'integrità e la scalabilità dei tuoi carichi di lavoro.

Elabora lo snapshot del sistema

Prima di elaborare lo snapshot del sistema, assicurati di soddisfare i seguenti requisiti:

  • Lo strumento di snapshot ha una connessione a un cluster in esecuzione.
  • Disponi delle seguenti autorizzazioni necessarie per leggere la configurazione e i log sul cluster:
    • Gli operatori dell'applicazione dispongono di funzionalità amministrative.
    • Gli amministratori della piattaforma hanno autorizzazioni di accesso limitate alle informazioni assegnate.

Per elaborare lo snapshot del sistema, seleziona i componenti del sistema di cui creare lo snapshot. Lo strumento si connette al cluster per estrarre le informazioni per ogni componente selezionato. Dopo il recupero, i dati vengono sottoposti a post-elaborazione per filtrare i dati sensibili. Lo strumento raggruppa quindi le informazioni in un file ZIP.

Se vuoi, puoi esaminare il file zip e i relativi contenuti per assicurarti di non acquisire dati sensibili prima di condividerli con l'assistenza.

Accedere alla documentazione dell'assistenza

Consulta la seguente documentazione e i seguenti playbook per risolvere il problema del cliente in questione:

  • Playbook di assistenza
  • Documentazione pubblica, best practice, domande frequenti e knowledge base
  • La community di utenti

Un partner potrebbe fornire assistenza di livello 1 e 2, pertanto questi artefatti devono essere disponibili pubblicamente.

Inoltrare un problema software al livello 3

Segui questi passaggi per riassegnare un problema software a Google per l'assistenza di livello 3 (L3) o avanzata:

  1. Richiedere l'autorizzazione per condividere i dati delle istantanee con Google.
  2. Apri un ticket di assistenza con Google.
  3. Fornisci a Google l'accesso al tuo snapshot.
  4. Monitora e fornisci visibilità sulle operazioni eseguite da Google sullo snapshot.

Riassegnare un problema hardware al livello 3

Segui questi passaggi per riassegnare a Google un problema causato da un guasto hardware:

  1. Estrai e pulisci le informazioni minime per risolvere i problemi dei componenti hardware:
    • Log
    • Stato e configurazioni
    • Metriche
    • Informazioni fisiche come numero di rack, tipo di componente, numero di serie e posizione fisica.
  2. Richiedere l'autorizzazione per condividere i dati delle istantanee con Google.
  3. Apri un ticket di assistenza con Google.
  4. Fornisci a Google l'accesso al tuo snapshot.
  5. Monitora e fornisci visibilità sulle operazioni eseguite da Google sullo snapshot.

Aprire una richiesta di assistenza hardware

Google ha accesso agli stessi strumenti di risoluzione dei problemi per diagnosticare lo snapshot del cliente. Apri una richiesta di assistenza con il partner hardware-as-a-service (HWaaS) per ricevere assistenza hardware tramite il sistema di gestione dei ticket condiviso.

I ticket di assistenza hanno i seguenti livelli di priorità con i corrispondenti accordi sul livello del servizio (SLA):

  • Critico
  • Alta
  • Media

Condividere i dati dei clienti con il partner HWaaS

Per condividere i dati hardware del sistema con il partner hardware e attivare la risoluzione dei problemi hardware:

  1. Richiedi l'autorizzazione per condividere i dati degli snapshot con un partner HWaaS.
  2. Assicurati di rispettare i requisiti di sovranità: nazionalità e posizione dell'agente dell'assistenza.
  3. Concedi al partner HWaaS l'accesso sicuro allo snapshot dell'hardware del cliente, inclusi numero di serie, posizione fisica, log, metriche e file di configurazione.
  4. Invia una notifica alle persone a cui hai concesso l'accesso.
  5. Applica la scadenza automatica dei privilegi di accesso.
  6. Registra tutte le attività e condividile con tutte le parti coinvolte.

Comunicare a Google i risultati della risoluzione dei problemi e correggere la sequenza temporale

Comunica a Google la causa principale del problema e offri una correzione graduale in modo che Google possa informare il cliente finale e il partner. Utilizza un sistema di gestione dei ticket per fornire i dettagli dell'attività di correzione richiesta e una tempistica stimata per il suo completamento.

Coordinare l'accesso al data center

Coordinare la logistica e le autorizzazioni per l'accesso sicuro al data center ed eseguire la correzione hardware necessaria.

Il partner HWaaS garantisce la conformità ai requisiti di sovranità, ad esempio la nazionalità dell'agente dell'assistenza. Ha bisogno delle seguenti informazioni:

  • I dettagli del punto di contatto del data center e della località.
  • La posizione esatta del rack e del componente problematici nel data center.
  • Una procedura per ottenere l'autorizzazione e l'accesso al data center in un momento concordato.
  • Una procedura per programmare l'intervento in loco in un data center.

Ottenere assistenza hardware per SLO e SLA

Google fornisce assistenza tramite un partner produttore di apparecchiature originali (OEM) hardware. La procedura è la seguente:

  1. Google negozia l'assistenza hardware per gli obiettivi del livello di servizio (SLO) e gli accordi sul livello di servizio (SLA) con un partner HWaaS.
  2. SLO e SLA variano in base alla criticità dell'incidente, che può essere critica, elevata o media.
  3. Il partner HWaaS aggiorna il ticket con lo stato e il tempo stimato per la risoluzione.
  4. Il partner HWaaS conferma la risoluzione del problema.

Esegui l'upgrade della capacità

Per rispondere a una richiesta di aumento della capacità, utilizza la capacità aggiuntiva integrata, se disponibile. Vai in loco ed esegui l'upgrade della capacità fisica se non è disponibile capacità aggiuntiva sui rack.

Pianificare revisioni ricorrenti con Google

Configura revisioni periodiche con il partner HWaaS per controllare lo stato attuale delle implementazioni e pianificare gli interventi programmati.

Durante le revisioni ricorrenti, esegui le seguenti azioni:

  • Controlla gli aggiornamenti pianificati richiesti per il sistema operativo, l'hardware e il firmware.
  • Rivedi lo stato dei deployment esistenti.
  • Pianifica nuovi deployment.

Comunicare la manutenzione e gli upgrade pianificati

Comunica ai clienti esistenti i piani di manutenzione pianificata imminenti. Esegui le seguenti azioni con loro:

  • Seleziona le risorse di cui eseguire l'upgrade.
  • Specifica perché gli upgrade verranno eseguiti nel loro stato attuale.
  • Determina chi eseguirà gli upgrade e quando, dove e come.
  • Pianifica l'impatto e i tempi di inattività possibili.

Impostare la manutenzione pianificata

Pianifica una manutenzione preventiva regolare e assicurati che il sistema sia aggiornato e funzioni correttamente. HWaaS segnala il completamento della manutenzione. Sono necessari i seguenti processi:

  • Una procedura per ottenere l'autorizzazione ad accedere al data center.
  • Una procedura per pianificare l'intervento in loco nel data center.