37. Elenco di controllo per il deployment

Tempo stimato per il completamento: 5 giorni

Proprietario del componente utilizzabile: OLT

Profilo delle competenze: Deployment Engineer

A partire dalla versione 1.14, il completamento del deployment viene verificato in base alle dashboard dello stack di osservabilità e monitoraggio.


  1. Verifica della dashboard degli incidenti ServiceNow

    • Controlla la presenza di incidenti nuovi o irrisolti relativi al deployment.
  2. Verifica la dashboard di Grafana AlertManager

    • Cerca eventuali avvisi attivi.
  3. Triage di nuovi incidenti e avvisi Per qualsiasi nuovo incidente ServiceNow o avviso Grafana attivato, segui questi passaggi:

    1. Confronta il problema con il documento Problemi noti.
    2. Se il problema non è elencato tra quelli noti, riassegna la richiesta al team di ingegneri per valutare i passaggi successivi. La risoluzione potrebbe richiedere il completamento delle seguenti operazioni:
      • Risolvi il problema sottostante.
      • Documenta l'avviso come nuovo problema noto, ad esempio se si tratta di un falso positivo.

37.1. Verifica dell'integrità del sistema

Dopo il deployment, l'indicatore principale dell'integrità del sistema è l'assenza di nuovi incidenti e avvisi imprevisti sia nella dashboard Incidenti di ServiceNow (SNOW) sia nella dashboard AlertManager di Grafana.


37.1.1. Dashboard Incidenti ServiceNow

La dashboard ServiceNow offre una panoramica generale dei problemi significativi per i quali il sistema ha creato automaticamente un ticket. Dopo un deployment, questa dashboard non deve mostrare nuovi incidenti critici.

Il tuo obiettivo è confermare che non siano stati attivati nuovi incidenti non documentati. Qualsiasi incidente visualizzato deve essere già elencato nella sezione dei problemi noti.


37.1.2. Dashboard di Grafana AlertManager

La dashboard AlertManager offre una visione più immediata e in tempo reale dello stato del sistema mostrando gli avvisi attivi. Un problema spesso viene visualizzato qui prima della creazione di un incidente ServiceNow.

Un sistema in buono stato non mostrerà nuovi avvisi di attivazione. Qualsiasi avviso attivo deve essere verificato nella pagina dei problemi noti per confermare che si tratta di un comportamento previsto.


37.1.3. Interpretare i risultati

Quando entrambe le dashboard non mostrano problemi nuovi e non documentati, ciò rappresenta una forte conferma che il deployment è stato eseguito correttamente e che il sistema è stabile.

Se rilevi incidenti o avvisi non elencati nella pagina dei problemi noti, procedi con i passaggi di triage e riassegnazione descritti nella checklist menzionata in precedenza. I nuovi falsi positivi devono essere segnalati al team di ingegneria in modo che possano essere risolti e documentati in modo appropriato.


37.2. Esempio di workflow di triage

Quando un nuovo avviso richiede un'indagine, la procedura generale di triage in Grafana AlertManager prevede i seguenti passaggi:

  1. Raggruppa per priorità: raggruppa prima gli avvisi per concentrarti sui problemi più critici. Group_by_prio

  2. Assegna una richiesta: per garantire la proprietà e il monitoraggio, assegna una richiesta all'avviso. Ticket_assign

  3. Esamina le regole di avviso: esamina la regola di avviso specifica che è stata attivata per comprenderne le condizioni e lo scopo. Review_alerting_rules

  4. Controlla lo stato di attivazione: esamina i dettagli e lo stato dell'avviso di attivazione nella dashboard. Check_firing_state

  5. Verifica l'avviso: infine, conferma che l'avviso sia attivo e rappresenti un problema valido prima di procedere con la procedura di riassegnazione. Verify_Alert