Pianificazione della continuità aziendale e ripristino di emergenza

Questa pagina si applica ad Apigee e Apigee hybrid.

Visualizza la documentazione di Apigee Edge.

Apigee è una piattaforma multitenant, self-service e basata sul cloud che viene eseguita in una configurazione completamente ridondante (live/live) in più data center in più regioni del mondo. Apigee utilizza Google Cloud per la sua piattaforma basata su cloud. Nell'ambito dei servizi che creiamo su Google Cloud, utilizziamo più data center all'interno di ogni regione e gestiamo il traffico live per i nostri clienti in questi data center. Non disponiamo di un data center "live" e di un data center "di riserva" (o "secondario" o "di failover"). Disponiamo di due o più data center che gestiscono costantemente e simultaneamente il traffico dei clienti in ogni regione a livello globale.

Piano RE/DR

La pianificazione della continuità aziendale e il ripristino di emergenza (BCP/RE) di Apigee sono un piano a livello di piattaforma e non contengono attività dettagliate per i singoli clienti. La piattaforma è configurata per elaborare le richieste di dati dei clienti indipendentemente da interruzioni e interruzioni del servizio. I dati continueranno a essere trasferiti anche se un intero data center è offline. Se un'intera regione dovesse andare offline, un cliente di una singola regione potrebbe subire un'interruzione dei servizi di elaborazione delle API. Per i clienti che cercano servizi ridondanti "in-region", Apigee è disponibile a un livello di ridondanza globale dei data center ridondanti in cui il traffico può essere gestito in più regioni o paesi, in modo che se un'intera regione dovesse andare offline, i dati continuerebbero a essere trasferiti.

I servizi clienti di una sola regione non vengono trasferiti automaticamente in un'altra regione a causa di possibili limitazioni geografiche all'elaborazione e all'accesso ai dati. I servizi Apigee sono ospitati per i clienti nella regione identificata dal cliente. Poiché potrebbero esistere normative specifiche o impegni dei clienti nei confronti dei loro utenti in merito alle posizioni geografiche dei dati, i servizi non verranno spostati automaticamente in un'altra regione, in quanto ciò potrebbe compromettere gli impegni di Google nei confronti dei suoi clienti o quelli dei clienti di Google nei confronti dei loro clienti.

Google non condivide il piano completo di BCP/RE con nessun singolo cliente, in quanto contiene informazioni sensibili interne e riferimenti ai nostri clienti. Le nostre norme sulla privacy impediscono la condivisione del piano BCP/RE della piattaforma con singoli clienti che potrebbero potenzialmente esporre i nomi di altri clienti. Offriamo lo stesso livello di privacy a ogni cliente.

BCP/DR Management

Un team di Google per la sicurezza delle informazioni è responsabile della supervisione del programma di resilienza aziendale, mentre un Incident Commander a rotazione è responsabile della gestione e della risoluzione di tutti gli incidenti. Il responsabile della gestione degli incidenti ha a disposizione personale operativo e tecnico in qualsiasi momento, oltre a playbook per tutte le azioni che potrebbero essere necessarie.

Test BCP/DR

Google esegue processi operativi che supportano i test BCP/RE della piattaforma con una cadenza più frequente rispetto ai nostri test BCP/RE annuali completi. Ogni mese eseguiamo variazioni di carico dal nostro ambiente live/live mentre eseguiamo aggiornamenti ai sistemi che eseguono il servizio. Questo processo prevede lo spegnimento di tutti i sistemi di un intero data center mentre il carico viene gestito dal data center peer. Durante questo processo, dopo l'esecuzione di eventuali aggiornamenti, il primo data center viene ripristinato e i servizi vengono eseguiti in modalità live/live di nuovo per verificare che non siano stati introdotti problemi. Il data center peer viene quindi disattivato per gli stessi aggiornamenti e poi riattivato. Google utilizza strumenti e tecniche per ridurre il traffico e inviare una piccola percentuale di traffico ai servizi aggiornati di recente per verificare la presenza di problemi o errori prima di tornare all'elaborazione del carico completo.

Questa procedura operativa coerente supera i "test" biennali di resilienza standard del settore del nostro servizio, rendendola un'attività operativa che si verifica più frequentemente.

Oltre ai processi operativi descritti sopra, Google conduce anche esercitazioni di BCP/RE almeno una volta all'anno, in cui i membri dei team di ingegneria e operazioni testano uno scenario di disastro reale. Ciò fornisce ulteriore formazione ed esperienza al nostro personale in merito ai nostri piani BCP/RE più ampi per l'intera azienda, oltre al servizio stesso.

I test di BCP/RE eseguiti da Google non utilizzano "esercizi di failover" o "sedi secondarie" perché tutto questo è integrato nel sistema in esecuzione.

Google gestisce i playbook per l'utilizzo da parte di tutti i team operativi e di ingegneria. Questi playbook vengono esaminati e aggiornati almeno una volta l'anno e utilizzati in tutti i nostri test e corsi di formazione BCP/RE.

I report annuali dei test BCP/RE sono disponibili per i clienti. Condividiamo inoltre i risultati delle nostre attività operative e i report annuali dei test di ripristino di emergenza con i nostri revisori di terze parti, che costituiscono la base per la revisione della conformità ai requisiti PCI, HIPAA, ISO, contrattuali e di altro tipo.

Test BCP/RE dei clienti

I clienti sono invitati a includere i servizi Apigee nei propri piani di RE. I clienti possono e devono valutare in che modo Apigee può reindirizzare il traffico in base alle esigenze per consentire ai clienti di mantenere i servizi per gli utenti finali anche durante un'interruzione del data center del cliente o un altro evento catastrofico. Tuttavia, questo livello di test non rientra nell'ambito del piano di DR di Apigee. Invitiamo i clienti a eseguire test di BCPRER sulle proprie applicazioni e a includere Apigee nel test.

RTO/RPO

Apigee non offre Recovery Point Objective (RPO) e Recovery Time Objective (RTO) per i clienti o nei contratti relativi alle attività di BCP/RE. Gli SLA sono l'equivalente cloud dei punti dati RTO/RPO. Poiché Apigee è un servizio basato sul cloud ridondante con servizi di gestione e runtime progettati con servizi live ridondanti, RTO e RPO possono essere considerati "in tempo reale". I clienti di una singola regione ricevono un minimo di servizi ridondanti in diversi data center all'interno della stessa regione. I clienti che desiderano livelli di ridondanza più elevati possono optare per servizi multiregionali.

Pandemic plan

Google include un piano per le pandemie nell'ambito del piano e dei processi generali di BCP/RE. Per le operazioni aziendali come l'assistenza, Google gestisce un team di assistenza globale 24 ore su 24, 7 giorni su 7 in più uffici e sedi remote. Se una pandemia in una parte del mondo ha un impatto su una delle nostre sedi di assistenza, il personale di altri uffici verrà avvisato e coprirà i turni gestiti normalmente dall'ufficio interessato. Per altri servizi aziendali, come le vendite, la forza lavoro è distribuita a livello globale. Tutti i team di Google sono attrezzati per lavorare da remoto se necessario. Gli strumenti utilizzati sono basati sul cloud e si prestano naturalmente a un piano di risposta alla pandemia.

Aggiornamenti

Google esamina e aggiorna il proprio piano di continuità aziendale e di RE almeno una volta all'anno. Le informazioni raccolte da incidenti, modifiche ai prodotti, standard di settore, attività di analisi del rischio e test di BCP/DR vengono utilizzate per aggiornare il piano.

Analisi dell'impatto sull'attività e valutazioni dei rischi

Google esegue annualmente un'analisi dell'impatto aziendale e una valutazione del rischio. I risultati dell'analisi dell'impatto sull'attività e della valutazione del rischio vengono assegnati in ordine di priorità e documentati nel sistema di monitoraggio dei problemi.