Pianificazione della continuità aziendale e ripristino di emergenza

Questa pagina si applica ad Apigee e Apigee hybrid.

Visualizza documentazione di Apigee Edge.

Apigee è una piattaforma multi-tenant, self-service e basata su cloud che viene eseguita in una configurazione completamente ridondante (live/live) su più data center in più regioni del mondo. Apigee utilizza Google Cloud per la sua piattaforma basata su cloud. Nell'ambito dei servizi che utilizziamo Google Cloud, utilizziamo più data center all'interno di ogni regione e gestiamo il traffico in tempo reale per in tutti questi data center. Non abbiamo un data center "live" e un data center "standby" (o "secondario" o "failover"). Abbiamo due (o più) data center gestire costantemente e contemporaneamente il traffico dei clienti in ogni regione a livello globale.

Piano RE/DR

La pianificazione della continuità aziendale e il ripristino di emergenza (BCP/DR) di Apigee è un piano per l'intera piattaforma e non contiene attività dettagliate per i singoli clienti. La piattaforma è invece configurata per elaborare le richieste di dati dei clienti indipendentemente da interruzioni e guasti. I dati continueranno a fluire anche se un intero data center è offline. Se un'intera regione dovesse essere offline, un cliente di una singola regione potrebbe riscontrare un'interruzione dei servizi di elaborazione delle API. Per i clienti che cercano più di "nella regione" di servizi ridondanti, Apigee disponibile a un livello globale di data center ridondanti in cui il traffico può serviti in più regioni o paesi in modo che se un'intera regione fosse offline, il flusso di dati continua a fluire.

I servizi per i clienti di una singola regione non vengono trasferiti automaticamente in un'altra regione a causa di possibili limitazioni geografiche all'accesso e all'elaborazione dei dati. I servizi Apigee sono ospitati per i clienti della regione identificata dal cliente. Poiché potrebbero esserci regolamenti specifici o impegni dei clienti nei confronti dei propri utenti in merito alle posizioni geografiche dei dati, i servizi non verranno spostati automaticamente in un'altra regione, in quanto ciò potrebbe potenzialmente compromettere gli impegni di Google nei confronti dei propri clienti o gli impegni dei clienti di Google nei confronti dei propri clienti.

Google non condivide il piano completo di BCP/RP con nessun singolo cliente, in quanto contiene informazioni sensibili interne e riferimenti ai nostri clienti. Le nostre norme sulla privacy impediscono la condivisione del piano BCP/RP della piattaforma con singoli clienti che potrebbero potenzialmente esporre i nomi di altri clienti. Offriamo lo stesso livello di privacy a tutti i clienti.

Gestione BCP/DR

Un team per la sicurezza delle informazioni di Google è responsabile della supervisione del programma di resilienza aziendale, mentre un Incident Commander di rotazione è responsabile della gestione e della risoluzione di tutti gli incidenti. Il comandante dell'incidente ha sempre a disposizione personale operativo e tecnico, nonché playbook per tutte le azioni che potrebbero essere necessarie.

Test BCP/DR

Google esegue procedure operative che supportano i test BCP/DR della piattaforma con una frequenza superiore rispetto ai nostri test BCP/DR annuali completi. Ogni mese eseguiamo oscillazioni di carico dal nostro ambiente live/live mentre eseguiamo gli aggiornamenti ai sistemi che eseguono il servizio. Questo processo prevede l'interruzione di un intero data center, mentre il carico viene gestito dal data center peer. Durante questa procedura, dopo l'esecuzione di eventuali aggiornamenti, viene riavviato il primo data center e i servizi vengono eseguiti di nuovo per verificare che non siano stati introdotti problemi. Il data center peer viene quindi messo offline per gli stessi aggiornamenti e poi rimesso online. Google utilizza strumenti e tecniche per svuotare il traffico e di inviare una piccola percentuale di traffico ai servizi aggiornati di recente per verificare la presenza di eventuali problemi o errori prima di tornare all'elaborazione a caricamento completo.

Questa procedura operativa coerente supera i "test" di resilienza semestrali di livello industriale del nostro servizio rendendola un'attività operativa che si verifica più di frequente.

Oltre ai processi operativi descritti sopra, Google conduce anche esercizi BCP/RE almeno una volta all'anno, durante i quali i membri del team operativo e di progettazione verificano un disastro reale in questo scenario. Ciò fornisce ulteriore formazione ed esperienza al nostro personale, nel piani BCP/RE per l'azienda nel suo insieme, oltre al servizio stesso.

Il test BCP/RE eseguito da Google non utilizza "esercizi di failover" o "località secondarie" perché tutto è integrato nel sistema in esecuzione.

Google gestisce i playbook per l'utilizzo da parte di tutti i team operativi e tecnici. Questi i playbook vengono esaminati e aggiornati almeno una volta all'anno e utilizzati in tutti i nostri test BCP/RE ed esercizi di formazione.

I report annuali dei test BCP/DR sono disponibili per i clienti. Inoltre, condividiamo con i nostri revisori di terze parti i risultati delle nostre attività operative e i report di test annuali di esercitazione del piano di risposta agli incidenti, che costituiscono la base per la verifica da parte del revisore della nostra conformità a PCI, HIPAA, ISO, contrattuali e altri requisiti.

Test BCP/RE del cliente

I clienti sono invitati a includere i servizi Apigee nei propri piani di RP. Clienti può e deve considerare come Apigee può reindirizzare il traffico secondo necessità affinché i clienti mantengano anche durante un'interruzione del data center del cliente o un altro evento di emergenza. Tuttavia, questo livello di test non rientra nell'ambito del piano di RE di Apigee. Incoraggiamo ai clienti di eseguire test BCP/RE sulle proprie applicazioni e includere Apigee nel test.

RTO/RPO

Apigee non offre obiettivi di punto di ripristino e di tempo di ripristino (RPO/RTO) per i clienti o nei contratti relativi alle attività di BCP/RE. Gli SLA sono l'equivalente cloud dei punti dati RTO/RPO. Poiché Apigee è un servizio basato su cloud ridondante con servizi di gestione e di runtime progettati con servizi in produzione ridondanti, sia RTO che RPO possono essere considerati "in tempo reale". I clienti di una singola regione ricevono un minimo di servizi ridondanti in diversi datacenter all'interno della stessa regione. I clienti che richiedono livelli di ridondanza più elevati possono optare per i servizi multiregione.

Piano relativo alla pandemia

Google include un piano per la pandemia che fa parte del piano e dei processi BCP/RE. Per operazioni aziendali come l'assistenza, Google gestisce un team di assistenza globale 24 ore su 24, 7 giorni su 7 più uffici e sedi remote. Se una pandemia in un'area del globo colpisce uno delle sedi dell'assistenza, il personale in altri uffici sarà avvisato e si occuperà dei turni normalmente gestite dall'ufficio colpito. Per altri servizi aziendali come le vendite, la forza lavoro è distribuita a livello globale. Tutti i team di Google sono attrezzati per lavorare da remoto se necessaria. Gli strumenti utilizzati sono basati su cloud e si prestano naturalmente a un piano di risposta alla pandemia.

Aggiornamenti

Google rivede e aggiorna il piano BCP/DR almeno una volta all'anno. Informazioni raccolte da incidenti, modifiche ai prodotti, standard di settore, attività di analisi del rischio e BCP/DB vengono usati per aggiornare il piano.

Analisi dell'impatto aziendale e valutazioni dei rischi

Google esegue un'analisi dell'impatto sull'attività e una valutazione del rischio ogni anno. I risultati del BIA e RA hanno la priorità e sono documentati nel sistema di monitoraggio dei problemi.