Pianificazione della continuità aziendale e ripristino di emergenza

Questa pagina si applica ad Apigee e Apigee hybrid.

Visualizza la documentazione di Apigee Edge.

Apigee è una piattaforma multitenant self-service basata su cloud che viene eseguita in una configurazione completamente ridondante (live/live) su più data center in più regioni del mondo. Apigee utilizza Google Cloud per la sua piattaforma basata su cloud. Nell'ambito dei servizi che creiamo su Google Cloud, utilizziamo diversi data center all'interno di ogni regione e offriamo il traffico in tempo reale per i nostri clienti all'interno di questi vari data center. Non disponiamo di un data center "in tempo reale" e di un data center "in standby" (o "secondario" o "failover"). Abbiamo due (o più) data center costantemente e contemporaneamente a gestire il traffico dei clienti in ogni regione a livello globale.

Piano BCP/RE

La pianificazione della continuità aziendale e il ripristino di emergenza (BCP/RE) di Apigee sono un piano a livello di piattaforma che non contiene attività dettagliate per i singoli clienti. Piuttosto, la piattaforma è configurata per elaborare le richieste di dati dei clienti indipendentemente da interruzioni e interruzioni del servizio. I dati continueranno a essere trasmessi anche se un intero data center è offline. Se un'intera regione dovesse andare offline, un cliente in una singola regione potrebbe riscontrare un'interruzione dei servizi di elaborazione delle API. Per i clienti che cercano servizi ridondanti diversi da quelli "nella loro regione", Apigee è disponibile a un livello ridondante a livello globale di data center ridondanti, in cui il traffico può essere fornito in più regioni o paesi, in modo che se un'intera regione dovesse andare offline, i dati continueranno a essere trasmessi.

I servizi clienti in una singola regione non vengono trasferiti automaticamente in un'altra regione a causa di possibili limitazioni geografiche relative al trattamento e all'accesso ai dati. I servizi Apigee sono ospitati per i clienti nella regione identificata dal cliente. Poiché potrebbero essere in vigore normative specifiche o impegni dei clienti nei confronti dei loro utenti in merito alle località geografiche dei dati, i servizi non verranno spostati automaticamente in un'altra regione, in quanto ciò potrebbe compromettere gli impegni di Google nei confronti dei propri clienti o quelli dei clienti di Google nei loro confronti.

Google non condivide il piano BCP/RE completo con i singoli clienti, in quanto contiene informazioni sensibili interne e riferimenti ai nostri clienti. Le nostre norme sulla privacy impediscono la condivisione del piano BCP/RE della piattaforma con singoli clienti che potrebbero esporre nomi di altri clienti. Offriamo lo stesso livello di privacy a ogni cliente.

Gestione BCP/RE

Un team di sicurezza delle informazioni di Google è responsabile della supervisione del programma di resilienza aziendale, mentre un Incident Commander a rotazione è responsabile della gestione e della risoluzione di tutti gli incidenti. Incident Commander ha personale operativo e tecnico sempre disponibile, oltre ai playbook per tutte le azioni che potrebbero essere necessarie.

Test BCP/DR

Google esegue processi operativi che supportano i test BCP/RE della piattaforma con una frequenza più frequente rispetto ai test annuali BCP/DR completi. Ogni mese eseguiamo oscillazioni di carico dal nostro ambiente live/live, mentre eseguiamo aggiornamenti ai sistemi che eseguono il servizio. Questo processo prevede la rimozione di un intero data center, mentre il carico viene gestito dal data center peer. Durante questo processo, dopo l'esecuzione di eventuali aggiornamenti, viene ripristinato il primo data center e i servizi vengono eseguiti di nuovo in tempo reale per verificare che non siano stati introdotti problemi. Successivamente, il data center peer viene disattivato per gli stessi aggiornamenti e riportato di nuovo online. Google utilizza strumenti e tecniche per svuotare il traffico e inviare una piccola percentuale di traffico ai servizi aggiornati di recente per verificare la presenza di eventuali problemi o errori prima di tornare all'elaborazione completa del carico.

Questo processo operativo coerente supera i "test" semestrali di resilienza standard del settore del nostro servizio, rendendolo un'attività operativa che viene eseguita con maggiore frequenza.

Oltre ai processi operativi descritti sopra, Google conduce anche esercizi BCP/RE almeno una volta all'anno, in cui i membri dei team operativi e di progettazione verificano uno scenario di emergenza reale. Ciò fornisce al nostro personale ulteriore formazione ed esperienza sui nostri piani BCP/RE più ampi per l'azienda nel suo complesso, oltre al servizio stesso.

Il test BCP/RE eseguito da Google non utilizza "esercizi di failover" o "località secondarie" perché sono tutti integrati nel sistema in esecuzione.

Google gestisce i playbook per l'utilizzo da parte di tutti i team operativi e tecnici. Questi playbook vengono esaminati e aggiornati almeno una volta all'anno e utilizzati in tutti i nostri test BCP/RE ed esercizi di addestramento.

Per i clienti sono disponibili report annuali sui test BCP/RE. Condividiamo inoltre i risultati delle nostre attività operative e i report annuali sui test di esercizio di RE con i nostri revisori di terze parti, che costituiscono la base per la revisione da parte del revisore della nostra conformità ai requisiti PCI, HIPAA, ISO, contrattuali e di altro tipo.

Test BCP/RE dei clienti

Consigliamo ai clienti di implementare i servizi Apigee nei propri piani di RE. I clienti possono e devono considerare come Apigee può reindirizzare il traffico in base alle esigenze dei clienti per mantenere i servizi per gli utenti finali anche durante l'interruzione di un data center del cliente o un altro evento di emergenza. Tuttavia, questo livello di test non rientra nell'ambito del piano di RE di Apigee. Incoraggiamo i clienti a eseguire test BCP/RE sulle proprie applicazioni e a includere Apigee nel test.

RTO/RPO

Apigee non offre Recovery Point Objective e RTO (Recovery Time Objective) per i clienti o nei contratti relativi ad attività BCP/RE. Gli SLA sono l'equivalente cloud dei punti dati RTO/RPO. Poiché Apigee è un servizio ridondante basato su cloud con servizi di gestione e runtime progettati con servizi in tempo reale ridondanti, RTO e RPO possono essere entrambi considerati "in tempo reale". I clienti che operano in un'unica regione ricevono un minimo di servizi ridondanti in data center diversi all'interno della stessa regione. I clienti che desiderano livelli più elevati di ridondanza possono optare per servizi multiregionali.

Piano per la pandemia

Google include un piano per la pandemia nell'ambito del piano e dei processi BCP/RE complessivi. Per operazioni aziendali come l'assistenza, Google gestisce un team di assistenza globale disponibile 24 ore su 24, 7 giorni su 7, in più uffici e località remote. Se una pandemia in una zona del mondo colpisce una delle nostre sedi di assistenza, verrà avvisato il personale negli altri uffici, che coprirà i turni normalmente gestiti dall'ufficio interessato. Per altri servizi aziendali come le vendite, la forza lavoro è distribuita a livello globale. Tutti i team di Google sono in grado di lavorare da remoto, se necessario. Gli strumenti utilizzati sono basati su cloud e si prestano naturalmente a un piano di risposta alla pandemia.

Aggiornamenti

Google esamina e aggiorna il piano BCP/RE almeno una volta all'anno. Le informazioni raccolte da incidenti, modifiche ai prodotti, standard di settore, attività di analisi del rischio e test BCP/DB vengono utilizzate per aggiornare il piano.

Analisi dell'impatto aziendale e valutazioni dei rischi

Google conduce ogni anno un'analisi dell'impatto aziendale e una valutazione dei rischi. I risultati della BIA e dell'RA sono indicati in ordine di priorità e documentati nel sistema di monitoraggio dei problemi.