Pianificazione della continuità aziendale e ripristino di emergenza

Questa pagina si applica ad Apigee e Apigee hybrid.

Visualizza la documentazione di Apigee Edge.

Apigee è una piattaforma multi-tenant, self-service e basata su cloud che viene eseguita in una configurazione completamente ridondante (live/live) su più data center in più regioni del mondo. Apigee utilizza Google Cloud per la sua piattaforma basata su cloud. Nell'ambito dei servizi che sviluppiamo su Google Cloud, utilizziamo più data center all'interno di ogni regione e gestiamo il traffico in tempo reale per i nostri clienti su questi data center. Non abbiamo un data center "live" e un data center "standby" (o "secondario" o "failover"). Abbiamo due o più data center che gestiscono costantemente e contemporaneamente il traffico dei clienti in ogni regione a livello globale.

Piano BCP/RP

La pianificazione della continuità aziendale e il ripristino di emergenza (BCP/DR) di Apigee è un piano per l'intera piattaforma e non contiene attività dettagliate per i singoli clienti. La piattaforma è invece configurata per elaborare le richieste di dati dei clienti indipendentemente da interruzioni e guasti. I dati continueranno a fluire anche se un intero data center è offline. Se un'intera regione dovesse essere offline, un cliente di una singola regione potrebbe riscontrare un'interruzione dei servizi di elaborazione delle API. Per i clienti che cercano più di servizi ridondanti "in-region", Apigee è disponibile a un livello di data center ridondanti a livello globale in cui il traffico può essere gestito in più regioni o paesi, in modo che, se un'intera regione dovesse andare offline, i dati continuerebbero a fluire.

I servizi per i clienti di una singola regione non vengono trasferiti automaticamente in un'altra regione a causa di possibili limitazioni geografiche all'accesso e all'elaborazione dei dati. I servizi Apigee vengono ospitati per i clienti nella regione identificata dal cliente. Poiché potrebbero esserci regolamenti specifici o impegni dei clienti nei confronti dei propri utenti in merito alle posizioni geografiche dei dati, i servizi non verranno spostati automaticamente in un'altra regione, in quanto ciò potrebbe potenzialmente compromettere gli impegni di Google nei confronti dei propri clienti o gli impegni dei clienti di Google nei confronti dei propri clienti.

Google non condivide il piano completo di BCP/RP con nessun singolo cliente, in quanto contiene informazioni sensibili interne e riferimenti ai nostri clienti. Le nostre norme sulla privacy impediscono la condivisione del piano BCP/RP della piattaforma con singoli clienti che potrebbero potenzialmente esporre i nomi di altri clienti. Offriamo lo stesso livello di privacy a ogni cliente.

Gestione BCP/DR

Un team per la sicurezza delle informazioni di Google è responsabile della supervisione del programma di resilienza aziendale, mentre un Incident Commander di rotazione è responsabile della gestione e della risoluzione di tutti gli incidenti. Il comandante dell'incidente ha sempre a disposizione personale operativo e tecnico, nonché playbook per tutte le azioni che potrebbero essere necessarie.

Test BCP/RP

Google esegue procedure operative che supportano i test BCP/DR della piattaforma con una frequenza superiore rispetto ai test BCP/DR annuali completi. Ogni mese eseguiamo oscillazioni del carico dal nostro ambiente live/live mentre aggiorniamo i sistemi che eseguono il servizio. Questo processo prevede l'interruzione di un intero data center mentre il carico viene gestito dal data center peer. Durante questa procedura, dopo l'esecuzione di eventuali aggiornamenti, viene riavviato il primo data center e i servizi vengono eseguiti di nuovo per verificare che non siano stati introdotti problemi. Il data center peer viene quindi messo offline per gli stessi aggiornamenti e poi rimesso online. Google utilizza strumenti e tecniche per ridurre il traffico e inviare una piccola percentuale di traffico ai servizi aggiornati di recente per verificare la presenza di eventuali problemi o errori prima di tornare all'elaborazione a pieno carico.

Questa procedura operativa coerente supera i "test" di resilienza semestrali di livello industriale del nostro servizio rendendola un'attività operativa che si verifica più di frequente.

Oltre alle procedure operative descritte sopra, Google esegue anche esercitazioni BCP/DR almeno una volta all'anno in cui i membri del team di ingegneria e operazioni testano uno scenario di disastro reale. Ciò offre formazione ed esperienza aggiuntive al nostro personale sui nostri piani BCP/DR più ampi per l'azienda nel suo complesso, oltre al servizio stesso.

I test BCP/DR eseguiti da Google non utilizzano "esercizi di failover" o "località secondarie" perché tutto questo è integrato nel sistema in esecuzione.

Google gestisce i playbook per l'utilizzo da parte di tutti i team operativi e tecnici. Questi playbook vengono esaminati e aggiornati almeno una volta all'anno e utilizzati in tutti i nostri test e esercitazioni di formazione BCP/RP.

I report annuali dei test BCP/DR sono disponibili per i clienti. Inoltre, condividiamo con i nostri revisori di terze parti i risultati delle nostre attività operative e i report di test annuali di esercitazione del piano di risposta agli incidenti, che costituiscono la base per la verifica da parte del revisore della nostra conformità a PCI, HIPAA, ISO, contrattuali e altri requisiti.

Test BCP/DR del cliente

I clienti sono invitati a includere i servizi Apigee nei propri piani di RP. I clienti possono e devono valutare in che modo Apigee può reindirizzare il traffico in base alle esigenze per mantenere i servizi per gli utenti finali anche durante un'interruzione del data center del cliente o un altro evento catastrofico. Tuttavia, questo livello di test non rientra nell'ambito del piano di RP di Apigee. Invitiamo i clienti a eseguire test di BCP/RP sulle proprie applicazioni e a includere Apigee nel test.

RTO/RPO

Apigee non offre obiettivi di punto di ripristino e tempo di ripristino (RPO/RTO) per i clienti o nei contratti relativi alle attività di BCP/RE. Gli SLA sono l'equivalente cloud dei punti dati RTO/RPO. Poiché Apigee è un servizio basato su cloud ridondante con servizi di gestione e di runtime progettati con servizi in produzione ridondanti, sia RTO che RPO possono essere considerati "in tempo reale". I clienti in una singola regione ricevono un minimo di servizi ridondanti in diversi datacenter all'interno della stessa regione. I clienti che richiedono livelli di ridondanza più elevati possono optare per i servizi multi-regione.

Piano per la pandemia

Google include un piano per le pandemie all'interno del piano e delle procedure generali di BCP/RP. Per le operazioni aziendali, come l'assistenza, Google gestisce un team di assistenza globale 24 ore su 24, 7 giorni su 7, in più sedi e località remote. Se una pandemia in una parte del mondo interessa una delle nostre sedi di assistenza, il personale di altri uffici verrà avvisato e coprirà i turni normalmente gestiti dall'ufficio interessato. Per altri servizi aziendali, come le vendite, la forza lavoro è distribuita a livello globale. Tutti i team di Google sono attrezzati per lavorare da remoto, se necessario. Gli strumenti utilizzati sono basati su cloud e si prestano naturalmente a un piano di risposta alla pandemia.

Aggiornamenti

Google rivede e aggiorna il piano BCP/DR almeno una volta all'anno. Le informazioni raccolte da incidenti, modifiche ai prodotti, standard di settore, attività di analisi del rischio e test BCP/DB vengono utilizzate per aggiornare il piano.

Analisi dell'impatto aziendale e valutazioni dei rischi

Google esegue un'analisi dell'impatto aziendale e una valutazione del rischio ogni anno. I risultati della BIA e dell'RA vengono assegnati una priorità e documentati nel sistema di monitoraggio dei problemi.