Notfallplan und Notfallwiederherstellung

Diese Seite gilt für Apigee und Apigee Hybrid.

Apigee Edge-Dokumentation aufrufen

Apigee ist eine mehrinstanzenfähige, Self-Service-Cloud-Plattform, die in einer vollständig redundanten (Live-/Live-)Konfiguration über mehrere Rechenzentren in mehreren Regionen der Welt ausgeführt wird. Apigee verwendet Google Cloud für seine cloudbasierte Plattform. Als Teil der Dienste, die wir auf Google Cloud aufbauen, verwenden wir mehrere Rechenzentren in jeder Region und Dienst-Live-Traffic für unsere Kunden in diesen Rechenzentren. Wir haben kein "Live"-Rechenzentrum und kein "Standby"- (oder "sekundäres" oder "Failover") Rechenzentrum. Wir haben zwei (oder mehr) Rechenzentren, die weltweit den Traffic der Kunden in jeder Region gleichzeitig bedienen.

BCP/DR-Plan

Apigee Business Continuity Planning and Disaster Recovery (BCP/DR) ist ein plattformweiter Plan und enthält keine detaillierten Aufgaben für einzelne Kunden. Die Plattform ist so konfiguriert, dass Kundendatenanfragen unabhängig von Störungen und Ausfällen verarbeitet werden. Die Daten werden auch dann weiter fließen, wenn ein ganzes Rechenzentrum offline ist. Wenn eine ganze Region offline gehen würde, könnte ein Kunde in einer Region einen Ausfall der API-Verarbeitungsdienste feststellen. Für Kunden, die mehr als "regionale" redundante Dienste benötigen, ist Apigee auf einem global redundanten Rechenzentrum verfügbar, in dem Traffic in mehreren Regionen oder Ländern bedient werden kann, sodass auch beim Ausfall einer ganzen Region die Daten weiterhin fließen.

Kundendienste aus einer einzelnen Region werden aufgrund möglicher geografischer Einschränkungen bei der Datenverarbeitung und dem Zugriff nicht automatisch in eine andere Region übertragen. Apigee-Dienste werden für Kunden in der vom Kunden angegebenen Region gehostet. Da es für Nutzer an geografischen Standorten mit Daten bestimmte Vorschriften oder Kundenverpflichtungen geben kann, werden Dienste nicht automatisch in eine alternative Region verschoben, da dies möglicherweise die Verpflichtungen von Google gegenüber seinen Kunden oder Google-Kunden gefährden könnte.

Google stellt den vollständigen BCP-/DR-Plan nicht für einzelne Kunden zur Verfügung, da er interne vertrauliche Informationen und Verweise für unsere Kunden enthält. Unsere Datenschutzerklärung verhindert die Freigabe des Plattform-BCP/DR-Plans an einzelne Kunden, die möglicherweise andere Kundennamen sichtbar machen. Wir bieten jedem Kunden den gleichen Datenschutz.

BCP/DR-Verwaltung

Das Informationssicherheitsteam von Google ist für die Aufsicht des Business Resiliency-Programms verantwortlich und ein rotierender Incident Commander ist für die Verwaltung und Behebung aller Vorfälle zuständig. Das Incident Commander verfügt über operatives und technisches Personal, das jederzeit einsatzbereit ist, sowie Playbooks für alle eventuell erforderlichen Maßnahmen.

BCP/DR-Tests

Google führt operative Prozesse aus, die häufigere Ausführungen von BCP/DR-Tests der Plattform unterstützen als unser vollständiger jährlicher BCP/DR-Test. Jeden Monat führen wir Lastschwankungen aus unserer Live-/Live-Umgebung aus, während wir die Systeme aktualisieren, auf denen der Dienst ausgeführt wird. Dieser Prozess beinhaltet das Herunterfahren des gesamten System eines Rechenzentrums, während die Last vom Peer-Rechenzentrum übernommen wird. Während dieses Vorgangs wird nach der Durchführung von Aktualisierungen das erste Rechenzentrum wiederhergestellt und Dienste wieder live/live ausgeführt, um zu prüfen, ob Probleme auftreten. Anschließend wird das Peer-Rechenzentrum für dieselben Aktualisierungen deaktiviert und dann wieder online geschaltet. Google verwendet Tools und Techniken, um Traffic umzuleiten und einen kleinen Prozentsatz des Traffics an kürzlich aktualisierte Dienste zu senden und damit zu prüfen, ob Probleme oder Fehler vorliegen, bevor wieder die vollständige Lastverarbeitung ausgeführt wird.

Dieser konsistente operative Prozess geht über die branchenüblichen halbjährlichen Tests zur Ausfallsicherheit unseres Dienstes hinaus, da sie nun in Form einer operativen Aufgabe häufiger ausgeführt werden können.

Zusätzlich zu den oben beschriebenen Abläufen führt Google mindestens einmal jährlich BCP/DR-Übungen durch, bei denen Mitarbeiter der operativen und Entwicklungsteams ein reales Notfallszenario testen. Unsere Mitarbeitern profitieren dadurch von zusätzlichem Training und zusätzlicher Erfahrung hinsichtlich unserer größeren BCP/DR-Pläne für das Unternehmen als Ganzes zusätzlich zum Dienst selbst.

Die von Google durchgeführten BCP/DR-Tests verwenden keine "Failover-Übungen" oder "sekundären Standorte", da all dies in das laufende System eingebunden ist.

Google verwaltet Playbooks, die von allen operativen Teams und Entwicklungsteams verwendet werden können. Diese Playbooks werden mindestens einmal jährlich überarbeitet und aktualisiert und in allen BCP/DR-Tests und Trainingsübungen verwendet.

Für Kunden stehen jährliche BCP/DR-Testberichte zur Verfügung. Wir teilen auch die Ergebnisse unserer operativen Aufgaben und die jährlichen DR-Übungsberichte mit unseren externen Prüfern. Diese bilden die Grundlage für die Auditor-Überprüfung der Compliance mit PCI, HIPAA, ISO, Verträgen und anderen Anforderungen.

Kunden-BCP/DR-Tests

Kunden wird empfohlen, eigene DR-Pläne mit Apigee-Diensten zu verknüpfen. Kunden können und sollten überlegen, wie Apigee den Traffic nach Bedarf weiterleiten kann, damit Kunden Dienste auch bei einem Ausfall des Kundenrechenzentrums oder anderen Notfällen verwalten können. Diese Testebene liegt jedoch nicht im Rahmen des Apigee DR-Plans. Wir empfehlen Kunden, BCP-/DR-Tests für ihre eigenen Anwendungen durchzuführen und Apigee in den Test aufzunehmen.

RTO/RPO

Apigee bietet keine Recovery Point Objectives und Recovery Time Objectives (RPO/RTO) für Kunden oder in Verträgen zu BCP/DR-Aktivitäten. SLAs sind die Cloud-Entsprechung der RTO/RPO-Datenpunkte. Da Apigee ein redundanter cloudbasierter Dienst ist, bei dem sowohl die Verwaltungs- als auch die Laufzeitdienste mit redundanten Live-Diensten konzipiert werden, werden RTO und RPO beide als "Echtzeit" betrachtet. Kunden mit einer einzigen Region erhalten eine Mindestmenge an redundanten Diensten in verschiedenen Rechenzentren innerhalb derselben Region. Kunden, die ein höheres Maß an Redundanz wünschen, können sich für multiregionale Dienste entscheiden.

Pandemieplan

Google umfasst einen Pandemieplan als Teil des allgemeinen BCP-/DR-Plans und der Prozesse. Für Geschäftsvorgänge wie den Support betreibt Google rund um die Uhr ein globales Supportteam an mehreren Niederlassungen und Standorten. Wenn sich eine Pandemie in einem Bereich der Welt auf einen unserer Supportstandorte auswirkt, werden die Mitarbeiter in anderen Zweigstellen benachrichtigt und decken die Änderungen ab, die normalerweise vom betroffenen Büro bearbeitet werden. Bei anderen Unternehmensdiensten wie dem Vertrieb wird die Arbeitskraft global verteilt. Alle Google-Teams sind so ausgestattet, dass sie bei Bedarf online arbeiten können. Die verwendeten Tools sind cloudbasiert und eignen sich für die Einhaltung eines Pandemieplans.

Updates

Google überarbeitet und aktualisiert unseren BCP/DR-Plan mindestens einmal jährlich. Die aus Vorfällen, Produktänderungen, Branchenstandards, Risikoanalyseaktivitäten und BCP/DB-Tests erfassten Informationen werden zur Aktualisierung des Plans verwendet.

Geschäftsauswirkungsanalyse und Risikobewertungen

Google führt jährlich eine Geschäftsauswirkungsanalyse und eine Risikobewertung durch. Die Ergebnisse dieser Analysen und Bewertungen werden priorisiert und im Problemverfolgungssystem dokumentiert.