Ausfallsicherheit für SAP-Bereitstellungen in Google Cloud

In diesem Dokument werden Designüberlegungen beschrieben, die Ihnen helfen, resiliente und zuverlässige SAP-Systeme in Google Cloud auszuführen.

Infrastruktur und Software können ausfallen. Aufgrund der Ursachen und des Umfangs solcher Fehler müssen SAP-Systembereitstellungen bestimmten Prinzipien folgen, um die Google Cloud-Infrastruktur optimal zu nutzen. Die Kombination von Infrastrukturoptionen mit resilienten Architekturen für die SAP-Softwarebereitstellung sorgt für Datenintegrität und Schutz vor Datenverlust oder Systemausfall.

Optionen für Ausfallsicherheit und Zuverlässigkeit

Sie können resiliente und robuste Systeme bereitstellen, indem Sie Funktionen sowohl in der Infrastruktur- als auch in der Anwendungsschicht nutzen, um entweder Ausfälle zu absorbieren oder eine Wiederherstellung nach Ausfällen zu ermöglichen. Um für Ausfallsicherheit und Zuverlässigkeit bei der Bereitstellung von SAP-Systemen in Google Cloud zu sorgen, empfehlen wir die folgenden Optionen:

  • Plattformausfallsicherheit: Google Cloud-Dienste und ‑Produkte sind so konzipiert, dass sie ausfallsicher sind, und haben eine integrierte Redundanz, um unsere veröffentlichten Service Level Agreements zu erfüllen. Wenn Sie Ihre SAP-Systeme gemäß den Richtlinien und Best Practices von Google Cloud bereitstellen, erhöhen die zugrunde liegenden Plattformmechanismen die Resilienz Ihres SAP-Systems. So können Sie Ihre Geschäftstätigkeiten bei einem Ausfall oder Notfall fortsetzen.
  • Hochverfügbarkeit (High Availability, HA): Mit Infrastruktur- und Softwarekonfigurationen, die HA unterstützen, können Sie die automatische Systemwiederherstellung mit minimalen Unterbrechungen ermöglichen. Außerdem ist bei dieser Nutzung nur ein minimaler Eingriff erforderlich, falls Fehler in Teilen der zugrunde liegenden Infrastruktur oder Anwendungssoftware auftreten. HA soll Ihr System vor Ausfällen oder Leistungseinbußen einzelner Komponenten schützen, indem für Ihre Systemkomponenten Redundanz bereitgestellt wird.
  • Notfallwiederherstellung (Disaster Recovery, DR): Die Notfallwiederherstellung ermöglicht die Wiederherstellung des Geschäftsbetriebs bei einem Ausfall, der durch eine Notfallsituation verursacht wurde. Bei der Notfallwiederherstellung werden die Dienste und Anwendungen an einen physisch isolierten sekundären Standort verschoben, an dem der Betrieb fortgesetzt werden kann. Notfallwiederherstellungssysteme gehen über einen einzelnen Komponenten- oder Dienstfehler hinaus, um weniger häufige, aber schwerwiegendere Ereignisse abzumildern. Dazu gehören regionale Ereignisse wie Naturkatastrophen, Stromausfälle und lokale Ereignisse wie Brände oder menschliche Fehler. Zu den Bestimmungen für die Notfallwiederherstellung gehören:
    • Datenreplizierung:Sie können entweder die Replikation auf Software- oder Speicherebene verwenden, um sicherzustellen, dass Ihre Daten mit minimalen potenziellen Datenverlusten an einen sekundären Speicherort übertragen werden.
    • Sicherungen:Sie können ein System oder eine Datenbank mithilfe von Sicherungen wiederherstellen, die getrennt von Ihrem primären Datenspeicher gespeichert werden. Dazu können Snapshots oder Sicherungen verwendet werden, die in Cloud Storage hochgeladen wurden, sofern die Snapshots oder Sicherungen in einer anderen Region gespeichert sind als die, in der das System bereitgestellt wird.

Da diese Optionen sich ergänzen, können Sie Aspekte der einzelnen Optionen kombinieren, um die Ausfallsicherheit Ihrer SAP-Bereitstellungen zu erhöhen. Die von Ihnen ausgewählten Optionen wirken sich auf das Recovery Time Objective (RTO) und das Recovery Point Objective (RPO) Ihrer Bereitstellung aus. Daher müssen Sie auch die Kosten dieser Optionen im Hinblick auf ihre Auswirkungen auf die Systemresilienz und die Geschäftskontinuität bewerten. Wir empfehlen Ihnen, alle verfügbaren Optionen sorgfältig zu prüfen und sie so zu implementieren, dass sie Ihren Zielen für die Notfallwiederherstellung entsprechen.

Im folgenden Abschnitt wird ein Beispiel für eine SAP-Bereitstellung und die Auswirkungen verschiedener HA- und DR-Konfigurationen auf die Resilienz und Zuverlässigkeit beschrieben.

Beispielszenarien

Berücksichtigen Sie eine vertikale Skalierung der SAP S/4HANA-Bereitstellung in Google Cloud. In der folgenden Tabelle sind Beispielkonfigurationen für Hochverfügbarkeit und Notfallwiederherstellung aufgeführt, die auf diese Bereitstellung angewendet werden können, sowie die erwarteten Auswirkungen auf die Systemresilienz und Zuverlässigkeitsdimensionen wie Verfügbarkeit, RTO und RPO.

HA- oder Notfallwiederherstellungskonfiguration Dimension „Ausfallsicherheit“ oder „Zuverlässigkeit“ Erwartung
Eine HA-Konfiguration Beachten Sie dabei Folgendes:
  • us-central1 ist die primäre Region.
  • X4-Instanzen werden in zwei verschiedenen Zonen bereitgestellt, z. B. us-central1-a und us-central1-b.
Verfügbarkeit
  • 99,99% oder höher für das gesamte System.
  • 99,9% oder höher für jede einzelne Instanz.
Eine Notfallwiederherstellungskonfiguration, die die asynchrone SAP HANA-Systemreplikation auf ein vollständig im Arbeitsspeicher befindliches Notfallwiederherstellungssystem anwendet. Beachten Sie dabei Folgendes:
  • us-central1 ist der primäre Standort.
  • us-east4 ist der Standort für die Notfallwiederherstellung und darauf wird eine X4-Instanz ausgeführt, die dieselbe Größe wie der primäre Standort hat.
  • Die Daten werden vorab in die X4-Instanz mit SAP HANA am DR-Standort geladen.
  • Am Standort der Notfallwiederherstellung sind Anwendungsserver entweder bereitgestellt oder Sie haben Reservierungen für sie gekauft. Hinweis 1
Erholungszeit Einige Stunden, einschließlich der Zeit, die für die DNS-Weitergabe an die Clientsysteme erforderlich ist.
Wiederherstellungspunkt In Minuten, bezogen auf die letzte asynchrone Replikation.
Eine Notfallwiederherstellungskonfiguration, die Back-ups mit vorab bereitgestellter Infrastruktur verwendet Hinweis 1 Angenommen, Sie verwenden für ein System die Backint-basierte Sicherung und Wiederherstellung. Erholungszeit Zeit, die für die Wiederherstellung der Datenbank aus der Sicherung benötigt wird Hinweis 2.
Wiederherstellungspunkt Zum letzten Zeitpunkt in der SAP HANA-Logsicherung oder dem Snapshot.
Eine DR-Konfiguration, die Back-ups ohne vorab bereitgestellte Infrastruktur verwendet Hinweis 3 Angenommen, Sie verwenden für ein System die Backint-basierte Sicherung und Wiederherstellung. Erholungszeit Mehrere Tage für die Bereitstellung der Infrastruktur Hinweis 4 und die Wiederherstellung von Daten aus der Sicherung Hinweis 3.
Wiederherstellungspunkt Zum letzten Zeitpunkt in der SAP HANA-Logsicherung oder dem Snapshot.

Hinweise zur Tabelle:

  1. Sie können Ihre Notfallwiederherstellungslösung bereitstellen, ohne die erforderliche Infrastruktur vorab bereitzustellen, indem Sie die erforderlichen Ressourcen im Voraus reservieren. So wird sichergestellt, dass die erforderlichen Ressourcen verfügbar sind, wenn Sie Ihre Notfallwiederherstellungslösung aufgrund einer Katastrophe am primären Standort aktivieren müssen. Weitere Informationen finden Sie unter Zonale Reservierungen von Compute Engine-Ressourcen.
  2. Die Ausführungszeit eines Wiederherstellungsvorgangs hängt stark von der verwendeten Sicherungslösung und der Größe der Sicherungsdateien ab. Um die genaue Zeit für die Datenbankgröße und die Änderungsraten zu ermitteln, müssen Sie die Wiederherstellungsgeschwindigkeit der von Ihnen verwendeten Sicherungslösung bewerten, z. B. Backint oder Laufwerk-Snapshot.
  3. Wenn Sie eine Notfallwiederherstellungslösung bereitstellen, ohne die erforderlichen Ressourcen vorab bereitzustellen oder zu reservieren, kann es zu Situationen kommen, in denen die erforderlichen Ressourcen nicht verfügbar sind. Dies kann die Wiederherstellungszeit Ihrer Bereitstellung verlängern, was sich wiederum auf Ihre Geschäftsabläufe auswirkt.
  4. Bei Maschinentypen wie X4, die nicht auf Anfrage verfügbar sind und bestellt werden müssen, kann ohne vorherige Kapazitätsreservierung eine Vorlaufzeit von mehreren Wochen erforderlich sein.

Die Informationen in der vorstehenden Tabelle ergänzen bestehende Designs und Notfallwiederherstellungspläne, die Sie aus Branchenrichtlinien ableiten. Weitere Informationen finden Sie in den folgenden Ressourcen:

Empfehlungen für resiliente Bereitstellungen

In den folgenden Abschnitten finden Sie einen Überblick über HA- und DR-Konfigurationen, die wir für die Bereitstellung resilienter und zuverlässiger SAP-Arbeitslasten in Google Cloud empfehlen.

Wir empfehlen dringend, diese Empfehlungen für SAP-Arbeitslasten zu implementieren, auf denen geschäftskritische Produktionsabläufe gehostet werden. Sie können sie aber auch für nicht produktive SAP-Systeme implementieren, bei denen ein längerer Ausfall sich negativ auf Ihre Geschäftsabläufe auswirken kann.

Weitere Informationen zu den Empfehlungen finden Sie in den folgenden Abschnitten:

Empfehlungen für Hochverfügbarkeit

  • Verwenden Sie für die Bereitstellung von Instanzen mindestens zwei verschiedene Zonen innerhalb derselben Region.
  • Entfernen Sie Single Points of Failure. Dazu können Sie zusätzliche Ressourcen hinzufügen, die den fehlerhaften Diensten oder Anwendungskomponenten im Falle eines Ausfalls Ausfallsicherheit und Redundanz bieten.
  • Verwenden Sie regionale Dienste mit integrierter Redundanz. Verwenden Sie beispielsweise Filestore Enterprise für das Hosten freigegebener Dateien und Load Balancer von Cloud Load Balancing.
  • Verwenden Sie Automatisierung für das Failover. Durch Automatisierung ist bei einem Ausfall nur selten manuelles Eingreifen erforderlich und die Auswirkungen auf den Geschäftsbetrieb werden reduziert. Sie können beispielsweise einen Linux-Clustermanager wie Pacemaker verwenden.
  • Verwenden Sie redundante Netzwerkpfade. Achten Sie darauf, dass Sie eine redundante Verbindung zu Ihrer primären Region haben. Je nach Konnektivitätsanforderungen stehen verschiedene Optionen zur Verfügung. Weitere Informationen finden Sie unter Google Cloud-Verbindung.

    Um eine Verfügbarkeit von 99,99% für Ihre Verbindungen zu Google Cloud-Regionen zu erreichen, empfehlen wir Ihnen, mehrere Verbindungen zu konfigurieren. Weitere Informationen finden Sie unter 99, 99% Verfügbarkeit für Dedicated Interconnect einrichten.

  • Richtlinien für die Live-Migration und den automatischen Neustart für Compute Engine-Ressourcen aktivieren:

    • Wenn Sie Compute-Instanzen während von Google initiierter Wartungsereignisse online halten möchten, können Sie die Live-Migration verwenden. Legen Sie dazu die Eigenschaft onHostMaintenance auf die Option MIGRATE (Standard) fest. Legen Sie für Compute-Instanzen, die keine Live-Migration unterstützen, die automaticRestart-Eigenschaft auf true (Standard) fest. So kann Google jede Instanz neu starten, die nicht mehr reagiert. Weitere Informationen finden Sie unter Hostereignisse.
    • Für Compute-Instanzen, die keine Live-Migration oder geplante Wartung unterstützen, sind erweiterte Wartungssteuerungen verfügbar. Weitere Informationen finden Sie unter Erweiterte Wartungseinstellung für Knoten für einzelne Mandanten aktivieren.
  • Testen Sie vor der Produktionsphase den Failover in Ihrer Umgebung.

    • Damit Ihre HA-Konfiguration richtig eingerichtet ist und wie erwartet funktioniert, sollten Sie Fehlerszenarien testen, die das Beenden einer oder mehrerer Komponenten auslösen. Weitere Informationen finden Sie unter HA-Cluster in Google Cloud testen.
    • Sie können den Arbeitslastmanager verwenden, um Ihre HA-Konfiguration zu bewerten. Weitere Informationen finden Sie unter Bewertung durch den Arbeitslastmanager. Informationen zu den Bewertungen, die der Arbeitslastmanager für SAP-Arbeitslasten unterstützt, finden Sie unter Best Practices: Arbeitslastmanager für SAP.

Empfehlungen für die Notfallwiederherstellung

  • Die Notfallwiederherstellungslösung an einem anderen Standort als dem primären Standort hosten. Damit Ihre Notfallwiederherstellungslösung nicht von demselben Ereignis wie Ihr primäres System betroffen ist, sollten Sie dafür sorgen, dass beide an verschiedenen Standorten gehostet werden.

    Idealerweise muss sich der Standort für die Notfallwiederherstellung in einer anderen Region befinden. Wenn die Verwendung einer zweiten Region aufgrund von Bedenken hinsichtlich des Speicherorts oder der Souveränität von Daten jedoch keine gute Option ist, wenden Sie sich an das Google Cloud Sales-Team, um andere verfügbare Optionen zu besprechen.

    Das folgende Diagramm zeigt die allgemeine Architektur für eine SAP HANA-Bereitstellung in Google Cloud mit den folgenden HA- und Notfallwiederherstellungsvorkehrungen:

    • Für die Hochverfügbarkeit hat das primäre System zwei Knoten, die in verschiedenen Zonen innerhalb derselben Region bereitgestellt werden.
    • Für Ausfallsicherheit werden das primäre und das Notfallwiederherstellungssystem in verschiedenen Regionen mit asynchroner Replikation gehostet.

    Diagramm: Allgemeine Architektur für SAP HANA in Google Cloud mit Hochverfügbarkeit und Notfallwiederherstellung

  • Sorgen Sie für ausreichende Kapazität am Standort der Notfallwiederherstellung.

    • Entscheiden Sie, ob Ihr Notfallwiederherstellungssystem mit derselben Kapazität wie das primäre System oder mit einer reduzierten Kapazität ausgeführt werden soll. Bei Datenbanken wie SAP HANA muss der Standort für die Notfallwiederherstellung über genügend Ressourcen verfügen, um Ihre SAP-Arbeitslast produktiv auszuführen.
    • Prüfen Sie außerdem im Voraus, ob die erforderlichen Ressourcen an Ihrem DR-Standort verfügbar sind. Um die Ressourcenverfügbarkeit zu gewährleisten, können Sie sie entweder am DR-Standort bereitstellen oder im Voraus Reservierungen erwerben. Wenn Sie Reservierungen kaufen, können Sie Szenarien vermeiden, in denen nach einem Ausfall keine Ressourcen verfügbar sind, weil sie anderen Google Cloud-Kunden zugewiesen wurden. Das ist besonders wichtig für größere Compute-Instanztypen wie M2 oder X4. Informationen zu Reservierungen finden Sie unter Zonale Reservierungen von Compute Engine-Ressourcen.

    Um eine höhere Kosteneffizienz zu erreichen, kann die Infrastruktur an Ihrem DR-Standort für nicht produktionsbezogene Arbeitslasten verwendet und bei einem Notfallwiederherstellungsereignis auf die produktionsbezogene Arbeitslast umgestellt werden. Dies geht jedoch mit einer längeren Wiederherstellungszeit einher.

  • Prüfen Sie die Verbindung zum Standort der Notfallwiederherstellung. Wie bei redundanten Netzwerkpfaden zu Ihrem primären Standort sollten Sie auch zusätzliche Ausweichoptionen wie Cloud VPN hinzufügen.

  • Signale identifizieren, die eine Katastrophe anzeigen können. Anhand dieser Signale können Sie entscheiden, wann Ihre Notfallwiederherstellungslösung ausgelöst werden soll. Im Folgenden finden Sie einige Beispiele für solche Signale:

    • Informationen zur Verfügbarkeit von Google Cloud-Diensten aus Google Cloud Service Health
    • Vollständiger Verlust der Instanzverfügbarkeit, wie von Cloud Monitoring gemeldet und für Ihre Google Cloud-Projekte konfiguriert.
    • Mitteilungen vom Google Cloud Customer Care oder vom Vertreter Ihres Google Cloud-Kontos, in denen Sie über Ausfälle und mögliche Behebungszeiten informiert werden.
    • Logische Beschädigungen Ihrer Datenbank, die von den Nutzern oder Administratoren Ihres SAP-Systems festgestellt werden und nicht durch HA-Mechanismen behoben werden können.
  • Testen Sie Ihre Notfallwiederherstellungslösung regelmäßig. Sorgen Sie dafür, dass Ihre Lösung im Notfall funktioniert. Das kann sich auf Ihre täglichen Abläufe auswirken. Wenn es Ihre Abläufe zulassen, sollten Sie die primäre und die sekundäre Standorte symmetrisch betreiben und die Standorte alle drei bis sechs Monate wechseln.

  • Verwenden Sie die Replikation, um den besten Wiederherstellungspunkt zu erreichen. Die Replikation bietet eine nahezu Echtzeitversion Ihrer primären Website auf Ihrer DR-Website. Je nach Design Ihrer SAP-Arbeitslast sind die folgenden Replikationsoptionen verfügbar:

    • Replikation auf Datenbankebene mithilfe von Mechanismen wie der SAP HANA-Systemreplikation, die auf logischer Ebene zwischen dem primären und dem Notfallwiederherstellungsstandort repliziert.
    • Replikation auf Speicherebene mithilfe von Mechanismen wie PD Async Replication, die auf Blockspeicherebene replizieren. Je nach der Speicheroption, die für Ihre SAP-Arbeitslast verwendet wird, unterscheiden sich die verfügbaren Replikationsoptionen auf Speicherebene.

    Überwachen Sie die Replikation mit einem geeigneten Tool wie SAP HANA Cockpit. So können Sie prüfen, ob Ihre SAP-Arbeitslast vollständig repliziert wurde, bevor Ihre Notfallwiederherstellungslösung bei einem Notfallwiederherstellungsereignis ausgelöst wird.

  • Verwenden Sie Datensicherungen, um eine Wiederherstellung zu einem bestimmten Zeitpunkt zu ermöglichen.

    • Verwenden Sie zum Erstellen von Redundanz mehrere Speicherorte für Ihre Sicherungen. Beispiel:
      • Verwenden Sie beim Erstellen einer Sicherung mit der Backint-Funktion des Google Cloud-Agents für SAP einen biregionalen oder multiregionalen Bucket-Speicherort. Weitere Informationen finden Sie unter Cloud Storage-Buckets erstellen.
      • Verwenden Sie beim Erstellen einer Sicherung mit der Funktion Laufwerk-Snapshot des Agents Cloud Storage mit mehreren oder zwei Regionen. Informationen zu Cloud Storage-Bucket-Standorten finden Sie unter Bucket-Standorte.
    • Verwenden Sie inkrementelle oder differenzielle Sicherungen, einschließlich des Speicherns von Snapshots in Google Cloud.
    • Überwachen Sie Ihre Sicherungen, um sicherzustellen, dass sie gemäß Ihrer Sicherungsstrategie korrekt erstellt werden. Wenn Sie eine umfassende Datenschutzlösung benötigen, sollten Sie den Sicherungs- und Notfallwiederherstellungsdienst von Google Cloud verwenden.
    • Testen Sie Ihre Sicherungen regelmäßig, um sicherzustellen, dass sie im Notfall wiederhergestellt werden können, und prüfen Sie, wie lange es dauert, Ihr System oder Ihre Datenbank wiederherzustellen. Es empfiehlt sich, die Wiederherstellung einmal pro Sicherungszyklus zu testen, der in der Regel 28 Tage dauert.
    • Schützen Sie Ihre Sicherungen wie Ihr primäres System, z. B. mithilfe von Speicheraufbewahrungseinstellungen und Verschlüsselungsschlüsseln.

Weitere Empfehlungen

  • Bewerten Sie die Kosten der HA- und DR-Konfigurationen im Hinblick auf die Auswirkungen auf die folgenden Aspekte Ihres Unternehmens:
    • Potenzieller Ausfall von Betriebsabläufen und Geschäftstransaktionen.
    • Potenzieller Datenverlust, der zu einem Verlust von Umsatz, Kundenvertrauen oder Anbietervertrauen oder zu Verstößen gegen die Compliance-Richtlinien führt.
  • Jedes Unternehmen hat individuelle Anforderungen. Wenn für Ihre Situation eine individuellere Lösung erforderlich ist, wenden Sie sich bitte an den Google Cloud-Vertrieb.

Nächste Schritte