In diesem Dokument des Google Cloud Well-Architected Framework werden Prinzipien und Empfehlungen beschrieben, die Ihnen helfen, Anwendungen für die Finanzdienstleistungsbranche (Financial Services Industry, FSI) in Google Cloud zu entwerfen, zu entwickeln und zu verwalten, die Ihren betrieblichen, Sicherheits-, Zuverlässigkeits-, Kosten- und Leistungszielen entsprechen.
Die Zielgruppe für dieses Dokument umfasst Entscheidungsträger, Architekten, Administratoren, Entwickler und Betreiber, die FSI-Arbeitslasten in Google Cloudentwerfen, erstellen, bereitstellen und verwalten. Beispiele für FSI-Organisationen, die von dieser Anleitung profitieren könnten, sind Banken, Anbieter von Zahlungsinfrastruktur, Versicherungsunternehmen und Betreiber von Kapitalmärkten.
Für Finanzinstitute gelten besondere Überlegungen, insbesondere in Bezug auf Architektur und Resilienz. Diese Überlegungen werden hauptsächlich durch regulatorische, Risiko- und Leistungsanforderungen bestimmt. Dieses Dokument bietet allgemeine Richtlinien, die auf Designüberlegungen basieren, die wir bei einer Vielzahl von FSI-Kunden weltweit beobachtet haben. Unabhängig davon, ob sich Ihre Arbeitslasten vollständig in der Cloud befinden oder auf Hybrid- oder Multi-Cloud-Bereitstellungen umgestellt werden, hilft Ihnen der Leitfaden in diesem Dokument, Arbeitslasten auf Google Cloud zu entwerfen, die Ihren behördlichen Anforderungen und unterschiedlichen Risikoperspektiven entsprechen. Die Anleitung geht möglicherweise nicht auf die besonderen Herausforderungen jeder Organisation ein. Es bietet eine Grundlage, die viele der primären regulatorischen Anforderungen von Finanzinstituten erfüllt.
Eine der größten Herausforderungen beim Entwerfen von Cloud-Arbeitslasten besteht darin, Cloud-Bereitstellungen mit lokalen Umgebungen in Einklang zu bringen, insbesondere wenn Sie einheitliche Ansätze für Sicherheit, Zuverlässigkeit und Stabilität anstreben. Cloud-Dienste bieten die Möglichkeit, Ihre Architektur grundlegend zu überdenken, um den Verwaltungsaufwand zu reduzieren, Kosten zu optimieren, die Sicherheit zu erhöhen und die Zuverlässigkeit und Ausfallsicherheit zu verbessern.
Auf den folgenden Seiten werden die Grundsätze und Empfehlungen beschrieben, die für FSI-Arbeitslasten für jede Säule des Well-Architected Framework gelten:
- FSI-Perspektive: Operative Exzellenz
- Sicherheit aus Sicht von Finanzdienstleistungsfirmen
- Finanzdienstleistungsfirmen: Zuverlässigkeit
- FSI-Perspektive: Kostenoptimierung
- Perspektive für Finanzdienstleistungsfirmen: Leistungsoptimierung
Beitragende
Autoren:
- Gino Pelliccia | Principal Architect
- Alex Stepney | Lead Principal Architect
- Phil Bryan | EMEA FSI Lead Principal Architect
- Stathis Onasoglou | EMEA FSI Principal Architect
- Sam Moss | EMEA FinOps Professional Services Lead
Weitere Beitragende:
- Daniel Lees | Cloudsicherheitsarchitekt
- Danielle Fisla | US FS Portfolio Lead, PSO
- Filipe Gracio, PhD | Customer Engineer, AI/ML Specialist
- Henry Cheng | Principal Architect
- John Bacon | Partner Solutions Architect
- Jose Andrade | Customer Engineer, SRE Specialist
- Kumar Dhanagopal | Cross-Product Solution Developer
- Laura Hyatt | Customer Engineer, FSI
- Michael Yang | Industry Solutions AI Consulting Lead, FSI
- Nicolas Pintaux | Customer Engineer, Application Modernization Specialist
- Omar Saenz | EMEA Partner Engineer, Security
- Radhika Kanakam | Program Lead, Google Cloud Well-Architected Framework
- Steve McGhee | Reliability Advocate
- Tarun Sharma | Principal Architect
- Yuriy Babenko | Customer Engineer, FSI
FSI-Perspektive: Operative Exzellenz
Dieses Dokument im Google Cloud Well-Architected Framework: FSI perspective bietet einen Überblick über die Prinzipien und Empfehlungen zum Erstellen, Bereitstellen und Ausführen robuster Arbeitslasten für die Finanzdienstleistungsbranche (Financial Services Industry, FSI) in Google Cloud. Mit diesen Empfehlungen können Sie grundlegende Elemente wie Beobachtbarkeit, Automatisierung und Skalierbarkeit einrichten. Die Empfehlungen in diesem Dokument entsprechen der Säule „Operative Exzellenz“ des Well-Architected Framework.
Operational Excellence ist für FSI-Arbeitslasten in Google Cloud aufgrund der stark regulierten und sensiblen Natur solcher Arbeitslasten von entscheidender Bedeutung. Operational Excellence sorgt dafür, dass sich Cloud-Lösungen an sich ändernde Anforderungen anpassen lassen und Ihre Anforderungen an Wert, Leistung, Sicherheit und Zuverlässigkeit erfüllen. Fehler in diesen Bereichen können zu erheblichen finanziellen Verlusten, behördlichen Strafen und Rufschädigung führen.
Operational Excellence bietet die folgenden Vorteile für Arbeitslasten von Finanzinstituten:
- Vertrauen und Reputation bewahren: Finanzinstitute sind stark auf das Vertrauen ihrer Kunden angewiesen. Betriebsstörungen oder Sicherheitsverletzungen können dieses Vertrauen erheblich untergraben und zu Kundenabwanderung führen. Operational Excellence trägt dazu bei, diese Risiken zu minimieren.
Strenge Compliance-Anforderungen erfüllen: Die FSI unterliegt zahlreichen und komplexen Vorschriften, z. B.:
- EU-Datenschutz-Grundverordnung (DSGVO)
- EU Digital Operational Resilience Act (DORA)
- California Consumer Privacy Act (CCPA)
- Branchenspezifische Vorschriften
Robuste operative Prozesse, Monitoring und Vorfallmanagement sind unerlässlich, um die Einhaltung von Vorschriften nachzuweisen und Strafen zu vermeiden.
Geschäftskontinuität und Ausfallsicherheit gewährleisten: Finanzmärkte und ‑dienste sind oft rund um die Uhr in Betrieb. Daher sind Hochverfügbarkeit und eine effektive Notfallwiederherstellung von größter Bedeutung. Die Prinzipien der operativen Exzellenz leiten das Design und die Implementierung robuster Systeme. Weitere Informationen finden Sie im Zuverlässigkeits-Pfeiler.
Sensible Daten schützen: Finanzinstitute verarbeiten riesige Mengen an hochsensiblen Kunden- und Finanzdaten. Strenge operative Kontrollen, Sicherheitsüberwachung und schnelle Reaktion auf Vorfälle sind entscheidend, um Datenschutzverletzungen zu verhindern und den Datenschutz aufrechtzuerhalten. Weitere Informationen finden Sie im Sicherheitsbereich.
Leistung für kritische Anwendungen optimieren: Viele Finanzanwendungen wie Handelsplattformen und Echtzeitanalysen erfordern hohe Leistung und niedrige Latenz. Um diese Leistungsanforderungen zu erfüllen, benötigen Sie ein hochoptimiertes Design für Computing, Netzwerk und Speicher. Weitere Informationen finden Sie im Leistungsoptimierungspfeiler.
Kosten effektiv verwalten: Neben Sicherheit und Zuverlässigkeit ist für Finanzinstitute auch die Kosteneffizienz wichtig. Die operative Exzellenz umfasst Praktiken zur Optimierung der Ressourcenauslastung und zur Verwaltung von Cloud-Ausgaben. Weitere Informationen zu diesem Thema finden Sie im Pfeiler zur Kostenoptimierung.
Die Empfehlungen zur operativen Exzellenz in diesem Dokument sind den folgenden Kernprinzipien zugeordnet:
- SLAs und entsprechende SLOs und SLIs definieren
- Prozesse für das Vorfallmanagement definieren und testen
- Kontinuierliche Verbesserung und Innovation
SLAs und entsprechende SLOs und SLIs definieren
In vielen Finanzinstituten wird die Verfügbarkeit von Anwendungen in der Regel anhand der Messwerte Recovery Time Objective (RTO) und Recovery Point Objective (RPO) klassifiziert. Für geschäftskritische Anwendungen, die externe Kunden bedienen, kann auch ein Service Level Agreement (SLA) definiert werden.
Für SLAs ist ein Rahmen von Messwerten erforderlich, der das Verhalten des Systems aus Sicht der Nutzerzufriedenheit darstellt. Site Reliability Engineering (SRE) bietet eine Möglichkeit, das gewünschte Maß an Systemzuverlässigkeit zu erreichen. Beim Erstellen eines Messwert-Frameworks werden wichtige numerische Indikatoren definiert und überwacht, um den Systemstatus aus Nutzersicht zu verstehen. Messwerte wie Latenz und Fehlerraten geben beispielsweise Aufschluss darüber, wie gut ein Dienst funktioniert. Diese Messwerte werden als Service Level Indicators (SLIs) bezeichnet. Die Entwicklung effektiver SLIs ist entscheidend, da sie die Rohdaten liefern, die für eine objektive Bewertung der Zuverlässigkeit erforderlich sind.
Berücksichtigen Sie die folgenden Empfehlungen, um aussagekräftige SLAs, SLIs und SLOs zu definieren:
- Entwickeln und definieren Sie SLIs für jeden wichtigen Dienst. Legen Sie Zielwerte fest, die die akzeptablen Leistungsniveaus definieren.
- Entwickeln und definieren Sie die Service Level Objectives (SLOs), die den SLIs entsprechen. Ein SLO kann beispielsweise besagen, dass 99,9% der Anfragen eine Latenz von weniger als 200 Millisekunden aufweisen müssen.
- Legen Sie die internen Abhilfemaßnahmen fest, die ergriffen werden müssen, wenn ein Dienst die SLOs nicht erfüllt. Um beispielsweise die Stabilität der Plattform zu verbessern, müssen Sie möglicherweise Entwicklungsressourcen auf die Behebung von Problemen konzentrieren.
- Prüfen Sie die SLA-Anforderung für jeden Dienst und erkennen Sie das SLA als formalen Vertrag mit den Dienstnutzern an.
Beispiele für Servicelevels
Die folgende Tabelle enthält Beispiele für SLIs, SLOs und SLAs für eine Zahlungsplattform:
Unternehmensmesswert | SLI | SLO | SLA |
---|---|---|---|
Erfolg von Zahlungstransaktionen | Eine quantitative Messung des Prozentsatzes aller initiierten Zahlungsabwicklungstransaktionen, die erfolgreich verarbeitet und bestätigt werden. Beispiel: (Anzahl der erfolgreichen Transaktionen ÷ Gesamtzahl der gültigen Transaktionen) × 100, gemessen über ein gleitendes 5‑Minuten-Zeitfenster. |
Ein internes Ziel, um über einen bestimmten Zeitraum einen hohen Prozentsatz erfolgreicher Zahlungen zu erreichen. Beispiel: Halten Sie eine Erfolgsrate von 99, 98% für Zahlungen über einen fortlaufenden Zeitraum von 30 Tagen ein.Ungültige Anfragen und geplante Wartungsarbeiten sind dabei ausgeschlossen. |
Eine vertragliche Garantie für die Erfolgsquote und Geschwindigkeit der Verarbeitung von Zahlungs-Transaktionen. Beispiel: Der Dienstanbieter garantiert, dass 99,0 % der vom Kunden initiierten Zahlungsvorgänge innerhalb einer Sekunde erfolgreich verarbeitet und bestätigt werden. |
Latenz bei der Zahlungsverarbeitung | Die durchschnittliche Zeit, die für die Verarbeitung einer Zahlungstransaktion von der Initiierung durch den Kunden bis zur endgültigen Bestätigung benötigt wird. Beispiel: Durchschnittliche Antwortzeit in Millisekunden für die Transaktionsbestätigung, gemessen über ein rollierendes 5‑Minuten-Fenster. |
Ein internes Ziel für die Geschwindigkeit, mit der Zahlungsvorgänge verarbeitet werden. Beispiel: Sorgen Sie dafür, dass 99,5% der Zahlungsvorgänge innerhalb eines rollierenden 30‑Tage-Zeitraums innerhalb von 400 Millisekunden verarbeitet werden. |
Eine vertragliche Verpflichtung, kritische Probleme bei der Zahlungsabwicklung innerhalb eines bestimmten Zeitrahmens zu beheben. Beispiel: Bei kritischen Problemen bei der Zahlungsabwicklung (definiert als Ausfall, der mehr als 1% der Transaktionen betrifft) verpflichtet sich der Dienstanbieter, das Problem innerhalb von zwei Stunden nach Meldung oder Erkennung zu beheben. |
Plattformverfügbarkeit | Der Prozentsatz der Zeit, in der die API für die Kernzahlungsverarbeitung und die Benutzeroberfläche betriebsbereit und für Clients zugänglich sind. Beispiel: (Gesamtbetriebszeit − Ausfallzeit) ÷ Gesamtbetriebszeit × 100, gemessen pro Minute. |
Ein internes Ziel für die Verfügbarkeit der zentralen Zahlungsplattform. Beispiel: Erreichen Sie eine Plattformverfügbarkeit von 99,995% pro Kalendermonat, ausgenommen geplante Wartungsfenster. |
Eine formelle, rechtsverbindliche Verpflichtung gegenüber Kunden in Bezug auf die Mindestverfügbarkeit der Zahlungsplattform, einschließlich der Folgen bei Nichteinhaltung. Beispiel: Die Plattform hat pro Kalendermonat eine Verfügbarkeit von mindestens 99,9 %, ausgenommen geplante Wartungsfenster. Wenn die Verfügbarkeit unter das Mindestniveau fällt, erhält der Kunde für jede Senkung um 0,1% eine Gutschrift in Höhe von 5% der monatlichen Servicegebühr. |
SLI-Daten verwenden, um zu überwachen, ob Systeme die definierten SLOs einhalten, und um sicherzustellen, dass die SLAs eingehalten werden. Mithilfe einer Reihe von genau definierten SLIs können Techniker und Entwickler FSI-Anwendungen auf den folgenden Ebenen überwachen:
- Direkt im Dienst, auf dem die Anwendungen bereitgestellt werden, z. B. GKE oder Cloud Run.
- Mithilfe von Logs, die von Infrastrukturkomponenten wie dem Load-Balancer bereitgestellt werden.
OpenTelemetry bietet einen Open-Source-Standard und eine Reihe von Technologien zum Erfassen aller Arten von Telemetriedaten, einschließlich Messwerten, Traces und Logs. Google Cloud Managed Service for Prometheus bietet ein vollständig verwaltetes, hochgradig skalierbares Backend für Messwerte und den Betrieb von Prometheus in großem Umfang.
Weitere Informationen zu SLI, SLO und Fehlerbudgets finden Sie im SRE-Handbuch.
Um effektive Benachrichtigungs- und Monitoring-Dashboards und ‑Mechanismen zu entwickeln, verwenden Sie Google Cloud Observability-Tools zusammen mit Google Cloud Monitoring. Informationen zu sicherheitsspezifischen Monitoring- und Erkennungsfunktionen finden Sie im Sicherheits-Pillar.
Prozesse für das Vorfallmanagement definieren und testen
Gut definierte und regelmäßig getestete Prozesse für das Incident-Management tragen direkt zum Wert, zur Leistung, zur Sicherheit und zur Zuverlässigkeit der FSI-Arbeitslasten in Google Cloudbei. Diese Prozesse helfen Finanzinstituten, ihre strengen regulatorischen Anforderungen zu erfüllen, sensible Daten zu schützen, die Geschäftskontinuität aufrechtzuerhalten und das Vertrauen der Kunden zu wahren.
Regelmäßiges Testen der Prozesse für das Vorfallmanagement bietet folgende Vorteile:
- Leistung bei Spitzenlasten aufrechterhalten: Regelmäßige Leistungs- und Lasttests helfen Finanzinstituten, sicherzustellen, dass ihre cloudbasierten Anwendungen und Infrastrukturen Spitzenvolumina bei Transaktionen, Marktvolatilität und andere Szenarien mit hoher Nachfrage ohne Leistungseinbußen bewältigen können. Diese Funktion ist entscheidend, um ein nahtloses Nutzererlebnis zu gewährleisten und die Anforderungen der Finanzmärkte zu erfüllen.
- Potenzielle Engpässe und Einschränkungen erkennen: Bei Stresstests werden Systeme an ihre Grenzen gebracht. Finanzinstitute können so potenzielle Engpässe und Leistungseinschränkungen erkennen, bevor sie sich auf kritische Abläufe auswirken. Dieser proaktive Ansatz ermöglicht es Finanzinstituten, ihre Infrastruktur und Anwendungen für optimale Leistung und Skalierbarkeit anzupassen.
- Zuverlässigkeit und Ausfallsicherheit validieren: Regelmäßige Tests, einschließlich Chaos Engineering oder simulierter Fehler, tragen dazu bei, die Zuverlässigkeit und Ausfallsicherheit von Finanzsystemen zu validieren. Durch diese Tests wird sichergestellt, dass sich die Systeme nach Ausfällen problemlos wiederherstellen lassen und eine hohe Verfügbarkeit aufrechterhalten wird, was für die Geschäftskontinuität unerlässlich ist.
- Effektive Kapazitätsplanung: Leistungstests liefern wertvolle Daten zur Ressourcennutzung unter verschiedenen Lastbedingungen, was für eine genaue Kapazitätsplanung unerlässlich ist. Finanzinstitute können diese Daten nutzen, um künftige Kapazitätsanforderungen proaktiv zu antizipieren und Leistungsprobleme aufgrund von Ressourcenbeschränkungen zu vermeiden.
- Neue Funktionen und Codeänderungen erfolgreich bereitstellen: Durch die Integration automatisierter Tests in CI/CD-Pipelines wird sichergestellt, dass Änderungen und neue Bereitstellungen gründlich validiert werden, bevor sie in Produktionsumgebungen veröffentlicht werden. Dieser Ansatz verringert das Risiko von Fehlern und Regressionen, die zu Betriebsunterbrechungen führen könnten, erheblich.
- Regulierungsanforderungen für Systemstabilität erfüllen: Finanzvorschriften erfordern oft, dass Institute robuste Testverfahren haben, um die Stabilität und Zuverlässigkeit ihrer kritischen Systeme zu gewährleisten. Regelmäßige Tests helfen, die Einhaltung dieser Anforderungen nachzuweisen.
Berücksichtigen Sie die folgenden Empfehlungen, um Ihre Prozesse für das Vorfallsmanagement zu definieren und zu testen.
Klare Verfahren für die Reaktion auf Vorfälle festlegen
Ein etabliertes Set von Verfahren zur Reaktion auf Vorfälle umfasst die folgenden Elemente:
- Rollen und Verantwortlichkeiten, die für Incident Commander, Ermittler, Kommunikatoren und technische Experten definiert sind, um eine effektive und koordinierte Reaktion zu gewährleisten.
- Kommunikationsprotokolle und Eskalierungswege, die definiert sind, um sicherzustellen, dass Informationen bei Vorfällen zeitnah und effektiv weitergegeben werden.
- Verfahren, die in einem Runbook oder Playbook dokumentiert sind, in dem die Schritte für Kommunikation, Triage, Untersuchung und Lösung beschrieben werden.
- Regelmäßige Schulungen und Vorbereitung, die Teams das Wissen und die Fähigkeiten vermitteln, um effektiv zu reagieren.
Regelmäßig Leistungs- und Lasttests durchführen
Regelmäßige Leistungs- und Lasttests tragen dazu bei, dass cloudbasierte Anwendungen und Infrastrukturen Spitzenlasten bewältigen und eine optimale Leistung aufrechterhalten können. Bei Lasttests werden realistische Traffic-Muster simuliert. Bei Stresstests wird das System bis an seine Grenzen belastet, um potenzielle Engpässe und Leistungseinschränkungen zu identifizieren. Mit Produkten wie Cloud Load Balancing und Lasttestdiensten können Sie realen Traffic simulieren. Anhand der Testergebnisse können Sie Ihre Cloud-Infrastruktur und Anwendungen für optimale Leistung und Skalierbarkeit anpassen. Sie können beispielsweise die Ressourcenzuweisung anpassen oder Anwendungskonfigurationen optimieren.
Tests in CI/CD-Pipelines automatisieren
Wenn Sie automatisierte Tests in Ihre CI/CD-Pipelines einbinden, können Sie die Qualität und Zuverlässigkeit von Cloud-Anwendungen sicherstellen, indem Sie Änderungen vor der Bereitstellung validieren. Dieser Ansatz verringert das Risiko von Fehlern und Regressionen erheblich und hilft Ihnen, ein stabileres und robusteres Softwaresystem zu entwickeln. Sie können verschiedene Arten von Tests in Ihre CI/CD-Pipelines einbinden, darunter Unit-, Integrations- und End-to-End-Tests. Verwenden Sie Produkte wie Cloud Build und Cloud Deploy, um Ihre CI/CD-Pipelines zu erstellen und zu verwalten.
Kontinuierliche Verbesserung und Innovation
Bei Finanzdienstleistungsarbeitslasten in der Cloud ist die Migration in die Cloud nur der erste Schritt. Eine kontinuierliche Verbesserung und Innovation sind aus folgenden Gründen unerlässlich:
- Innovationen beschleunigen: Nutzen Sie neue Technologien wie KI, um Ihre Dienste zu verbessern.
- Kosten senken: Ineffizienzen beseitigen und die Ressourcennutzung optimieren.
- Agilität steigern: Schnell auf Markt- und regulatorische Änderungen reagieren
- Entscheidungsfindung verbessern: Mit Datenanalyseprodukten wie BigQuery und Looker können Sie fundierte Entscheidungen treffen.
Um kontinuierliche Verbesserungen und Innovationen zu ermöglichen, sollten Sie die folgenden Empfehlungen berücksichtigen.
Regelmäßige Retrospektiven durchführen
Retrospektiven sind unerlässlich, um die Verfahren zur Reaktion auf Vorfälle kontinuierlich zu verbessern und Teststrategien auf Grundlage der Ergebnisse regelmäßiger Leistungs- und Lasttests zu optimieren. Damit Retrospektiven effektiv sind, sollten Sie Folgendes beachten:
- Geben Sie Teams die Möglichkeit, über ihre Erfahrungen nachzudenken, herauszufinden, was gut gelaufen ist, und Bereiche zu identifizieren, die verbessert werden können.
- Führen Sie Retrospektiven nach Projektmeilensteinen, schwerwiegenden Vorfällen oder wichtigen Testzyklen durch. Teams können sowohl aus Erfolgen als auch aus Fehlern lernen und ihre Prozesse und Praktiken kontinuierlich optimieren.
- Verwenden Sie einen strukturierten Ansatz wie das Start-Stop-Continue-Modell, um sicherzustellen, dass die Retrospektiven produktiv sind und zu umsetzbaren Schritten führen.
- Nutzen Sie Retrospektiven, um Bereiche zu identifizieren, in denen die Automatisierung des Änderungsmanagements weiter verbessert werden kann, um die Zuverlässigkeit zu erhöhen und Risiken zu verringern.
Lernkultur fördern
Eine Lernkultur ermöglicht die sichere Erforschung neuer Technologien inGoogle Cloud, z. B. KI- und ML-Funktionen zur Verbesserung von Diensten wie Betrugserkennung und personalisierte Finanzberatung. So fördern Sie eine Lernkultur:
- Ermutigen Sie die Teams, zu experimentieren, Wissen zu teilen und kontinuierlich zu lernen.
- Führen Sie eine Kultur der Schuldlosigkeit ein, in der Fehler als Chancen für Wachstum und Verbesserung betrachtet werden.
- Schaffen Sie eine psychologisch sichere Umgebung, in der Teams Risiken eingehen und innovative Lösungen in Betracht ziehen können. Teams lernen sowohl aus Erfolgen als auch aus Misserfolgen, was zu einer widerstandsfähigeren und anpassungsfähigeren Organisation führt.
- Entwickeln Sie eine Kultur, die den Austausch von Wissen fördert, das aus Incident-Management-Prozessen und Tests gewonnen wurde.
Über Cloud-Technologien auf dem Laufenden bleiben
Kontinuierliches Lernen ist unerlässlich, um neue Sicherheitsmaßnahmen zu verstehen und zu implementieren, erweiterte Datenanalysen für bessere Erkenntnisse zu nutzen und innovative Lösungen einzuführen, die für die Finanzbranche relevant sind.
- Das Potenzial von Google Cloud -Diensten maximieren, indem Sie sich über die neuesten Entwicklungen, Funktionen und Best Practices auf dem Laufenden halten.
- Wenn neue Google Cloud Funktionen und Dienste eingeführt werden, sollten Sie nach Möglichkeiten suchen, Prozesse weiter zu automatisieren, die Sicherheit zu erhöhen und die Leistung und Skalierbarkeit Ihrer Anwendungen zu verbessern.
- Nehmen Sie an relevanten Konferenzen, Webinaren und Schulungen teil, um Ihr Wissen zu erweitern und neue Funktionen kennenzulernen.
- Ermutigen Sie Teammitglieder, Google Cloud Zertifizierungen zu erwerben, um sicherzustellen, dass die Organisation die erforderlichen Fähigkeiten für den Erfolg in der Cloud hat.
Sicherheit, Datenschutz und Compliance aus Sicht von Finanzinstituten
Dieses Dokument im Google Cloud Well-Architected Framework: FSI perspective bietet einen Überblick über die Prinzipien und Empfehlungen zur Erfüllung der Sicherheits-, Datenschutz- und Compliance-Anforderungen von Arbeitslasten der Finanzdienstleistungsbranche (Financial Services Industry, FSI) in Google Cloud. Die Empfehlungen helfen Ihnen, eine robuste und konforme Infrastruktur aufzubauen, sensible Daten zu schützen, das Vertrauen der Kunden zu wahren, die komplexen regulatorischen Anforderungen zu erfüllen und Cyberbedrohungen effektiv zu begegnen. Die Empfehlungen in diesem Dokument entsprechen der Sicherheitssäule des Well-Architected Framework.
Die Sicherheit beim Cloud Computing ist ein wichtiges Anliegen für FSI-Organisationen, die aufgrund der großen Mengen an sensiblen Daten, die sie verwalten, einschließlich Kundendetails und Finanzunterlagen, für Cyberkriminelle sehr attraktiv sind. Die Folgen eines Sicherheitsverstoßes sind äußerst schwerwiegend und umfassen erhebliche finanzielle Verluste, langfristige Reputationsschäden und hohe behördliche Geldstrafen. Daher sind für FSI-Arbeitslasten strenge Sicherheitskontrollen erforderlich.
Um für umfassende Sicherheit und Compliance zu sorgen, müssen Sie die geteilten Verantwortlichkeiten zwischen Ihnen (Finanzinstituten) und Google Cloudverstehen. Google Cloud ist für die Sicherheit der zugrunde liegenden Infrastruktur verantwortlich, einschließlich der physischen Sicherheit und der Netzwerksicherheit. Sie sind für die Sicherung von Daten und Anwendungen, die Konfiguration der Zugriffssteuerung sowie die Konfiguration und Verwaltung von Sicherheitsdiensten verantwortlich. Um Sie bei Ihren Sicherheitsbemühungen zu unterstützen, bietet das Google Cloud Partnernetzwerk Sicherheitsintegrationen und verwaltete Dienste.
Die Sicherheitsempfehlungen in diesem Dokument sind den folgenden Grundsätzen zugeordnet:
- Von Grund auf sicher
- Zero-Trust-Sicherheit implementieren
- Shift-Left-Sicherheit implementieren
- Vorbeugende Cyberabwehr implementieren
- KI sicher und verantwortungsbewusst nutzen und KI für Sicherheit einsetzen
- Behörden-, Compliance- und Datenschutzanforderungen erfüllen
- Sicherheitsinitiativen priorisieren
Sicherheit von Anfang an implementieren
Finanzvorschriften wie der Payment Card Industry Data Security Standard (PCI DSS), der Gramm-Leach-Bliley Act (GLBA) in den USA und verschiedene nationale Gesetze zum Schutz von Finanzdaten schreiben vor, dass die Sicherheit von Anfang an in Systeme integriert wird. Das Prinzip der Sicherheit „von Grund auf“ betont die Integration von Sicherheit über den gesamten Entwicklungszyklus hinweg, um sicherzustellen, dass Sicherheitslücken von Anfang an minimiert werden.
Wenn Sie das Prinzip „Security by Design“ für Ihre Arbeitslasten für Finanzdienstleistungen inGoogle Cloudanwenden möchten, sollten Sie die folgenden Empfehlungen berücksichtigen:
- Achten Sie darauf, dass nur die erforderlichen Berechtigungen gewährt werden, indem Sie das Prinzip der geringsten Berechtigung durch die detaillierte rollenbasierte Zugriffssteuerung (Role-Based Access Control, RBAC) in der Identitäts- und Zugriffsverwaltung (Identity and Access Management, IAM) anwenden. Die Verwendung von RBAC ist eine wichtige Anforderung in vielen Finanzvorschriften.
- Sicherheitsperimeter für Ihre vertraulichen Dienste und Daten in Google Cloud mit VPC Service Controls erzwingen Die Sicherheitsperimeter tragen dazu bei, sensible Daten und Ressourcen zu segmentieren und zu schützen und Daten-Exfiltration und unbefugten Zugriff zu verhindern, wie es die Vorschriften erfordern.
- Definieren Sie Sicherheitskonfigurationen als Code mit IaC-Tools (Infrastruktur als Code) wie Terraform. Bei diesem Ansatz werden Sicherheitskontrollen von der ersten Bereitstellungsphase an eingebettet, was zu Konsistenz und Prüfbarkeit beiträgt.
- Scannen Sie Ihren Anwendungscode, indem Sie Static Application Security Testing (SAST) mit Cloud Build in die CI/CD-Pipeline einbinden. Richten Sie automatisierte Sicherheitskontrollen ein, um die Bereitstellung von nicht konformem Code zu verhindern.
- Security Command Center bietet eine einheitliche Oberfläche für Sicherheitsinformationen. Durch die Verwendung von Security Command Center können Fehlkonfigurationen oder Bedrohungen, die zu Verstößen gegen behördliche Auflagen führen könnten, kontinuierlich überwacht und frühzeitig erkannt werden. Um die Anforderungen von Standards wie ISO 27001 und NIST 800-53 zu erfüllen, können Sie Vorlagen für die Konfigurationsverwaltung verwenden.
- Verfolgen Sie die Reduzierung der Sicherheitslücken, die in Produktionsbereitstellungen identifiziert werden, und den Prozentsatz der IaC-Bereitstellungen, die den Sicherheits-Best Practices entsprechen. Mit Security Command Center können Sie Sicherheitslücken und Informationen zur Einhaltung von Sicherheitsstandards erkennen und ansehen. Weitere Informationen finden Sie unter Ergebnisse zu Sicherheitslücken.
Zero Trust implementieren
Moderne Finanzvorschriften betonen zunehmend die Notwendigkeit strenger Zugriffskontrollen und kontinuierlicher Überprüfung. Diese Anforderungen spiegeln das Zero-Trust-Prinzip wider, das darauf abzielt, Arbeitslasten vor internen und externen Bedrohungen und böswilligen Akteuren zu schützen. Das Zero-Trust-Prinzip sieht eine kontinuierliche Überprüfung jedes Nutzers und Geräts vor. Dadurch wird implizites Vertrauen eliminiert und das seitliche Verschieben wird verhindert.
Beachten Sie die folgenden Empfehlungen, um Zero Trust zu implementieren:
- Aktivieren Sie den kontextsensitiven Zugriff basierend auf Nutzeridentität, Gerätesicherheit, Standort und anderen Faktoren, indem Sie IAM-Steuerelemente mit Chrome Enterprise Premium kombinieren. Dieser Ansatz sorgt für eine kontinuierliche Überprüfung, bevor der Zugriff auf Finanzdaten und ‑systeme gewährt wird.
- Sorgen Sie für eine sichere und skalierbare Identitäts- und Zugriffsverwaltung, indem Sie Identity Platform (oder Ihren externen Identitätsanbieter, wenn Sie die Workforce Identity-Föderation verwenden) konfigurieren. Richten Sie die Multi-Faktor-Authentifizierung (MFA) und andere Kontrollen ein, die für die Implementierung von Zero Trust und die Einhaltung von Vorschriften unerlässlich sind.
- Implementieren Sie die MFA für alle Nutzerkonten, insbesondere für Konten mit Zugriff auf vertrauliche Daten oder Systeme.
- Unterstützen Sie Audits und Untersuchungen im Zusammenhang mit der Einhaltung von Vorschriften, indem Sie umfassende Protokollierung und Überwachung von Nutzerzugriffen und Netzwerkaktivitäten einrichten.
- Aktivieren Sie die private und sichere Kommunikation zwischen Diensten inGoogle Cloud und lokalen Umgebungen, ohne den Traffic über das öffentliche Internet zu leiten, indem Sie Private Service Connect verwenden.
- Implementieren Sie detaillierte Identitätskontrollen und autorisieren Sie den Zugriff auf Anwendungsebene mit Identity-Aware Proxy (IAP), anstatt sich auf netzwerkbasierte Sicherheitsmechanismen wie VPN-Tunnel zu verlassen. Dieser Ansatz trägt dazu bei, das Lateral Movement in der Umgebung zu reduzieren.
Shift-Left-Sicherheit implementieren
Finanzaufsichtsbehörden empfehlen proaktive Sicherheitsmaßnahmen. Wenn Sie Sicherheitslücken frühzeitig im Entwicklungszyklus erkennen und beheben, können Sie das Risiko von Sicherheitsvorfällen und potenziellen Strafen für die Nichteinhaltung von Vorschriften verringern. Das Prinzip der Shift-Left-Sicherheit fördert frühe Sicherheitstests und die Integration, was dazu beiträgt, die Kosten und Komplexität der Fehlerbehebung zu reduzieren.
Beachten Sie die folgenden Empfehlungen, um Shift-Left-Sicherheit zu implementieren:
Sorgen Sie für automatisierte Sicherheitsprüfungen in der frühen Entwicklungsphase, indem Sie Sicherheitsscanning-Tools wie das Scannen von Containerlücken und die statische Codeanalyse mit Cloud Build in die CI/CD-Pipeline einbinden.
Sorgen Sie dafür, dass nur sichere Artefakte bereitgestellt werden, indem Sie Artifact Registry verwenden. Damit erhalten Sie ein sicheres und zentrales Repository für Softwarepakete und Container-Images mit integriertem Scannen auf Sicherheitslücken. Verwenden Sie virtuelle Repositories, um Angriffe durch Verwechslung von Abhängigkeiten zu verhindern, indem Sie Ihre privaten Artefakte gegenüber Remote-Repositories priorisieren.
Webanwendungen automatisch auf häufige Sicherheitslücken scannen, indem Sie Web Security Scanner, einen Teil von Security Command Center, in Ihre Entwicklungspipelines einbinden.
Implementieren Sie Sicherheitsprüfungen für den Quellcode, den Build-Prozess und die Codeherkunft mithilfe des Supply-chain Levels for Software Artifacts (SLSA)-Frameworks. Erzwingen Sie die Herkunft der Arbeitslasten, die in Ihren Umgebungen ausgeführt werden, mit Lösungen wie der Binärautorisierung. Mit Assured Open Source können Sie dafür sorgen, dass in Ihren Workloads nur verifizierte Open-Source-Softwarebibliotheken verwendet werden.
Verfolgen Sie die Anzahl der Sicherheitslücken, die in Ihrem Entwicklungszyklus identifiziert und behoben werden, den Prozentsatz der Codebereitstellungen, die Sicherheitsprüfungen bestehen, und die Verringerung der Sicherheitsvorfälle, die durch Software-Sicherheitslücken verursacht werden. Google Cloud bietet Tools, die Sie bei der Nachverfolgung für verschiedene Arten von Arbeitslasten unterstützen. Verwenden Sie für containerisierte Arbeitslasten beispielsweise die Container-Scanfunktion von Artifact Registry.
Präventive Cyberabwehr implementieren
Finanzinstitute sind ein beliebtes Ziel für ausgeklügelte Cyberangriffe. Vorschriften erfordern oft robuste Mechanismen zur Aufdeckung von Bedrohungen und proaktive Verteidigungsmechanismen. Die präventive Cyberabwehr konzentriert sich auf die proaktive Erkennung und Reaktion auf Bedrohungen mithilfe von erweiterten Analysen und Automatisierung.
Beachten Sie die folgenden Empfehlungen:
- Mit den Mandiant-Services für Threat Intelligence, Incident Response und Security Validation können Sie potenzielle Bedrohungen proaktiv erkennen und abwehren.
- Mit Google Cloud Armor können Sie Webanwendungen und APIs am Netzwerkrand vor Web-Exploits und DDoS-Angriffen schützen.
- Sicherheitsergebnisse und ‑empfehlungen mit Security Command Center aggregieren und priorisieren, damit Sicherheitsteams potenzielle Risiken proaktiv angehen können.
- Prüfen Sie präventive Schutzmaßnahmen und Pläne für die Reaktion auf Vorfälle durch regelmäßige Sicherheitssimulationen und Penetrationstests.
- Messen Sie die Zeit, die zum Erkennen und Reagieren auf Sicherheitsvorfälle benötigt wird, die Effektivität der DDoS-Schutzmaßnahmen und die Anzahl der verhinderten Cyberangriffe. Die erforderlichen Messwerte und Daten finden Sie in den Google Security Operations SOAR- und SIEM-Dashboards.
KI sicher und verantwortungsbewusst nutzen und KI für Sicherheit einsetzen
KI und ML werden zunehmend für Anwendungsfälle im Bereich Finanzdienstleistungen wie Betrugserkennung und algorithmischer Handel eingesetzt. Vorschriften schreiben vor, dass diese Technologien ethisch, transparent und sicher eingesetzt werden müssen. KI kann auch dazu beitragen, Ihre Sicherheitsfunktionen zu verbessern. Beachten Sie die folgenden Empfehlungen für die Verwendung von KI:
- Mit Vertex AI können Sie ML-Modelle in einer sicheren und kontrollierten Umgebung entwickeln und bereitstellen. Funktionen wie die Erklärbarkeit von Modellen und Fairness-Messwerte können helfen, Bedenken hinsichtlich verantwortungsbewusster KI auszuräumen.
- Nutzen Sie die Sicherheitsanalyse- und ‑betriebsfunktionen von Google Security Operations. Dabei werden KI und ML eingesetzt, um große Mengen an Sicherheitsdaten zu analysieren, Anomalien zu erkennen und die Reaktion auf Bedrohungen zu automatisieren. Diese Funktionen tragen dazu bei, Ihren allgemeinen Sicherheitsstatus zu verbessern und die Compliance zu überwachen.
- Legen Sie klare Governance-Richtlinien für die Entwicklung und Bereitstellung von KI und ML fest, einschließlich Sicherheits- und ethischer Aspekte.
- Die Elemente des Secure AI Framework (SAIF) bieten einen praktischen Ansatz, um die Sicherheits- und Risikobedenken von KI-Systemen zu berücksichtigen.
- Genauigkeit und Effektivität von KI-basierten Systemen zur Betrugserkennung, Reduzierung von Fehlalarmen bei Sicherheitswarnungen und Effizienzsteigerungen durch KI-basierte Sicherheitsautomatisierung nachvollziehen
Behörden-, Compliance- und Datenschutzanforderungen erfüllen
Finanzdienstleistungen unterliegen einer Vielzahl von Vorschriften, darunter Anforderungen an den Datenspeicherort, spezifische Prüfpfade und Datenschutzstandards. Damit sensible Daten ordnungsgemäß identifiziert, geschützt und verwaltet werden, benötigen Finanzinstitute robuste Data-Governance-Richtlinien und Datenklassifizierungsschemata. Beachten Sie die folgenden Empfehlungen, um die behördlichen Anforderungen zu erfüllen:
- Richten Sie Datenbegrenzungen in Google Cloud für sensible und regulierte Arbeitslasten mit Assured Workloads ein. So können Sie behördliche und branchenspezifische Compliance-Anforderungen wie FedRAMP und CJIS einhalten.
- Implementieren Sie Cloud Data Loss Prevention (Cloud DLP), um sensible Daten wie Finanzinformationen zu identifizieren, zu klassifizieren und zu schützen. So können Sie Datenschutzbestimmungen wie die DSGVO und den CCPA einhalten.
- Mit Cloud-Audit-Logs können Sie Details zu administrativen Aktivitäten und zum Zugriff auf Ressourcen nachverfolgen. Diese Logs sind entscheidend, um die von vielen Finanzvorschriften vorgeschriebenen Prüfanforderungen zu erfüllen.
- Wenn Sie Google Cloud -Regionen für Ihre Arbeitslasten und Daten auswählen, sollten Sie die lokalen Vorschriften zum Datenstandort berücksichtigen. Google Cloud globale Infrastruktur ermöglicht es Ihnen, Regionen auszuwählen, die Ihnen helfen können, Ihre Anforderungen an den Datenstandort zu erfüllen.
- Verwalten Sie die Schlüssel, die zum Verschlüsseln sensibler Finanzdaten im Ruhezustand und bei der Übertragung verwendet werden, mit dem Cloud Key Management Service. Eine solche Verschlüsselung ist eine grundlegende Anforderung vieler Sicherheits- und Datenschutzbestimmungen.
- Implementieren Sie die Kontrollen, die erforderlich sind, um Ihre regulatorischen Anforderungen zu erfüllen. Prüfen Sie, ob die Kontrollvariablen wie erwartet funktionieren. Lassen Sie die Kontrollen noch einmal von einem externen Prüfer validieren, um der Aufsichtsbehörde nachzuweisen, dass Ihre Arbeitslasten den Vorschriften entsprechen.
Sicherheitsinitiativen priorisieren
Angesichts der Vielzahl von Sicherheitsanforderungen müssen Finanzinstitute Initiativen priorisieren, die auf Risikobewertungen und behördlichen Vorgaben basieren. Wir empfehlen die folgende schrittweise Vorgehensweise:
- Eine solide Sicherheitsgrundlage schaffen: Konzentrieren Sie sich auf die Kernbereiche der Sicherheit, einschließlich Identitäts- und Zugriffsverwaltung, Netzwerksicherheit und Datenschutz. Dieser Fokus trägt dazu bei, ein robustes Sicherheitskonzept zu entwickeln und umfassenden Schutz vor sich entwickelnden Bedrohungen zu gewährleisten.
- Wichtige Vorschriften berücksichtigen: Priorisieren Sie die Einhaltung wichtiger Vorschriften wie PCI DSS, DSGVO und relevanter nationaler Gesetze. So können Sie den Datenschutz gewährleisten, rechtliche Risiken minimieren und das Vertrauen Ihrer Kunden stärken.
- Erweiterte Sicherheitsmaßnahmen implementieren: Führen Sie nach und nach erweiterte Sicherheitsmaßnahmen wie Zero Trust, KI-basierte Sicherheitslösungen und proaktive Bedrohungsanalysen ein.
FSI-Perspektive: Zuverlässigkeit
Dieses Dokument im Google Cloud Well-Architected Framework: FSI perspective bietet einen Überblick über die Prinzipien und Empfehlungen zum Entwerfen, Bereitstellen und Betreiben zuverlässiger Arbeitslasten für die Finanzdienstleistungsbranche (Financial Services Industry, FSI) inGoogle Cloud. In diesem Dokument wird erläutert, wie Sie erweiterte Zuverlässigkeitsverfahren und Beobachtbarkeit in Ihre Architekturpläne einbinden. Die Empfehlungen in diesem Dokument stimmen mit der Zuverlässigkeitssäule des Well-Architected Framework überein.
Für Finanzinstitute ist eine zuverlässige und robuste Infrastruktur sowohl eine geschäftliche Notwendigkeit als auch eine behördliche Anforderung. Damit FSI-Arbeitslasten inGoogle Cloud zuverlässig sind, müssen Sie potenzielle Fehlerquellen verstehen und minimieren, Ressourcen redundant bereitstellen und die Wiederherstellung planen. Betriebliche Resilienz ist ein Ergebnis von Zuverlässigkeit. Es geht darum, Störungen zu absorbieren, sich daran anzupassen und sich davon zu erholen. Die operative Resilienz hilft Finanzinstituten, strenge regulatorische Anforderungen zu erfüllen. Außerdem können Sie so unzumutbare Schäden für Kunden vermeiden.
Die wichtigsten Bausteine der Zuverlässigkeit in Google Cloud sind Regionen, Zonen und die verschiedenen Standortbereiche von Cloud-Ressourcen: zonal, regional, multiregional und global. Sie können die Verfügbarkeit verbessern, indem Sie verwaltete Dienste verwenden, Ressourcen verteilen, Muster für hohe Verfügbarkeit implementieren und Prozesse automatisieren.
Regulatorische Anforderungen
FSI-Organisationen unterliegen strengen Zuverlässigkeitsanforderungen von Aufsichtsbehörden wie dem Federal Reserve System in den USA, der European Banking Authority in der EU und der Prudential Regulation Authority im Vereinigten Königreich. Weltweit betonen Aufsichtsbehörden die operative Resilienz, die für die Finanzstabilität und den Verbraucherschutz von entscheidender Bedeutung ist. Die operative Stabilität ist die Fähigkeit, Störungen zu überstehen, sich effektiv zu erholen und kritische Dienste aufrechtzuerhalten. Dazu ist ein harmonisierter Ansatz für das Management von technologischen Risiken und Abhängigkeiten von Dritten erforderlich.
Die behördlichen Anforderungen in den meisten Gerichtsbarkeiten haben die folgenden gemeinsamen Themen:
- Cybersicherheit und technologische Resilienz: Stärkung der Abwehr gegen Cyberbedrohungen und Sicherung der Resilienz von IT-Systemen.
- Risikomanagement von Drittanbietern: Verwalten der Risiken, die mit der Auslagerung von Diensten an Anbieter von Informations- und Kommunikationstechnologie (IKT) verbunden sind.
- Geschäftskontinuität und Reaktion auf Vorfälle: Solide Planung, um kritische Abläufe bei Störungen aufrechtzuerhalten und sich effektiv zu erholen.
- Finanzstabilität schützen: Sicherstellung der Solidität und Stabilität des gesamten Finanzsystems.
Die Empfehlungen zur Zuverlässigkeit in diesem Dokument sind den folgenden Kernprinzipien zugeordnet:
- Bereitstellungen in mehreren Zonen und Regionen priorisieren
- Single Points of Failure (SPOFs) beseitigen
- Aggregierte Verfügbarkeit verstehen und verwalten
- Eine robuste Strategie für die Notfallwiederherstellung implementieren
- Verwaltete Dienste nutzen
- Infrastrukturbereitstellung und ‑wiederherstellung automatisieren
Bereitstellungen in mehreren Zonen und Regionen priorisieren
Für kritische Anwendungen für Finanzdienstleistungen empfehlen wir, eine Multi-Region-Topologie zu verwenden, die auf mindestens zwei Regionen und auf drei Zonen in jeder Region verteilt ist. Dieser Ansatz ist wichtig, um die Resilienz gegenüber Zonen- und Regionsausfällen zu erhöhen. Dieser Ansatz ist oft gesetzlich vorgeschrieben, da die meisten Gerichtsbarkeiten einen schweren Ausfall in einer zweiten Zone als plausible Folge eines Ausfalls in einer Zone oder Region ansehen. Der Grund dafür ist, dass der andere Standort bei einem Ausfall eines Standorts möglicherweise eine außergewöhnlich hohe Menge an zusätzlichem Traffic empfängt.
Beachten Sie die folgenden Empfehlungen, um die Resilienz gegen Ausfälle von Zonen und Regionen zu erhöhen:
- Bevorzuge Ressourcen mit einem größeren geografischen Geltungsbereich. Verwenden Sie nach Möglichkeit regionale Ressourcen anstelle von zonalen Ressourcen und multiregionale oder globale Ressourcen anstelle von regionalen Ressourcen. Dieser Ansatz hilft, die Notwendigkeit zu vermeiden, Vorgänge mithilfe von Sicherungen wiederherzustellen.
- Verwenden Sie in jeder Region drei Zonen anstelle von zwei. Um Failover zu bewältigen, sollten Sie die Kapazität um ein Drittel über dem Schätzwert bereitstellen.
- Minimieren Sie manuelle Wiederherstellungsschritte, indem Sie Active-Active-Bereitstellungen wie in den folgenden Beispielen implementieren:
- Verteilte Datenbanken wie Spanner bieten integrierte Redundanz und Synchronisierung über Regionen hinweg.
- Die HA-Funktion von Cloud SQL bietet eine Topologie, die nahezu aktiv-aktiv ist, mit zonenübergreifenden Lesereplikaten. Es bietet ein Recovery Point Objective (RPO) zwischen Regionen, das nahe 0 liegt.
- Verteilen Sie den Nutzer-Traffic mithilfe von Cloud DNS auf Regionen und stellen Sie in jeder Region einen regionalen Load Balancer bereit. Ein globaler Load-Balancer ist eine weitere Option, die Sie je nach Ihren Anforderungen und der Kritikalität in Betracht ziehen können. Weitere Informationen finden Sie unter Vorteile und Risiken des globalen Load-Balancings für multiregionale Bereitstellungen.
- Verwenden Sie zum Speichern von Daten multiregionale Dienste wie Cloud Spanner und Cloud Storage.
Single Points of Failure beseitigen
Verteilen Sie Ressourcen auf verschiedene Standorte und verwenden Sie redundante Ressourcen, um zu verhindern, dass sich ein Single Point of Failure (SPOF) auf den gesamten Anwendungs-Stack auswirkt.
Beachten Sie die folgenden Empfehlungen, um SPOFs zu vermeiden:
- Stellen Sie nicht nur einen einzelnen Anwendungsserver oder eine einzelne Datenbank bereit.
- Sorgen Sie für die automatische Neuerstellung fehlgeschlagener VMs, indem Sie verwaltete Instanzgruppen (MIGs) verwenden.
- Verteilen Sie den Traffic gleichmäßig auf die verfügbaren Ressourcen, indem Sie Load-Balancing implementieren.
- Verwenden Sie HA-Konfigurationen für Datenbanken wie Cloud SQL.
- Die Datenverfügbarkeit mit regionalen nichtflüchtigen Speichern mit synchroner Replikation verbessern
Weitere Informationen finden Sie unter Zuverlässige Infrastruktur für Ihre Arbeitslasten in Google Cloud entwerfen.
Aggregierte Verfügbarkeit verstehen und verwalten
Die Gesamt- oder aggregierte Verfügbarkeit eines Systems wird durch die Verfügbarkeit jeder Ebene oder Komponente des Systems beeinflusst. Die Anzahl der Ebenen in einem Anwendungsstack hat eine umgekehrte Beziehung zur aggregierten Verfügbarkeit des Stacks. Beachten Sie die folgenden Empfehlungen für die Verwaltung der aggregierten Verfügbarkeit:
Berechnen Sie die aggregierte Verfügbarkeit eines mehrschichtigen Stacks mit der Formel tier1_availability × tier2_availability × tierN_availability.
Das folgende Diagramm zeigt die Berechnung der aggregierten Verfügbarkeit für ein mehrschichtiges System, das aus vier Diensten besteht:
Im vorherigen Diagramm bietet der Dienst in jeder Ebene eine Verfügbarkeit von 99,9 %, die aggregierte Verfügbarkeit des Systems ist jedoch mit 99,6% (0,999 × 0,999 × 0,999 × 0,999) niedriger. Im Allgemeinen ist die aggregierte Verfügbarkeit eines mehrstufigen Stacks geringer als die Verfügbarkeit der Stufe mit der geringsten Verfügbarkeit.
Wählen Sie nach Möglichkeit Parallelisierung anstelle von Verkettung aus. Bei parallelisierten Diensten ist die End-to-End-Verfügbarkeit höher als die Verfügbarkeit der einzelnen Dienste.
Das folgende Diagramm zeigt zwei Dienste, A und B, die mit den Ansätzen für Verkettung und Parallelisierung bereitgestellt werden:
In den vorherigen Beispielen haben beide Dienste ein SLA von 99 %. Daraus ergibt sich je nach Implementierungsansatz die folgende aggregierte Verfügbarkeit:
- Verkettete Dienste ergeben eine aggregierte Verfügbarkeit von nur 98% (0,99 × 0,99).
- Parallele Dienste bieten eine höhere aggregierte Verfügbarkeit von 99,99 %, da jeder Dienst unabhängig ausgeführt wird und einzelne Dienste nicht von der Verfügbarkeit der anderen Dienste betroffen sind. Die Formel für aggregierte parallelisierte Dienste lautet 1 − (1 − A) × (1 − B).
Wählen Sie Google Cloud Dienste mit Uptime-SLAs aus, die dazu beitragen können, die erforderliche Gesamt-Uptime für Ihren Anwendungsstack zu erreichen.
Berücksichtigen Sie beim Entwerfen Ihrer Architektur die Kompromisse zwischen Verfügbarkeit, Betriebskomplexität, Latenz und Kosten. Eine höhere Anzahl von Neunen für die Verfügbarkeit kostet in der Regel mehr, hilft Ihnen aber, behördliche Anforderungen zu erfüllen.
Eine Verfügbarkeit von 99, 9 % (drei Neunen) bedeutet beispielsweise eine potenzielle Ausfallzeit von 86 Sekunden pro Tag. Im Gegensatz dazu bedeutet eine Verfügbarkeit von 99 % (zwei Neunen) eine Ausfallzeit von 864 Sekunden im selben Zeitraum, was zehnmal mehr Ausfallzeit ist als bei einer Verfügbarkeit von 99, 9 %.
Bei kritischen Finanzdienstleistungen sind die Architekturoptionen möglicherweise eingeschränkt. Es ist jedoch wichtig, die Verfügbarkeitsanforderungen zu ermitteln und die Verfügbarkeit genau zu berechnen. Eine solche Bewertung hilft Ihnen, die Auswirkungen Ihrer Designentscheidungen auf Ihre Architektur und Ihr Budget zu beurteilen.
Robuste Strategie zur Notfallwiederherstellung implementieren
Erstellen Sie klar definierte Pläne für verschiedene Notfallszenarien, einschließlich Ausfällen von Zonen und Regionen. Mit einer gut definierten Strategie zur Notfallwiederherstellung (Disaster Recovery, DR) können Sie sich von einer Störung erholen und den normalen Betrieb mit minimalen Auswirkungen wieder aufnehmen.
Notfallwiederherstellung und Hochverfügbarkeit sind unterschiedliche Konzepte. Bei Cloud-Bereitstellungen gilt DR in der Regel für multiregionale Bereitstellungen und HA für regionale Bereitstellungen. Diese Bereitstellungsarchetypen unterstützen verschiedene Replikationsmechanismen.
- HA: Viele verwaltete Dienste bieten standardmäßig eine synchrone Replikation zwischen Zonen innerhalb einer einzelnen Region. Solche Dienste unterstützen ein Recovery Time Objective (RTO) und ein Recovery Point Objective (RPO) von null oder nahezu null. Diese Unterstützung ermöglicht es Ihnen, eine Aktiv-Aktiv-Bereitstellungstopologie ohne SPOF zu erstellen.
- DR: Für Arbeitslasten, die in zwei oder mehr Regionen bereitgestellt werden, müssen Sie eine Replikationsstrategie definieren, wenn Sie keine multiregionalen oder globalen Dienste verwenden. Die Replikationsstrategie ist in der Regel asynchron. Bewerten Sie sorgfältig, wie sich die Replikation auf die RTO und RPO für kritische Anwendungen auswirkt. Ermitteln Sie die manuellen oder halbautomatischen Vorgänge, die für das Failover erforderlich sind.
Für Finanzinstitute kann die Auswahl der Failover-Region durch Vorschriften zur Datenhoheit und zum Datenstandort eingeschränkt sein. Wenn Sie eine Active-Active-Topologie in zwei Regionen benötigen, empfehlen wir die Verwendung verwalteter multiregionaler Dienste wie Spanner und Cloud Storage, insbesondere wenn die Datenreplikation wichtig ist.
Beachten Sie die folgenden Empfehlungen:
- Verwenden Sie verwaltete multiregionale Speicherdienste für Daten.
- Erstellen Sie Snapshots von Daten auf nichtflüchtigen Speichern und speichern Sie die Snapshots an multiregionalen Standorten.
- Wenn Sie regionale oder zonale Ressourcen verwenden, richten Sie die Datenreplikation in andere Regionen ein.
- Testen Sie den DR-Plan regelmäßig, um seine Effektivität zu gewährleisten.
- Berücksichtigen Sie RTO und RPO und deren Zusammenhang mit der durch Finanzvorschriften in Ihrer Gerichtsbarkeit festgelegten Toleranz für Auswirkungen.
Weitere Informationen finden Sie unter Architektur der Notfallwiederherstellung bei Ausfällen der Cloud-Infrastruktur.
Verwaltete Dienste nutzen
Verwenden Sie nach Möglichkeit verwaltete Dienste, um die integrierten Funktionen für Sicherungen, Hochverfügbarkeit und Skalierbarkeit zu nutzen. Beachten Sie die folgenden Empfehlungen für die Verwendung verwalteter Dienste:
- Verwenden Sie verwaltete Dienste in Google Cloud. Sie bieten Hochverfügbarkeit, die durch SLAs abgedeckt ist. Außerdem bieten sie integrierte Sicherungsmechanismen und Funktionen zur Ausfallsicherheit.
- Für die Datenverwaltung empfehlen sich Dienste wie Cloud SQL, Cloud Storage und Spanner.
- Für Compute- und Anwendungshosting sollten Sie verwaltete Instanzgruppen (MIGs) von Compute Engine und Google Kubernetes Engine-Cluster (GKE) in Betracht ziehen. Regionale MIGs und regionale GKE-Cluster sind gegen Zonenausfälle resistent.
- Verwenden Sie verwaltete multiregionale Dienste, um die Ausfallsicherheit bei regionalen Ausfällen zu verbessern.
- Ermitteln Sie den Bedarf an Ausstiegsplänen für Dienste mit besonderen Merkmalen und definieren Sie die erforderlichen Pläne. Finanzaufsichtsbehörden wie die FCA, PRA und EBA verlangen von Unternehmen Strategien und Notfallpläne für den Datenabruf und die Betriebskontinuität, wenn die Beziehung zu einem Cloud-Anbieter endet. Unternehmen müssen die Machbarkeit des Ausstiegs bewerten, bevor sie Cloud-Verträge abschließen, und sie müssen die Möglichkeit haben, den Anbieter ohne Betriebsunterbrechung zu wechseln.
- Prüfen Sie, ob die von Ihnen ausgewählten Dienste den Export von Daten in ein offenes Format wie CSV, Parquet und Avro unterstützen. Prüfen Sie, ob die Dienste auf offenen Technologien basieren, z. B. GKE-Unterstützung für das OCI-Format (Open Container Initiative) oder Cloud Composer, das auf Apache Airflow basiert.
Infrastrukturbereitstellung und ‑wiederherstellung automatisieren
Automatisierung trägt dazu bei, menschliche Fehler zu minimieren und den Zeit- und Ressourcenaufwand für die Reaktion auf Vorfälle zu reduzieren. Durch den Einsatz von Automatisierung kann die Wiederherstellung nach Fehlern beschleunigt und die Ergebnisse konsistenter werden. Beachten Sie die folgenden Empfehlungen, um die Bereitstellung und Wiederherstellung von Ressourcen zu automatisieren:
- Minimieren Sie menschliche Fehler, indem Sie IaC-Tools (Infrastruktur als Code) wie Terraform verwenden.
- Reduzieren Sie manuelle Eingriffe, indem Sie Failover-Prozesse automatisieren. Automatisierte Antworten können auch dazu beitragen, die Auswirkungen von Fehlern zu verringern. Sie können beispielsweise Eventarc oder Workflows verwenden, um automatisch Abhilfemaßnahmen als Reaktion auf Probleme auszulösen, die in Audit-Logs beobachtet werden.
- Erhöhen Sie die Kapazität Ihrer Cloud-Ressourcen während des Failovers mithilfe von Autoscaling.
- Wenden Sie Richtlinien und Schutzmaßnahmen für behördliche Anforderungen bei der Bereitstellung von Diensten in Ihrer Cloud-Topologie automatisch an, indem Sie Platform Engineering einsetzen.
FSI-Perspektive: Kostenoptimierung
Dieses Dokument im Google Cloud Well-Architected Framework: FSI perspective bietet einen Überblick über Prinzipien und Empfehlungen zur Optimierung der Kosten Ihrer Arbeitslasten für die Finanzdienstleistungsbranche (Financial Services Industry, FSI) in Google Cloud. Die Empfehlungen in diesem Dokument stimmen mit dem Pfeiler zur Kostenoptimierung des Well-Architected Framework überein.
Für eine robuste Kostenoptimierung von Arbeitslasten für Finanzdienstleistungen sind die folgenden grundlegenden Elemente erforderlich:
- Sie können ineffiziente von wertschöpfenden Ressourcennutzungen unterscheiden.
- Eine eingebettete Kultur der finanziellen Rechenschaftspflicht.
Um die Kosten zu optimieren, benötigen Sie ein umfassendes Verständnis der Kostentreiber und des Ressourcenbedarfs in Ihrem gesamten Unternehmen. In einigen großen Organisationen, insbesondere in solchen, die noch am Anfang der Cloud-Umstellung stehen, ist oft ein einzelnes Team für die Optimierung der Ausgaben in einer Vielzahl von Bereichen verantwortlich. Bei diesem Ansatz wird davon ausgegangen, dass ein zentrales Team am besten in der Lage ist, zentrale Möglichkeiten zur Verbesserung der Effizienz zu identifizieren.
Der zentralisierte Ansatz kann in den ersten Phasen der Cloud-Einführung oder für nicht kritische Arbeitslasten erfolgreich sein. Ein einzelnes Team kann jedoch nicht die Kostenoptimierung für ein gesamtes Unternehmen vorantreiben. Wenn die Ressourcennutzung oder die behördliche Prüfung zunimmt, ist der zentralisierte Ansatz nicht nachhaltig. Zentrale Teams haben vor allem bei einer großen Anzahl von Finanzprodukten und ‑dienstleistungen mit Skalierbarkeitsproblemen zu kämpfen. Die Projektteams, die für die Produkte und Dienste verantwortlich sind, wehren sich möglicherweise gegen Änderungen, die von einem externen Team vorgenommen werden.
Für eine effektive Kostenoptimierung müssen ausgabenbezogene Daten gut sichtbar sein. Außerdem müssen Entwickler und andere Cloud-Nutzer, die sich mit den Arbeitslasten auskennen, motiviert werden, Maßnahmen zur Kostenoptimierung zu ergreifen. Aus organisatorischer Sicht besteht die Herausforderung bei der Kostenoptimierung darin, die Bereiche zu identifizieren, die optimiert werden sollten, die für diese Bereiche verantwortlichen Entwickler zu ermitteln und sie dann davon zu überzeugen, die erforderlichen Optimierungsmaßnahmen zu ergreifen. Dieses Dokument enthält Empfehlungen, wie Sie diese Herausforderung meistern können.
Die Empfehlungen zur Kostenoptimierung in diesem Dokument sind den folgenden Grundsätzen zugeordnet:
- Ineffizienzen mit Google Cloud Tools erkennen
- Mithilfe von Analysen und der Anreicherung von Ausgabendaten einen Mehrwert schaffen
- Ausgaben zuweisen, um die Nachvollziehbarkeit zu erhöhen
- Verantwortung fördern und Entwickler zu Maßnahmen motivieren
- Schwerpunkt auf Wert und TCO statt auf Kosten
Ineffiziente Nutzung mit Google Cloud -Tools ermitteln
Google Cloud bietet verschiedene Produkte, Tools und Funktionen, mit denen Sie Verschwendung erkennen können. Beachten Sie die folgenden Empfehlungen.
Automatisierung und KI nutzen, um systematisch zu ermitteln, was optimiert werden muss
Active Assist bietet intelligente Empfehlungen für Dienste, die für Finanzinstitute wichtig sind, z. B. Cloud Run für Microservices, BigQuery für Datenanalyse, Compute Engine für Kernanwendungen und Cloud SQL für relationale Datenbanken. Active Assist-Empfehlungen werden kostenlos und ohne Konfiguration durch Sie bereitgestellt. Mithilfe der Empfehlungen können Sie inaktive Ressourcen und nicht ausgelastete Zusicherungen identifizieren.
FinOps-Monitoring und -Kontrolle über eine einheitliche Oberfläche zentralisieren
Mit Cloud Billing-Berichten und dem FinOps-Hub können Sie ein umfassendes Kostenmonitoring implementieren. Diese umfassende Ansicht ist für Finanzprüfer und interne Finanzteams unerlässlich, um Cloud-Ausgaben nachzuvollziehen, die finanzielle Situation zu bewerten, die FinOps-Reife in verschiedenen Geschäftsbereichen oder Kostenstellen zu beurteilen und eine konsistente finanzielle Darstellung zu ermöglichen.
Mithilfe von Analysen und der Anreicherung von Ausgabendaten Werte ermitteln
Active Assist kann offensichtliche Verschwendung effektiv erkennen. Es kann jedoch schwieriger sein, den Wert zu ermitteln, insbesondere wenn Arbeitslasten auf ungeeigneten Produkten ausgeführt werden oder wenn die Arbeitslasten nicht klar auf den Geschäftswert ausgerichtet sind. Bei FSI-Arbeitslasten geht der geschäftliche Nutzen über die Kostensenkung hinaus. Der Wert umfasst Risikominderung, Einhaltung von Vorschriften und Wettbewerbsvorteile.
Um die Cloud-Ausgaben und den Wert ganzheitlich zu verstehen, benötigen Sie ein umfassendes Verständnis auf mehreren Ebenen: Woher kommen die Ausgaben, welche Geschäftsfunktion wird durch die Ausgaben unterstützt und wie realistisch ist es, die betreffende Arbeitslast umzugestalten oder zu optimieren?
Das folgende Diagramm zeigt, wie Sie die DIKW-Pyramide (Data-Information-Knowledge-Wisdom) und Google Cloud -Tools anwenden können, um ein ganzheitliches Verständnis der Cloud-Kosten und des Cloud-Werts zu erhalten.
Das obige Diagramm zeigt, wie Sie mit dem DIKW-Ansatz Rohdaten zu Cloud-Ausgaben in umsetzbare Erkenntnisse und Entscheidungen umwandeln können, die den Geschäftswert steigern.
- Daten: In dieser Ebene erfassen Sie Rohdatenstreams zu Nutzung und Kosten für Ihre Cloud-Ressourcen. Ihr zentrales FinOps-Team verwendet Tools wie Cloud Billing-Rechnungen, Abrechnungsexporte und Cloud Monitoring, um detaillierte Daten zu erhalten. Ein Beispiel: Ein Datenpunkt könnte sein, dass eine VM mit dem Namen
app1-test-vmA
730 Stunden lang in der Regionus-central1
ausgeführt wurde und 70 $ gekostet hat. - Informationen: In dieser Ebene verwendet Ihr zentrales FinOps-Team Tools wie Cloud-Abrechnungsberichte und den FinOps Hub, um die Rohdaten zu strukturieren und Fragen wie „Für welche Ressourcenkategorien geben Nutzer Geld aus?“ zu beantworten. Beispielsweise stellen Sie fest, dass insgesamt 1.050 $ für VMs des Maschinentyps „n4-standard-2“ in zwei Regionen in den USA ausgegeben wurden.
- Wissen: In dieser Ebene reichert Ihr zentrales FinOps-Team Informationen mit dem entsprechenden geschäftlichen Kontext dazu an, wer Geld ausgegeben hat und zu welchem Zweck. Sie verwenden Mechanismen wie Tagging, Labeling, Ressourcenhierarchie, Abrechnungskonten und benutzerdefinierte Looker-Dashboards. So stellen Sie beispielsweise fest, dass das
app1
-Testteam in den USA in der zweiten Juliwoche im Rahmen eines Stresstests 650 $ ausgegeben hat. - Weisheit: In dieser Ebene nutzen Ihre Produkt- und Anwendungsteams das kontextbezogene Wissen, um den geschäftlichen Wert von Cloud-Ausgaben zu bewerten und fundierte, strategische Entscheidungen zu treffen. Ihre Teams können Fragen wie die folgenden beantworten:
- Wird durch die 5.000 $, die für eine Datenanalyse-Pipeline ausgegeben wurden, ein geschäftlicher Mehrwert erzielt?
- Könnten wir die Pipeline so umgestalten, dass sie effizienter ist, ohne die Leistung zu beeinträchtigen?
Beachten Sie die folgenden Empfehlungen für die Analyse von Cloud-Ausgabendaten.
Ausgabendaten analysieren, die von Google Cloudbereitgestellt werden
Beginnen Sie mit detaillierten Cloud Billing-Daten, die nach BigQuery exportiert werden, und Daten, die in Monitoring-Logs verfügbar sind. Um umsetzbare Statistiken zu erhalten und Entscheidungen zu treffen, müssen Sie diese Daten strukturieren und mit Geschäftskontext anreichern.
Daten mit den verfügbaren Tools visualisieren
Ergänzen Sie die integrierten Google Cloud Dashboards mit benutzerdefinierten Berichten, indem Sie Tools wie Looker Studio für BigQuery-Exporte verwenden. Finanzteams können benutzerdefinierte Dashboards erstellen, in denen die Cloud-Ausgaben in Bezug auf Finanzmesswerte, Anforderungen an die behördliche Berichterstattung und die Rentabilität von Geschäftsbereichen dargestellt werden. So können sie eine klare finanzielle Darstellung für die Analyse und Entscheidungsfindung durch Führungskräfte erstellen.
Ausgaben zuweisen, um die Verantwortlichkeit zu erhöhen
Nachdem Sie die Ursachen für die Cloud-Ausgaben ermittelt haben, müssen Sie herausfinden, wer Geld ausgibt und warum. Dazu ist eine robuste Kostenaufteilung erforderlich, bei der geschäftsrelevante Metadaten an Cloud-Ressourcen angehängt werden. Wenn eine bestimmte Ressource beispielsweise vom Banking-AppDev-Team verwendet wird, können Sie der Ressource ein Tag wie team=banking_appdev
hinzufügen, um die Kosten zu erfassen, die dem Team für diese Ressource entstehen. Im Idealfall sollten Sie 100% Ihrer Cloud-Kosten der Quelle der Ausgaben zuordnen. In der Praxis beginnen Sie möglicherweise mit einem niedrigeren Ziel, da der Aufbau einer Metadatenstruktur zur Unterstützung einer 100-prozentigen Kostenaufteilung komplex ist.
Beachten Sie die folgenden Empfehlungen, um eine Metadatenstrategie zur Unterstützung der Kostenaufteilung zu entwickeln:
- Gültigkeit: Die Tags müssen dazu beitragen, geschäftsbezogene Leistungskennzahlen (KPIs) und behördliche Anforderungen zu identifizieren. Diese Zuordnung ist entscheidend für interne Rückbelastungen, behördliche Berichte und die Abstimmung von Cloud-Ausgaben mit den Zielen der Geschäftseinheit. Die folgenden Tags identifizieren beispielsweise eindeutig ein Ausgabenteam, seine Region und das Produkt, an dem es arbeitet:
team=banking_appdev
,region=emea
,product=frontend
. - Automatisierung: Um ein hohes Maß an Tagging-Compliance zu erreichen, sollten Sie das Tagging durch Automatisierung erzwingen. Die manuelle Tagging-Methode ist fehleranfällig und führt oft zu Inkonsistenzen. Das ist in Finanzdienstleistungsumgebungen, in denen Prüfbarkeit und finanzielle Genauigkeit von größter Bedeutung sind, nicht akzeptabel. Durch automatisches Tagging werden Ressourcen bei der Erstellung richtig kategorisiert.
- Einfachheit: Messen Sie einfache, nicht korrelierte Faktoren. FSI-Umgebungen sind komplex. Damit die Regeln für die Kostenaufteilung in einer solchen Umgebung leicht verständlich und durchsetzbar sind, müssen sie so einfach wie möglich sein. Vermeiden Sie es, die Regeln für sehr spezifische Grenzfälle zu kompliziert zu gestalten. Komplexe Regeln können zu Verwirrung und Widerstand bei den operativen Teams führen.
Nachdem Sie eine Zuweisungsstrategie mithilfe von Tags definiert haben, müssen Sie den Granularitätsgrad festlegen, auf dem die Strategie implementiert werden soll. Die erforderliche Granularität hängt von Ihren Geschäftsanforderungen ab. Einige Organisationen müssen beispielsweise die Kosten auf Produktebene erfassen, andere benötigen Kostendaten für jede Kostenstelle und wieder andere für jede Umgebung (Entwicklung, Staging und Produktion).
Sie haben folgende Möglichkeiten, um die für Ihre Organisation geeignete Granularität der Kostenaufteilung zu erreichen:
- Verwenden Sie die Projekthierarchie in Google Cloud als natürlichen Ausgangspunkt für die Kostenaufteilung. Projekte stellen Punkte der Richtliniendurchsetzung in Google Clouddar. Standardmäßig werden IAM-Berechtigungen, Sicherheitsrichtlinien und Kosten Projekten und Ordnern zugeordnet. Wenn Sie Kostendaten prüfen, die aus der Cloud-Abrechnung exportiert wurden, können Sie die Ordnerhierarchie und die Projekte sehen, die mit den Kostendaten verknüpft sind. Wenn IhreGoogle Cloud Ressourcenhierarchie die Verantwortlichkeitsstruktur Ihrer Organisation für Ausgaben widerspiegelt, ist dies die einfachste Methode zur Implementierung der Kostenzuordnung.
- Verwenden Sie Tags und Labels, um die Daten noch genauer zu analysieren. Sie bieten flexible Möglichkeiten, Ressourcen in Abrechnungsexporten zu kategorisieren. Tags und Labels ermöglichen detaillierte Kostenaufschlüsselungen nach Anwendung und Umgebung.
Häufig müssen Sie die Projekthierarchie in Kombination mit Tagging und Labeling verwenden, um Kosten effektiv zuzuordnen. Unabhängig davon, welchen Ansatz Sie für die Kostenaufteilung wählen, sollten Sie die oben beschriebenen Empfehlungen für die Entwicklung einer robusten Metadatenstrategie befolgen: Validierung, Automatisierung und Einfachheit.
Verantwortlichkeit fördern und Entwickler zum Handeln motivieren
Das Cloud FinOps-Team ist dafür verantwortlich, dass sich eine Organisation der Kosten und des Werts bewusst ist. Die einzelnen Produkt- und Entwicklungsteams müssen die erforderlichen Maßnahmen zur Kostenoptimierung ergreifen. Diese Teams sind auch für das Kostenverhalten der Arbeitslasten für Finanzdienstleistungen verantwortlich und dafür, dass ihre Arbeitslasten den erforderlichen Geschäftswert bieten.
Beachten Sie die folgenden Empfehlungen, um die Verantwortlichkeit zu fördern und Teams zu motivieren, Kosten zu optimieren.
Zentrales FinOps-Team für Governance einrichten
Cloud FinOps-Praktiken entwickeln sich nicht von selbst. Ein dediziertes FinOps-Team muss FinOps-Praktiken definieren und einführen, indem es Folgendes tut:
- Erstellen Sie die erforderlichen Prozesse, Tools und Anleitungen.
- Erstellen, kommunizieren und erzwingen Sie die erforderlichen Richtlinien, z. B. obligatorische Tagging-, Budgetprüfungs- und Optimierungsprozesse.
- Entwicklungsteams dazu anregen, die Kostenverantwortung zu übernehmen
- Greifen Sie ein, wenn die Entwicklungsteams keine Verantwortung für die Kosten übernehmen.
Unterstützung und Mandate von Führungskräften erhalten
Die Führungsebene, einschließlich CTO, CFO und CIO, muss sich aktiv für eine unternehmensweite Umstellung auf eine FinOps-Kultur einsetzen. Ihre Unterstützung ist entscheidend, um die Kostenverantwortung zu priorisieren, Ressourcen für das FinOps-Programm zuzuweisen, die funktionsübergreifende Beteiligung zu gewährleisten und die Einhaltung der FinOps-Anforderungen zu fördern.
Teams anreizen, Kosten zu optimieren
Ingenieure und Engineering-Teams sind möglicherweise nicht motiviert, sich auf die Kostenoptimierung zu konzentrieren. Es ist wichtig, Team- und individuelle Ziele mit Kosteneffizienz in Einklang zu bringen, indem Sie Anreize wie die folgenden schaffen:
- Einen Teil der Einsparungen aus der Kostenoptimierung in die Teams reinvestieren, die die Optimierung erreicht haben.
- Erfolge und Bemühungen zur Kostenoptimierung öffentlich anerkennen und feiern.
- Setzen Sie Gamification-Techniken ein, um Teams zu belohnen, die Kosten effektiv optimieren.
- Effizienzmesswerte in Leistungsziele einbeziehen
Showback- und Chargeback-Techniken implementieren
Sorgen Sie dafür, dass Teams einen klaren Überblick über die Cloud-Ressourcen und -Kosten haben, für die sie verantwortlich sind. Weisen Sie den entsprechenden Personen in den Teams die finanzielle Verantwortung zu. Verwenden Sie formale Mechanismen, um einheitliches Tagging zu erzwingen und transparente Regeln für die Zuweisung gemeinsamer Kosten zu implementieren.
Schwerpunkt auf Wert und Gesamtbetriebskosten statt auf Kosten legen
Berücksichtigen Sie bei der Bewertung von Cloud-Lösungen die langfristigen Gesamtbetriebskosten. So kann das Selbsthosting einer Datenbank für eine Anwendung beispielsweise günstiger erscheinen als die Verwendung eines verwalteten Datenbankdienstes wie Cloud SQL. Um den langfristigen Wert und die Gesamtbetriebskosten zu ermitteln, müssen Sie jedoch die versteckten Kosten berücksichtigen, die mit selbst gehosteten Datenbanken verbunden sind. Dazu gehören der spezielle technische Aufwand für das Patchen, Skalieren, die Sicherheitsoptimierung und die Notfallwiederherstellung, die kritische Anforderungen für FSI-Arbeitslasten sind. Managed Services bieten einen deutlich höheren langfristigen Nutzen, der die Infrastrukturkosten ausgleicht. Verwaltete Dienste bieten robuste Compliance-Funktionen, haben integrierte Zuverlässigkeitsfunktionen und können dazu beitragen, den Betriebsaufwand zu reduzieren.
Beachten Sie die folgenden Empfehlungen, um sich auf den Wert und die Gesamtbetriebskosten zu konzentrieren.
Produktspezifische Techniken und Tools zur Ressourcenoptimierung verwenden
Nutzen Sie Tools und Funktionen zur Kostenoptimierung, die von Google Cloud-Produkten bereitgestellt werden, z. B.:
- Compute Engine: Automatische Skalierung, benutzerdefinierte Maschinentypen, und Spot-VMs
- GKE: Cluster-Autoscaler und automatische Knotenbereitstellung
- Cloud Storage: Verwaltung des Objektlebenszyklus und Autoclass
- BigQuery: Kapazitätsbasierte Preise und Techniken zur Kostenoptimierung
- Google Cloud VMware Engine: Rabatte für zugesicherte Nutzung, optimierter Speicher und andere Strategien zur Kostenoptimierung
Rabatte nutzen
Sorgen Sie dafür, dass der Abrechnungssatz für Ihre Cloud-Ressourcen so niedrig wie möglich ist, indem Sie von Google angebotene Rabatte nutzen. Die einzelnen Produkt- und Entwicklungsteams sind in der Regel für die Ressourcenoptimierung zuständig. Das zentrale FinOps-Team ist für die Optimierung der Abrechnungspreise verantwortlich, da es die Ressourcenanforderungen der gesamten Organisation im Blick hat. So können sie die Anforderungen zusammenfassen und die rabattierten Preise für Zusagen maximieren.
Sie können die folgenden Arten von Rabatten fürGoogle Cloud -Ressourcen nutzen:
- Enterprise-Rabatte sind ausgehandelte Rabatte, die auf der Zusicherung Ihrer Organisation basieren, einen Mindestbetrag für Google Cloud zu einem reduzierten Abrechnungssatz auszugeben.
- Ressourcenbasierte CUDs erhalten Sie im Gegenzug für die Zusicherung, über einen Zeitraum von einem oder drei Jahren eine Mindestmenge an Compute Engine-Ressourcen zu nutzen. Ressourcenbasierte CUDs gelten für die Ressourcen, die sich in einem bestimmten Projekt und einer bestimmten Region befinden. Wenn Sie Rabatte für zugesicherte Nutzung auf mehrere Projekte aufteilen möchten, können Sie die Rabattfreigabe aktivieren.
- Ausgabenbasierte CUDs erhalten Sie, wenn Sie sich verpflichten, über einen Zeitraum von einem oder drei Jahren einen Mindestbetrag für ein bestimmtes Produkt auszugeben. Ausgabenbasierte Rabatte gelten auf Rechnungskontoebene. Die Rabatte werden je nach Produkt regional oder global angewendet.
Sie können erhebliche Einsparungen erzielen, wenn Sie Rabatte für zugesicherte Nutzung zusätzlich zu Unternehmensrabatten nutzen.
Zusätzlich zu CUDs können Sie die folgenden Ansätze verwenden, um die Abrechnungssätze zu senken:
- Verwenden Sie Spot-VMs für fehlertolerante und flexible Arbeitslasten. Spot-VMs sind mehr als 80% günstiger als reguläre VMs.
- BigQuery bietet mehrere Preismodelle, darunter On-Demand-Preise und versionsbasierte Preise, die auf Zusagen und Autoscaling-Anforderungen basieren. Wenn Sie eine große Menge an BigQuery-Ressourcen verwenden, sollten Sie eine geeignete Version auswählen, um die Kosten pro Slot für Analysearbeitslasten zu senken.
- Prüfen Sie sorgfältig die verfügbaren Google Cloud Regionen für die Dienste, die Sie verwenden müssen. Wählen Sie Regionen aus, die Ihren Kostenzielen und Faktoren wie Latenz und Compliance-Anforderungen entsprechen. Mit dem Google Cloud Region Picker können Sie die Kompromisse zwischen Kosten, Nachhaltigkeit und Latenz nachvollziehen.
FSI-Perspektive: Leistungsoptimierung
Dieses Dokument im Google Cloud Well-Architected Framework: FSI perspective bietet einen Überblick über Prinzipien und Empfehlungen zur Optimierung der Leistung Ihrer Arbeitslasten für die Finanzdienstleistungsbranche (Financial Services Industry, FSI) in Google Cloud. Die Empfehlungen in diesem Dokument entsprechen der Säule zur Leistungsoptimierung des Well-Architected Framework.
Die Leistungsoptimierung hat in der Finanzdienstleistungsbranche eine lange Tradition. Sie hat Finanzinstituten geholfen, technische Herausforderungen zu meistern, und war fast immer ein Enabler oder Beschleuniger für die Entwicklung neuer Geschäftsmodelle. Geldautomaten (1967 eingeführt) haben beispielsweise die Bargeldausgabe automatisiert und Banken geholfen, die Kosten ihres Kerngeschäfts zu senken. Techniken wie das Umgehen des Betriebssystemkernels und das Anpinnen von Anwendungs-Threads an Rechenkerne trugen dazu bei, deterministische und niedrige Latenzzeiten für Trading-Anwendungen zu erreichen. Die geringere Latenz führte zu einer höheren und stabileren Liquidität mit engeren Spreads auf den Finanzmärkten.
Die Cloud bietet neue Möglichkeiten zur Leistungsoptimierung. Außerdem werden einige der bisher akzeptierten Optimierungsmuster infrage gestellt. Insbesondere die folgenden Kompromisse sind in der Cloud transparenter und besser kontrollierbar:
- Produkteinführungszeit im Vergleich zu Kosten.
- End-to-End-Leistung auf Systemebene im Vergleich zur Leistung auf Knotenebene.
- Verfügbarkeit von Fachkräften im Vergleich zur Agilität der technologiebezogenen Entscheidungsfindung.
So ist es beispielsweise in der Cloud ganz einfach, Hardware und IT-Ressourcen an bestimmte Kompetenzanforderungen anzupassen. Zur Unterstützung der GPU-Programmierung können Sie ganz einfach GPU-basierte VMs erstellen. Sie können die Kapazität in der Cloud skalieren, um Nachfragespitzen zu bewältigen, ohne Ressourcen überzubereitstellen. So können Sie sicherstellen, dass Ihre Arbeitslasten Spitzenlasten bewältigen können, z. B. an Tagen, an denen die Lohn- und Gehaltsabrechnungen außerhalb der Landwirtschaft veröffentlicht werden, und wenn das Handelsvolumen deutlich höher ist als in der Vergangenheit. Anstatt hochoptimierten Code auf der Ebene einzelner Server zu schreiben (z. B. hochgradig optimierter Code in der Programmiersprache C) oder Code für herkömmliche Hochleistungs-Computing-Umgebungen (HPC) zu schreiben, können Sie optimal skalieren, indem Sie ein gut strukturiertes Kubernetes-basiertes verteiltes System verwenden.
Die Empfehlungen zur Leistungsoptimierung in diesem Dokument sind den folgenden Grundprinzipien zugeordnet:
- Technologie-Leistungsmesswerte an wichtigen Geschäftskennzahlen ausrichten
- Sicherheit priorisieren, ohne die Leistung für unbewiesene Risiken zu beeinträchtigen
- Architektur an neue Möglichkeiten und Anforderungen anpassen
- Technologie zukunftssicher machen, um aktuelle und zukünftige Geschäftsanforderungen zu erfüllen
Technologie-Leistungsmesswerte an wichtigen Geschäftskennzahlen ausrichten
Es gibt verschiedene Möglichkeiten, die Leistungsoptimierung den Geschäftsergebnissen zuzuordnen. In einem Buy-Side-Research-Desk könnte ein Geschäftsziel beispielsweise darin bestehen, die Leistung pro Forschungsstunde zu optimieren oder Experimente von Teams mit einer nachgewiesenen Erfolgsbilanz zu priorisieren, z. B. mit höheren Sharpe Ratios. Auf der Verkaufsseite können Sie mit Analysen das Interesse der Kunden verfolgen und den Durchsatz zu KI-Modellen, die die interessantesten Recherchen unterstützen, entsprechend priorisieren.
Es ist auch wichtig, Leistungsziele mit wichtigen KPIs (Key Performance Indicators) des Unternehmens zu verknüpfen, um Leistungsverbesserungen zu finanzieren. Initiativen zur Geschäftsinnovation und -transformation (manchmal auch als Change-the-Bank-Bemühungen bezeichnet) haben unterschiedliche Budgets und möglicherweise unterschiedliche Zugriffsrechte auf Ressourcen im Vergleich zu BAU- oder Run-the-Bank-Vorgängen. Google Cloud hat beispielsweise den Risikomanagement- und Technologieteams einer G-SIFI geholfen,mit den quantitativen Analysten des Frontoffice an einer Lösung für die Durchführung von Risikoanalyseberechnungen (z. B. XVA) in Minuten statt Stunden oder Tagen zusammenzuarbeiten. Diese Lösung hat der Organisation geholfen, die relevanten Compliance-Anforderungen zu erfüllen. Außerdem konnten die Händler qualitativ hochwertigere Gespräche mit ihren Kunden führen und potenziell engere Spreads, eine höhere Liquidität und kostengünstigere Absicherungen anbieten.
Wenn Sie Ihre Leistungsmesswerte an Geschäftsindikatoren anpassen, sollten Sie die folgenden Empfehlungen berücksichtigen:
- Verknüpfen Sie jede Technologieinitiative mit den relevanten Geschäftszielen und ‑schlüsselresultaten (Objectives and Key Results, OKRs), z. B. Umsatz- oder Gewinnsteigerung, Kostensenkung und effizientere oder ganzheitlichere Risikominimierung.
- Konzentrieren Sie sich auf die Optimierung der Leistung auf Systemebene. Sehen Sie über die herkömmliche Trennung zwischen „Change the Bank“ und „Run the Bank“ sowie zwischen Front- und Backoffice hinaus.
Sicherheit priorisieren, ohne die Leistung für unbewiesene Risiken zu beeinträchtigen
Sicherheit und Einhaltung von Vorschriften in Finanzinstituten müssen zweifelsfrei auf hohem Niveau sein. Ein hoher Standard ist unerlässlich, um Kunden nicht zu verlieren und irreparablen Schaden für die Marke eines Unternehmens zu vermeiden. Der größte Mehrwert wird häufig durch technologische Innovationen wie generative KI und einzigartige verwaltete Dienste wie Spanner erzielt. Solche Technologieoptionen sollten nicht automatisch aufgrund eines pauschalen Missverständnisses über ein unvertretbares Betriebsrisiko oder eine unzureichende Einhaltung von Vorschriften verworfen werden.
Google Cloud hat eng mit G-SIFIs zusammengearbeitet, um sicherzustellen, dass ein KI-basierter Ansatz für Anti-Money Laundering (AML) in allen Gerichtsbarkeiten verwendet werden kann, in denen die Institute Kunden bedienen. HSBC hat die Leistung seiner Abteilung für Finanzkriminalität (Fincrime) deutlich verbessert. Die Ergebnisse sind:
- Fast zwei- bis viermal mehr bestätigte verdächtige Aktivitäten.
- Senkung der Betriebskosten durch die Eliminierung von über 60% der falsch positiven Ergebnisse und die Konzentration der Untersuchungszeit auf risikoreiche, umsetzbare Benachrichtigungen.
- Prüfbare und erklärbare Ergebnisse zur Unterstützung der Einhaltung gesetzlicher Vorschriften.
Beachten Sie die folgenden Empfehlungen:
- Prüfen Sie, ob die Produkte, die Sie verwenden möchten, die Sicherheits-, Resilienz- und Complianceanforderungen für die Gerichtsbarkeiten erfüllen, in denen Sie tätig sind. Um dieses Ziel zu erreichen, arbeiten Sie mit Google CloudAccount-Management-, Risikomanagement- und Produktteams zusammen.
- Leistungsfähigere Modelle erstellen und Kunden Transparenz bieten, indem Sie die Erklärbarkeit von KI nutzen (z. B. Shapley-Wert-Attribution). Mit Techniken wie der Shapley-Wert-Attribution können Modellentscheidungen bestimmten Features auf der Eingabeebene zugeordnet werden.
Sorgen Sie für Transparenz bei generativen KI-Arbeitslasten, indem Sie Techniken wie Quellenangaben, Grounding und RAG verwenden.
Wenn die Erklärbarkeit nicht ausreicht, trennen Sie die Entscheidungsschritte in Ihren Wertströmen und verwenden Sie KI nur, um die Schritte zu automatisieren, bei denen keine Entscheidungen getroffen werden müssen. In einigen Fällen reicht erklärbare KI möglicherweise nicht aus oder ein Prozess erfordert aufgrund von behördlichen Bedenken (z. B. DSGVO, Artikel 22) menschliches Eingreifen. Stellen Sie in solchen Fällen alle Informationen, die der Kundenservicemitarbeiter für die Entscheidungsfindung benötigt, in einem einzigen Steuerfeld dar, automatisieren Sie jedoch die Aufgaben zum Erfassen, Aufnehmen, Bearbeiten und Zusammenfassen von Daten.
Architektur an neue Möglichkeiten und Anforderungen anpassen
Wenn Sie Ihre aktuellen Architekturen mit cloudbasierten Funktionen erweitern, kann das einen erheblichen Mehrwert bieten. Um transformative Ergebnisse zu erzielen, müssen Sie Ihre Architektur regelmäßig mit einem Cloud-First-Ansatz überdenken.
Beachten Sie die folgenden Empfehlungen, um die Architektur Ihrer Arbeitslasten regelmäßig zu überdenken und die Leistung weiter zu optimieren.
Cloudbasierte Alternativen zu lokalen HPC-Systemen und ‑Schedulern verwenden
Um von höherer Elastizität, einem verbesserten Sicherheitsstatus und umfassenden Monitoring- und Governance-Funktionen zu profitieren, können Sie HPC-Arbeitslasten in der Cloud ausführen oder lokale Arbeitslasten in die Cloud verlagern. Für bestimmte Anwendungsfälle für die numerische Modellierung, z. B. die Simulation von Anlagestrategien oder die XVA-Modellierung, kann die Kombination von Kubernetes mit Kueue jedoch eine leistungsstärkere Lösung bieten.
Auf grafische Programmierung für Simulationen umstellen
Monte-Carlo-Simulationen können in einem auf Graphen basierenden Ausführungssystem wie Dataflow viel leistungsfähiger sein. HSBC verwendet Dataflow beispielsweise, um Risikoberechnungen 16-mal schneller als mit dem bisherigen Ansatz auszuführen.
Cloudbasierte Börsen und Handelsplattformen betreiben
Gespräche mit Google Cloud Kunden haben ergeben, dass das Pareto-Prinzip (80/20) für die Leistungsanforderungen von Markt- und Handelsanwendungen gilt.
- Für mehr als 80% der Trading-Anwendungen ist keine extrem niedrige Latenz erforderlich. Sie profitieren jedoch erheblich von den Funktionen der Cloud in Bezug auf Resilienz, Sicherheit und Elastizität. BidFX, eine Multi-Dealer-Plattform für den Devisenhandel, nutzt die Cloud beispielsweise, um schnell neue Produkte einzuführen und Verfügbarkeit und Reichweite deutlich zu steigern, ohne die Ressourcen zu erhöhen.
- Die verbleibenden Anwendungen (weniger als 20%) benötigen eine niedrige Latenz (weniger als eine Millisekunde), Determinismus und Fairness bei der Zustellung von Nachrichten. Normalerweise werden diese Systeme in starren und teuren Colocation-Einrichtungen betrieben. Auch diese Kategorie von Anwendungen wird zunehmend in die Cloud migriert, entweder am Edge oder als Cloud-First-Anwendungen.
Technologie zukunftssicher machen, um aktuelle und zukünftige Geschäftsanforderungen zu erfüllen
In der Vergangenheit haben viele Finanzinstitute eigene Technologien entwickelt, um sich einen Wettbewerbsvorteil zu verschaffen. So hatten beispielsweise erfolgreiche Investmentbanken und Handelsunternehmen in den frühen 2000er-Jahren eigene Implementierungen von grundlegenden Technologien wie Pub/Sub-Systemen und Message-Brokern. Mit der Entwicklung von Open-Source-Technologien und der Cloud sind solche Technologien zu Commodities geworden und bieten keinen zusätzlichen geschäftlichen Mehrwert.
Beachten Sie die folgenden Empfehlungen, um Ihre Technologie zukunftssicher zu machen.
Einführung eines Data-as-a-Service-Ansatzes (DaaS) für eine schnellere Markteinführung und Kostentransparenz
FSI-Organisationen entwickeln sich oft durch eine Kombination aus organischem Wachstum und Fusionen und Übernahmen (Mergers and Acquisitions, M&A). Daher müssen die Organisationen unterschiedliche Technologien integrieren. Außerdem müssen sie doppelte Ressourcen wie Datenanbieter, Datenlizenzen und Integrationspunkte verwalten. Google Cloud bietet Möglichkeiten, um bei Integrationen nach Fusionen einen differenzierten Mehrwert zu schaffen.
Sie können beispielsweise Dienste wie BigQuery-Freigabe verwenden, um eine Analyse-fähige Data-as-a-Service-Plattform (DaaS) zu erstellen. Die Plattform kann sowohl Marktdaten als auch Eingaben aus alternativen Quellen liefern. So müssen keine redundanten Datenpipelines erstellt werden und Sie können sich auf wichtigere Initiativen konzentrieren. Außerdem können die fusionierten oder übernommenen Unternehmen ihre Anforderungen an die Datenlizenzierung und Infrastruktur nach der Fusion schnell und effizient rationalisieren. Statt sich mit der Anpassung und Zusammenführung von Legacy-Datenbeständen und ‑Vorgängen zu befassen, kann sich das kombinierte Unternehmen auf neue Geschäftsmöglichkeiten konzentrieren.
Abstraktionsebene erstellen, um vorhandene Systeme zu isolieren und neue Geschäftsmodelle zu berücksichtigen
Der Wettbewerbsvorteil für Banken liegt zunehmend nicht im Kernbanksystem, sondern in der Kundenerlebnisschicht. In älteren Bankensystemen werden jedoch häufig monolithische Anwendungen verwendet, die in Sprachen wie Cobol entwickelt wurden und in die gesamte Wertschöpfungskette der Bank integriert sind. Diese Integration erschwerte die Trennung der Ebenen der Wertschöpfungskette, sodass es nahezu unmöglich war, solche Systeme zu aktualisieren und zu modernisieren.
Eine Lösung für diese Herausforderung ist die Verwendung einer Isolationsschicht wie eines API-Verwaltungssystems oder einer Staging-Schicht wie Spanner, die das Book of Record dupliziert und die Modernisierung von Diensten mit erweiterten Analysen und KI erleichtert. Die Deutsche Bank hat beispielsweise Spanner verwendet, um ihre Legacy-Core-Banking-Umgebung zu isolieren und mit Innovationen zu beginnen.