Operative Exzellenz

In diesem Abschnitt des Architektur-Frameworks erfahren Sie, wie Sie durch das effiziente Ausführen, Verwalten und Monitoring von Systemen, die einen Nutzen für das Unternehmen bieten, eine operative Exzellenz erzielen.

Das Framework besteht aus folgender Artikelreihe:

Operative Exzellenz hilft Ihnen, die Grundlage für ein weiteres wichtiges Prinzip, die Zuverlässigkeit, zu schaffen. Im Abschnitt Zuverlässigkeit finden Sie entsprechende technische und prozedurale Anforderungen für die Architektur und den Betrieb zuverlässiger Dienste in Google Cloud.

Strategien

Nutzen Sie diese Strategien für operative Exzellenz.

Build, Test und Bereitstellung automatisieren: Verwenden Sie Pipelines zur Continuous Integration und kontinuierlichen Bereitstellung (CI/CD), um automatisierte Tests in Ihre Releases einzubinden. Führen Sie automatisierte Integrationstests und Bereitstellungen durch.

Messwerte zu Geschäftszielen überwachen: Definieren, messen und melden Sie relevante Geschäftsmesswerte.

Tests zur Notfallwiederherstellung durchführen: Warten Sie nicht auf den Notfall. Prüfen Sie stattdessen regelmäßig, ob Ihre Notfallwiederherstellungsverfahren funktionieren, und testen Sie die Prozesse regelmäßig.

Best Practices

Befolgen Sie diese Vorgehensweisen für operative Exzellenz.

  • Erhöhen Sie die Geschwindigkeit der Softwareentwicklung und des Releases.
  • Überwachen Sie die System- und Geschäftsintegrität.
  • Planen Sie Ausfälle im Design ein.

In den folgenden Abschnitten werden die Best Practices ausführlich beschrieben.

Entwicklungs- und Release-Geschwindigkeit erhöhen

Verwenden Sie einen CI/CD-Ansatz, um die Geschwindigkeit zu erhöhen. Zuerst steigern Sie die Produktivität Ihres Softwareentwicklungsteams und automatisieren Integrationstests in den Build-Prozess. Sie automatisieren die Bereitstellung, nachdem Ihr Build Ihre spezifischen Testkriterien erfüllt hat. Ihre Entwickler können kleinere und häufigere Änderungen vornehmen. Die Änderungen werden gründlich getestet und die Bereitstellungszeit wird reduziert.

In diesem Abschnitt werden die Elemente eines CI/CD-Ansatzes beschrieben: Release-Engineering, Automatisierung, zentrale Code-Repositories, Build-Pipelines, Tests und Bereitstellung.

Release-Engineering

Release-Engineering ist eine Jobfunktion, die überwacht, wie Software erstellt und bereitgestellt wird. Das Release-Engineering basiert auf vier Vorgehensweisen:

  • Selfservice-Modus: Erstellen Sie Richtlinien, mit denen Softwareentwickler häufige Fehler vermeiden können. Dies wird durch automatisierte Prozesse erzwungen.
  • Häufige Releases: Eine hohe Geschwindigkeit hilft bei der Fehlerbehebung. Häufige Releases basieren auf automatisierten Einheitentests.
  • Hermetische Builds: Achten Sie auf Konsistenz mit Ihren Build-Tools. Versionieren Sie die Build-Compiler, die Sie zum Erstellen von Versionen im Vergleich zu vor einem Monat verwenden.
  • Richtlinienerzwingung: Alle Änderungen erfordern eine Codeüberprüfung, idealerweise eine Reihe von Richtlinien zur Durchsetzung der Sicherheit. Dies verbessert die Codeüberprüfung, Fehlerbehebung und das Testen eines neuen Releases.

Automatisierung

Automatisieren Sie Ihre Build- und Release-Pipeline, um nach bekannten Problemen zu suchen und schnelle Tests durchzuführen. Sie können die Automatisierung auch verwenden, um sich wiederholende Aufgaben zu vermeiden.

Zentrale Code-Repositories

Speichern Sie Ihren Code nach Bedarf in einem zentralen Repository, das versioniert und mit einem Label versehen ist (z. B. test, dev, prod). Durch diese Schritte liefert Ihre Build-Pipeline konsistente Ergebnisse. In Google Cloud können Sie Ihren Code in der Cloud Source Repositories-Version speichern und in verschiedene Produkte einbinden.

Build-Pipelines

Versionieren Sie Ihre Build-Konfiguration, damit alle Builds konsistent sind und Sie bei Bedarf ein Rollback zur letzten, bekanntesten Konfiguration durchführen können. In Google Cloud können Sie mit Cloud Build Abhängigkeiten und Versionen zum Erstellen eines Anwendungspakets definieren. Mit Cloud Functions können Sie regelmäßig einen Build-Prozess oder Builds für bestimmte Ereignisse auslösen, wenn neuer Code eingecheckt wird. Sie können Cloud Functions auch verwenden, um Tests auszulösen und die gesamte Pipeline zu automatisieren.

Test

Tests sind ein wichtiger Bestandteil einer erfolgreichen Markteinführung. Beispiele für Tests:

  • Einheitentest: Einheitentests sind schnell und helfen Ihnen, schnelle Bereitstellungen durchzuführen.
  • Integrationstests: Diese Tests können komplex werden, wenn Sie die Integration mit verbundenen Diensten testen.
  • Systemtests: Systemtests sind zeitaufwendig und komplex. Sie helfen Ihnen jedoch, Grenzfälle zu erkennen und Probleme vor der Bereitstellung zu beheben.

Sie können weitere Tests durchführen, einschließlich statischer Tests, Lasttests, Sicherheitstests usw., bevor Sie Ihre Anwendung in der Produktion bereitstellen. Nachdem Sie die Tests automatisiert haben, können Sie neue Tests aktualisieren und hinzufügen, um den Betriebszustand Ihrer Bereitstellung zu verbessern.

Deployment

Sie können auswählen, wie Ihre Anwendung eingeführt wird. Es empfiehlt sich, Canary-Tests durchzuführen und Ihr System auf Fehler zu überwachen. Dies ist einfacher, wenn Sie ein stabiles System zum Monitoring und Benachrichtigen haben. In Google Cloud können Sie verwaltete Instanzgruppen (MIGs) für A/B- oder Canary-Tests verwenden und bei Bedarf ein langsames Rollout oder Rollback durchführen.

Fragen zum Design

  • Wie verwaltet Ihr Entwicklungsteam Build und Release?
  • Welche Integrations- und Sicherheitstests verwendet Ihr Entwicklungsteam?
  • Wie wird ein Rollback durchgeführt?

Empfehlungen

  • Machen Sie die CI/CD-Pipeline zur einzigen Möglichkeit für die Bereitstellung in der Produktion.
  • Isolieren und schützen Sie Ihre CI/CD-Umgebung.
  • Führen Sie nur ein Build durch und stufen Sie das Ergebnis über die Pipeline hoch.
  • Halten Sie Ihre CI/CD-Pipelines schnell.
  • Minimieren Sie Verzweigungen in Ihrem Versionsverwaltungssystem.

Vorteile

Cloud Source Repositories ist ein privater Git-Repository-Dienst mit vollem Funktionsumfang, der in Google Cloud gehostet wird. Sie können Cloud Source Repositories für die gemeinsame Entwicklung einer beliebigen Anwendung oder eines Dienstes verwenden.

Container Registry ist ein zentraler Ort, an dem Ihr Team Docker-Images verwalten, die Sicherheit analysieren und detailliert entscheiden kann, wer worauf Zugriff erhält. Mit der Integration bestehender CI/CD-Strukturen können Sie vollautomatische Docker-Pipelines einrichten und so schnell Feedback erhalten.

Cloud Build ist ein Dienst, der Ihre Builds in der Google Cloud-Infrastruktur ausführt. Cloud Build kann Quellcode aus GitHub, Bitbucket, Cloud Storage oder Cloud Source Repositories importieren, einen Build nach Ihren Vorgaben ausführen und Artefakte wie Docker-Container oder Java-Archive erstellen.

System- und Geschäftsintegrität überwachen

Das Projekt DevOps Resource and Assessment (DORA) definiert Monitoring so:

Monitoring ist der Prozess zum Erfassen, Analysieren und Nutzen von Informationen aus der Überwachung von Anwendungen und Infrastrukturen, um fundierte Geschäftsentscheidungen zu treffen. Monitoring ist eine wichtige Funktion, die Ihnen Einblicke in Ihre Systeme und Arbeitsvorgänge verleiht.

Durch Monitoring können Sie Entscheidungen zu den Auswirkungen von Änderungen an Ihrem Dienst treffen, die wissenschaftliche Methode auf die Reaktion auf Vorfälle anwenden und die Ausrichtung Ihres Dienstes auf Ihre Geschäftsziele messen. Wenn das Monitoring aktiviert ist, können Sie Folgendes tun:

  • Langfristige Trends analysieren.
  • Ihre Tests im Zeitverlauf vergleichen.
  • Benachrichtigungen für wichtige Messwerte definieren.
  • Relevante Echtzeit-Dashboards erstellen.
  • Eine Aufarbeitungsanalyse durchführen.

Überwachen Sie sowohl Messwerte zum Unternehmen als auch zum Systemzustand. Messwerte zum Unternehmen geben Aufschluss darüber, wie gut Ihre Systeme Ihr Unternehmen unterstützen. Sie können beispielsweise die Kosten für die Bereitstellung eines Nutzers in einer Anwendung, die Änderung des Traffic-Volumens auf Ihre Website nach einer Neugestaltung oder wie lange es dauert, bis ein Kunde ein Produkt auf Ihrer Website kauft, überwachen. Messwerte zum Systemzustand geben Aufschluss darüber, ob Ihre Systeme ordnungsgemäß funktionieren und sich innerhalb eines akzeptablen Leistungsniveaus befinden.

Verwenden Sie zum Monitoring Ihres Systems die folgenden vier goldenen Signale:

  • Latenz: Die Zeit, die für die Bearbeitung einer Anfrage benötigt wird.
  • Traffic: Gibt an, wie hoch die Nachfrage für Ihr System ist.
  • Fehler: Die Rate der fehlgeschlagenen Anfragen. Anfragen können explizit (z. B. HTTP 500s), implizit (z. B. eine HTTP 200-Erfolgsantwort, aber mit falschem Inhalt) oder durch Richtlinien fehlschlagen (z. B. wenn Sie sich auf Antwortzeiten von einer Sekunde festgelegt haben, ist jede Anfrage, die länger als zwei Sekunden dauert, ein Fehler).
  • Auslastung: Gibt an, wie ausgelastet Ihr Dienst ist. Ein Maß für Ihre am meisten eingeschränkten Ressourcen. In einem System mit beschränktem Speicher wird der Speicher in einem E/A-beschränkten System E/A angezeigt.

Logging

Logging-Dienste sind für das Monitoring Ihrer Systeme entscheidend. Während Messwerte die Grundlage für bestimmte zu überwachende Elemente bilden, enthalten Logs wertvolle Informationen, die Sie für die Fehlerbehebung, sicherheitsbezogene Analysen und Compliance-Anforderungen benötigen. Google Cloud umfasst Cloud Logging, einen integrierten Logging-Dienst, mit dem Sie Logdaten und Ereignisse aus Google Cloud speichern, suchen, analysieren, überwachen und Benachrichtigungen dazu erhalten können. Cloud Logging erfasst automatisch Logs aus Google Cloud-Diensten. Sie können diese Logs verwenden, um Messwerte für das Monitoring zu erstellen und Logging-Exporte in externen Diensten wie Cloud Storage, BigQuery und Pub/Sub zu erstellen.

Messwerte

Definieren Sie Messwerte, um das Verhalten Ihrer Bereitstellung zu messen. Achten Sie darauf, dass Ihre Messwertdefinitionen immer den geschäftlichen Anforderungen entsprechen, und erwägen Sie, einige Messwerte zu kombinieren, um Service Level Indicators (SLIs) zu bilden. Weitere Informationen finden Sie unter Zuverlässigkeit.

Alle Ebenen Ihres Dienstes erstellen Messwerte, von der Infrastruktur über Netzwerke bis hin zur Geschäftslogik. Beispiele:

  • Anfragen pro Sekunde, gemessen vom Load-Balancer.
  • Gesamtzahl der gelesenen Laufwerksblöcke pro Laufwerk.
  • Pakete, die über eine bestimmte Netzwerkschnittstelle gesendet werden.
  • Größe des Arbeitsspeicher-Heaps für einen bestimmten Prozess.
  • Verteilung der Antwortlatenzen.
  • Anzahl der ungültigen Abfragen, die von einer Datenbankinstanz abgelehnt wurden.

Überwachung

Das Monitoring einer komplexen Anwendung ist an sich ein erhebliches technisches Unterfangen. Google Cloud bietet Cloud Monitoring, einen verwalteten Dienst, der Teil der Operations-Suite von Google Cloud ist. Sie können Cloud Monitoring verwenden, um Google Cloud-Dienste und benutzerdefinierte Messwerte zu überwachen. Cloud Monitoring bietet eine API für die Integration mit Monitoringtools von Drittanbietern.

Cloud Monitoring bietet zusammengefasste Messwerte, Logs und Ereignisse zur Infrastruktur. Damit stehen Entwicklern und Operatoren zahlreiche Informationen zur Verfügung, mit denen sie Fehlerursachen schneller ermitteln können. Mit Cloud Monitoring wird auch die durchschnittliche Zeit der Problembehebung (Mean Time To Resolution, MTTR) verkürzt. Sie können Benachrichtigungen und benutzerdefinierte Messwerte definieren, die Ihren Geschäftszielen entsprechen und Sie beim Zusammenfassen, Visualisieren und Monitoring Ihres Systemzustands unterstützen.

Cloud Monitoring bietet Standard-Dashboards für Cloud- und Open-Source-Anwendungsdienste. Mit dem Messwertmodell können Sie benutzerdefinierte Dashboards mit leistungsstarken Visualisierungstools definieren und Diagramme im Metrics Explorer konfigurieren.

Dashboards

Nachdem Sie das Monitoring eingerichtet haben, erstellen Sie Dashboards, die für Sie relevant sind, um Aktionen auszuführen. Gestalten Sie Ihre Dashboards einfach und übersichtlich. Sie sollten sowohl kurzfristige als auch langfristige und Echtzeitanalysen durchführen und diese visualisieren. Weitere Informationen finden Sie unter Zuverlässigkeit.

Benachrichtigungen

Achten Sie darauf, dass Ihr Benachrichtigungssystem den vier goldenen Signalen zum Monitoring Ihres Systems direkt zugeordnet ist, damit Sie die Leistung im Zeitverlauf vergleichen können, um die Funktionsgeschwindigkeit zu ermitteln oder Änderungen rückgängig zu machen.

Machen Sie Benachrichtigungen umsetzbar. Wenn Sie Benachrichtigungen senden, fügen Sie eine Beschreibung hinzu und geben Sie alle Informationen an, die der Bereitschaftsdienst sofort ergreifen muss. Er sollte nur wenige Klicks und Aufrufe benötigen, um zu verstehen, wie er auf Benachrichtigungen reagieren muss.

Versuchen Sie immer, zusätzlichen Aufwand zu vermeiden, indem Sie z. B. Fehlerbehebungen für häufig auftretende Fehler vermeiden oder automatisieren. Ermöglichen Sie dem Bereitschaftsdienst, sich auf die Zuverlässigkeit der Betriebskomponenten zu konzentrieren. Weitere Informationen finden Sie unter Zuverlässigkeit.

Eskalationspfad

Ein klar definierter Eskalationspfad ist entscheidend, um den Aufwand für den Support für Google Cloud-Produkte zu reduzieren. Auf diesem Pfad erfahren Sie, wie Sie mit dem Google-Supportteam zusammenarbeiten, Architekturdokumente für Supporttechniker finden, die Kommunikation während eines Ausfalls definieren und das Monitoring und Logging zur Problemdiagnose einrichten.

Sie können mit der Definition eines Eskalationspfads beginnen, indem Sie dafür sorgen, dass Sicherheits-, Netzwerk- und Systemadministratoren ordnungsgemäß eingerichtet sind, um wichtige E-Mails und Benachrichtigungen von Google Cloud zu erhalten. So können Administratoren fundierte Entscheidungen treffen und Probleme frühzeitig beheben. Ebenso sollten Projektinhaber über Nutzernamen für eine E-Mail-Weiterleitung verfügen, damit sie wichtige E-Mails erhalten.

Empfehlungen

  • Wählen Sie relevante Messwerte aus, die Ihren Geschäftsanforderungen entsprechen.
  • Verwenden Sie Cloud Monitoring und stellen Sie gegebenenfalls Monitoring-Agents für benutzerdefinierte Messwerte bereit.
  • Achten Sie darauf, dass Cloud Logging für alle Logeinträge konfiguriert ist.
  • Entwerfen Sie gut definierte Benachrichtigungen, z. B. prozentualen Erfolg oder Fehler.
  • Benachrichtigen Sie mit Informationen zu Maßnahmen.
  • Erwägen Sie den Kauf eines rollenbasierten oder Enterprise Support-Pakets.
  • Definieren Sie bei der Arbeit mit dem Cloud-Support einen Eskalationspfad und geben Sie nützliche Indikatoren wie Zeit, Produkt und Standort an.

Vorteile

Cloud Monitoring bietet Messwerterfassung, Zusammenfassung und Dashboards sowie ein Benachrichtigungs-Framework und Endpunktprüfungen für Webanwendungen und andere über das Internet zugängliche Dienste.

Mit Cloud Logging können Sie Logs aus Ihren Cloud- und Open-Source-Anwendungsdiensten filtern, suchen, ansehen und in BigQuery, Cloud Storage oder Pub/Sub exportieren. Sie können Messwerte anhand von Loginhalten definieren, die in Dashboards und Benachrichtigungen integriert sind.

Cloud Debugger verbindet die Produktionsdaten Ihrer Anwendung mit Ihrem Quellcode. Dabei wird der Status Ihrer Anwendung an einem beliebigen Codestandort in der Produktion geprüft, ohne Ihre Anwendungsanfragen zu stoppen oder zu verlangsamen.

Error Reporting analysiert die Fehler in Ihren Cloud-Anwendungen, fasst sie zusammen und benachrichtigt Sie, wenn neue Fehler erkannt werden.

Cloud Trace bietet latenzbezogene Sampling- und Berichtsfunktionen für App Engine, einschließlich URL-spezifischer Statistiken und Latenzverteilungen.

Cloud Profiler bietet eine kontinuierliche Profilerstellung des Ressourcenverbrauchs in Ihren Produktionsanwendungen, damit Sie Leistungsprobleme erkennen und beheben können.

Ressourcen

Designmuster für Logging-Exporte

Design für Notfallwiederherstellung

Wenn Sie Ihr System so entwickeln, dass es Ausfallszenarien vorhersieht und handhabt, werden Auswirkungen auf Ihre Systeme minimiert. Damit Sie Ausfälle vermeiden können, benötigen Sie einen klar definierten und regelmäßig getesteten Notfallwiederherstellungsplan (Disaster Recovery, DR), um Dienste und Daten zu sichern und wiederherzustellen.

Vorfälle, die den Dienst unterbrechen, können jederzeit geschehen. Ihr Netzwerk könnte von einem Ausfall betroffen sein, mit Ihrem letzten Anwendungs-Push könnte ein kritischer Fehler eingeführt worden sein oder Sie könnten mit einer Naturkatastrophe konfrontiert werden. Für alle möglichen Zwischenfälle ist es wichtig, einen soliden, zielgerichteten und erprobten DR-Plan zu haben.

Planung

DR ist ein Teilbereich des Notfallplans zur Aufrechterhaltung des Geschäftsbetriebes. Die DR-Planung beginnt mit einer Geschäftswirkungsanalyse, die zwei Schlüsselmesswerte definiert:

  • Recovery Time Objective (RTO) gibt an, wie lange die Anwendung höchstens ausfallen darf. In der Regel wird dieser Wert im Rahmen eines erweiterten Service Level Agreement (SLA) definiert.

  • Recovery Point Objective (RPO) ist die maximal zulässige Dauer, während der Daten aufgrund eines größeren Zwischenfalls bei der Anwendung verloren gehen können. Dieser Messwert variiert je nachdem, wie die Daten verwendet werden. Beispielsweise können häufig geänderte Nutzerdaten ein RPO von nur wenigen Minuten haben. Weniger kritische, selten geänderte Daten könnten ein RPO von mehreren Stunden haben. Dieser Messwert beschreibt nur die Dauer und nicht die Menge oder Qualität der verlorenen Daten.

In der Regel gilt: Je kleiner die RTO- und RPO-Werte sind (d. h. je schneller die Anwendung nach einer Unterbrechung wiederhergestellt werden muss), desto höher sind die Kosten für die Ausführung der Anwendung. Die folgende Grafik zeigt das Verhältnis zwischen den Kosten und den Messwerten RTO/RPO:

Verhältnis zwischen Kosten und RTO/RPO. Dies zeigt, dass die Anwendungskosten umso höher sind, je schneller die Anwendung wiederhergestellt werden muss.

Da kleinere RTO- und RPO-Werte oft mit einer größeren Komplexität einhergehen, folgt der Verwaltungsaufwand einer ähnlichen Entwicklung. Bei einer Anwendung mit Hochverfügbarkeit (high-availability, HA) müssen Sie z. B. unter Umständen die Verteilung zwischen zwei räumlich voneinander getrennten Rechenzentren, die Replikation und vieles mehr verwalten.

RTO- und RPO-Werte werden im Allgemeinen zu einem weiteren Messwert zusammengefasst, dem Service Level Objective (SLO). Dies ist ein messbares Schlüsselelement eines SLA.

  • Ein SLA ist die gesamte Vereinbarung. Sie regelt, welche Dienste erbracht werden sollen, wie sie unterstützt werden, die Zeiten, Orte, Kosten, Leistungen, Strafen sowie die Verantwortlichkeiten der beteiligten Parteien.
  • SLOs hingegen sind spezifische, messbare Eigenschaften des SLA, wie Verfügbarkeit, Durchsatz, Häufigkeit, Reaktionszeit oder Qualität.

Ein einziges SLA kann viele SLOs enthalten. RTOs und RPOs sind messbar und sollten als SLOs betrachtet werden.

Infrastrukturanforderungen

In der Notfallwiederherstellung empfiehlt es sich, eine Reihe von Anforderungen zu berücksichtigen, darunter:

  • Kapazität: Bereitstellung von ausreichenden Ressourcen für die bedarfsgerechte Skalierung
  • Sicherheit: physische Sicherheit zum Schutz von Assets
  • Netzwerkinfrastruktur: Softwarekomponenten wie Firewalls und Load-Balancer
  • Support: Einsatz qualifizierter Techniker für Wartungsarbeiten und zur Problembehebung
  • Bandbreite: Angemessene Bandbreite für Spitzenlasten
  • Anlagen: Physische Infrastruktur wie Ausrüstung und Stromversorgung

Notfallwiederherstellung in Google Cloud

Mit Google Cloud können Sie die Kosten für die Erfüllung von RTO- und RPO-Anforderungen im Vergleich zu lokalen Anforderungen senken. Google Cloud unterstützt Sie dabei, die meisten oder alle komplizierten Faktoren im Zusammenhang mit physischer Hardware zu umgehen. Dadurch entfallen viele Geschäftskosten. Außerdem liegt der Fokus bei Google Cloud auf der einfachen Verwaltung, um die Kosten für die Verwaltung einer komplexen Anwendung zu reduzieren.

Google Cloud bietet mehrere Features, die für die Planung von Notfallwiederherstellung relevant sind:

Globales Netzwerk: Google hat eines der größten und fortschrittlichsten Computernetzwerke der Welt. Das Backbonenetzwerk von Google nutzt ein modernes softwarebasiertes Netzwerk und Edge-Caching-Dienste, um eine hohe, konsistente und skalierbare Leistung zu bieten.

Redundanz: Zahlreiche Points of Presence (PoPs) auf der ganzen Welt sorgen für hohe Redundanz. Ihre Daten werden automatisch auf Speichergeräten an mehreren Standorten gespiegelt.

Skalierbarkeit: Google Cloud lässt sich wie andere Google-Produkte (z. B. die Google-Suche oder Gmail) skalieren, selbst dann, wenn enorme Trafficspitzen auftreten. Verwaltete Dienste wie App Engine, Compute Engine-Autoscaling und Datastore bieten Autoscaling, sodass Ihre Anwendung nach Bedarf vergrößert und verkleinert werden kann.

Sicherheit: Das Google-Sicherheitsmodell basiert auf über 15 Jahren Erfahrung im Bestreben, die Sicherheit der Nutzer von Google-Anwendungen, wie Gmail und G Suite, zu schützen. Darüber hinaus gewährleisten die Site Reliability Engineering-Teams von Google eine hohe Verfügbarkeit und den Schutz vor Missbrauch von Plattformressourcen.

Compliance: Google durchläuft regelmäßig unabhängige Prüfungen durch Dritte, damit Google Cloud den Sicherheits-, Datenschutz- und Compliance-Bestimmungen sowie den Best Practices entspricht. Google Cloud unterstützt die Einhaltung von Zertifizierungen wie ISO 27001, SOC 2 und 3 und PCI DSS 3.2.

Empfehlungen

  • Definieren Sie Ihre RTO- und RPO-Ziele.
  • Entwerfen Sie Ihren Notfallwiederherstellungsplan anhand der Lösungen für Daten und Anwendungen.
  • Testen Sie Ihren Notfallwiederherstellungsplan mindestens einmal pro Jahr manuell.
  • Evaluieren Sie die Implementierung der gesteuerten Fehlerinjektion, um Regressionen frühzeitig zu erkennen.
  • Nutzen Sie Chaos Engineering, um Bereiche mit Risikopotential zu finden.

Vorteile

Der Snapshot von Persistent Disk bietet inkrementelle Sicherungen oder Snapshots von virtuellen Maschinen (VMs) von Compute Engine, die Sie zwischen Regionen kopieren und zur Notfallwiederherstellung von nichtflüchtigen Speichern verwenden können.

Bei Live-Migrationen werden VM-Instanzen selbst bei Ereignissen wie Software- oder Hardwareaktualisierungen auf dem Hostsystem weiter ausgeführt.

Cloud Storage ist ein Objektspeicher, der Speicherklassen wie Nearline und Coldline bereitstellt, die für bestimmte Anwendungsfälle wie die Sicherung geeignet sind.

Cloud DNS ermöglicht die programmatische Verwaltung von DNS-Einträgen im Rahmen eines automatisierten Wiederherstellungsprozesses. Cloud DNS nutzt das globale Google-Netzwerk von Anycast-Nameservern, um über redundante Standorte auf der ganzen Welt Ihre DNS-Zonen bereitzustellen. Das Ergebnis sind Hochverfügbarkeit und niedrigere Latenz für Ihre Nutzer.

Ressourcen