Der Bereich „Operative Exzellenz“ im Google Cloud Well-Architected Framework enthält Empfehlungen für die effiziente Ausführung von Arbeitslasten auf Google Cloud. Betriebsoptimierung in der Cloud umfasst das Entwerfen, Implementieren und Verwalten von Cloud-Lösungen, die einen Mehrwert, Leistung, Sicherheit und Zuverlässigkeit bieten. Die Empfehlungen in diesem Bereich helfen Ihnen, Arbeitslasten kontinuierlich zu verbessern und an die dynamischen und sich ständig weiterentwickelnden Anforderungen in der Cloud anzupassen.
Der Bereich „Operationelle Exzellenz“ ist für die folgenden Zielgruppen relevant:
- Manager und Führungskräfte: Ein Framework, mit dem Sie operative Exzellenz in der Cloud etablieren und aufrechterhalten und dafür sorgen können, dass Cloud-Investitionen einen Mehrwert bieten und die Geschäftsziele unterstützen.
- Cloud-Operationsteams: Anleitungen zum Verwalten von Vorfällen und Problemen, zum Planen der Kapazität, zum Optimieren der Leistung und zum Verwalten von Änderungen.
- Site Reliability Engineers (SREs): Best Practices, mit denen Sie eine hohe Dienstzuverlässigkeit erreichen, einschließlich Monitoring, Reaktion auf Vorfälle und Automatisierung.
- Cloud-Architekten und ‑Entwickler: Betriebsanforderungen und Best Practices für die Design- und Implementierungsphase, um sicherzustellen, dass Lösungen für betriebliche Effizienz und Skalierbarkeit entwickelt werden.
- DevOps-Teams: Informationen zu Automatisierung, CI/CD-Pipelines und Änderungsmanagement, um eine schnellere und zuverlässigere Softwarebereitstellung zu ermöglichen.
Um eine hervorragende Betriebsleistung zu erzielen, sollten Sie Automatisierung, Orchestration und datengetriebene Erkenntnisse nutzen. Mit Automatisierung lässt sich mühsamer Arbeitsaufwand vermeiden. Außerdem werden wiederkehrende Aufgaben optimiert und abgesichert. Die Orchestrierung hilft, komplexe Prozesse zu koordinieren. Datenbasierte Erkenntnisse ermöglichen fundierte Entscheidungen. Mit diesen Praktiken können Sie die Cloud-Nutzung optimieren, Kosten senken, die Dienstverfügbarkeit verbessern und die Sicherheit erhöhen.
Operative Exzellenz in der Cloud geht über die technische Kompetenz in Cloud-Operationen hinaus. Dazu gehört eine kulturelle Veränderung, die kontinuierliches Lernen und Experimentieren fördert. Teams müssen befähigt werden, innovativ zu sein, Iterationen vorzunehmen und eine Wachstumsmentalität zu entwickeln. Eine Kultur der operativen Exzellenz fördert eine kollaborative Umgebung, in der Einzelpersonen dazu ermutigt werden, Ideen auszutauschen, Annahmen in Frage zu stellen und Verbesserungen voranzutreiben.
Prinzipien und Empfehlungen für die operative Exzellenz, die speziell auf KI- und ML-Arbeitslasten ausgerichtet sind, finden Sie im Well-Architected Framework unter KI und ML: Operative Exzellenz.
Grundprinzipien
Die Empfehlungen im Bereich „Operative Exzellenz“ des Well-Architected-Frameworks sind den folgenden Grundprinzipien zugeordnet:
- Mit CloudOps für Betriebsbereitschaft und Leistung sorgen: Sorgen Sie dafür, dass Cloud-Lösungen die Betriebs- und Leistungsanforderungen erfüllen, indem Sie Service Level Objectives (SLO) definieren und umfassendes Monitoring, Leistungstests und Kapazitätsplanung durchführen.
- Vorfälle und Probleme verwalten: Minimieren Sie die Auswirkungen von Cloud-Vorfällen und verhindern Sie Wiederholungen durch umfassende Beobachtbarkeit, klare Verfahren zur Reaktion auf Vorfälle, gründliche Rückblicke und vorbeugende Maßnahmen.
- Cloud-Ressourcen verwalten und optimieren: Optimieren und verwalten Sie Cloud-Ressourcen mithilfe von Strategien wie der richtigen Dimensionierung, der automatischen Skalierung und effektiven Tools zur Kostenüberwachung.
- Änderungen automatisieren und verwalten: Prozesse automatisieren, das Änderungsmanagement optimieren und den Aufwand für manuelle Arbeit reduzieren.
- Kontinuierliche Verbesserung und Innovation: Konzentrieren Sie sich auf kontinuierliche Verbesserungen und die Einführung neuer Lösungen, um wettbewerbsfähig zu bleiben.
Beitragende
Autoren:
- Ryan Cox | Principal Architect
- Hadrian Knotz | Enterprise Architect
Weitere Beitragende:
- Daniel Lees | Cloudsicherheitsarchitekt
- Filipe Gracio, PhD | Customer Engineer
- Gary Harmson | Customer Engineer
- Jose Andrade | Enterprise Infrastructure Customer Engineer
- Kumar Dhanagopal | Cross-Product Solution Developer
- Nicolas Pintaux | Customer Engineer, Application Modernization Specialist
- Radhika Kanakam | Senior Program Manager, Cloud GTM
- Zach Seils | Networking Specialist
- Wade Holmes | Global Solutions Director
Betriebsbereitschaft und Leistung mit CloudOps sicherstellen
Dieses Prinzip im Bereich „Operative Exzellenz“ des Google Cloud Well-Architected Framework hilft Ihnen, die Betriebsbereitschaft und Leistung Ihrer Cloud-Arbeitslasten zu gewährleisten. Es wird darauf geachtet, klare Erwartungen und Zusagen für die Dienstleistung zu definieren, eine robuste Überwachung und Benachrichtigung zu implementieren, Leistungstests durchzuführen und proaktiv die Kapazitätsanforderungen zu planen.
Grundsatzübersicht
Unterschiedliche Organisationen können die Betriebsbereitschaft unterschiedlich interpretieren. Die Betriebsbereitschaft ist die Vorbereitung Ihrer Organisation auf die erfolgreiche Ausführung von Arbeitslasten auf Google Cloud. Die Vorbereitung auf den Betrieb einer komplexen, mehrschichtigen Cloud-Arbeitslast erfordert eine sorgfältige Planung sowohl für die Markteinführung als auch für den Tag-2-Betrieb. Diese Vorgänge werden oft als CloudOps bezeichnet.
Schwerpunktbereiche der Betriebsbereitschaft
Die Betriebsbereitschaft besteht aus vier Schwerpunktbereichen. Jeder Schwerpunktbereich besteht aus einer Reihe von Aktivitäten und Komponenten, die für die Vorbereitung auf den Betrieb einer komplexen Anwendung oder Umgebung in Google Clouderforderlich sind. In der folgenden Tabelle sind die Komponenten und Aktivitäten der einzelnen Schwerpunktbereiche aufgeführt:
Schwerpunktbereich für die Betriebsbereitschaft | Aktivitäten und Komponenten |
---|---|
Belegschaft |
|
Prozesse |
|
Tools | Tools, die zur Unterstützung von CloudOps-Prozessen erforderlich sind. |
Governance |
|
Empfehlungen
Beachten Sie die Empfehlungen in den folgenden Abschnitten, um mit CloudOps die Betriebsbereitschaft und Leistung zu gewährleisten. Jede Empfehlung in diesem Dokument ist für mindestens einen der Schwerpunktbereiche der Betriebsbereitschaft relevant.
SLOs und SLAs definieren
Eine Hauptaufgabe des Cloud-Operations-Teams besteht darin, Service Level Objectives (SLOs) und Service Level Agreements (SLAs) für alle kritischen Arbeitslasten zu definieren. Diese Empfehlung bezieht sich auf den Fokusbereich „Betriebsbereitschaft“ der Governance.
SLOs müssen spezifisch, messbar, erreichbar, relevant und terminiert (SMART) sein und das gewünschte Service- und Leistungsniveau widerspiegeln.
- Konkret: Sie formulieren klar das erforderliche Service- und Leistungsniveau.
- Messbar: Quantifizierbar und nachvollziehbar.
- Umsetzbar: Umsetzbar im Rahmen der Möglichkeiten und Ressourcen Ihrer Organisation.
- Relevanz: Sie stimmen mit den Geschäftszielen und -prioritäten überein.
- Zeitlich begrenzt: Es gibt einen festgelegten Zeitraum für Messung und Bewertung.
Ein SLO für eine Webanwendung könnte beispielsweise „99, 9% Verfügbarkeit“ oder „durchschnittliche Antwortzeit unter 200 ms“ lauten. Mit solchen SLOs wird der erforderliche Dienst- und Leistungsgrad für die Webanwendung klar definiert. Die SLOs können im Zeitverlauf gemessen und beobachtet werden.
SLAs enthalten die Verpflichtungen gegenüber Kunden in Bezug auf Verfügbarkeit, Leistung und Support, einschließlich etwaiger Strafen oder Rechtsbehelfen bei Nichteinhaltung. SLAs müssen spezifische Details zu den erbrachten Dienstleistungen, zum zu erwartenden Leistungsniveau, zu den Verantwortlichkeiten des Dienstanbieters und des Kunden sowie zu Strafen oder Rechtsbehelfen bei Nichteinhaltung enthalten. SLAs dienen als vertragliche Vereinbarung zwischen den beiden Parteien, damit beide Parteien die Erwartungen und Verpflichtungen im Zusammenhang mit dem Cloud-Dienst klar verstehen.
Google Cloud bietet Tools wie Cloud Monitoring und Service Level Indicators (SLIs), mit denen Sie SLOs definieren und verfolgen können. Cloud Monitoring bietet umfassende Überwachungs- und Observability-Funktionen, mit denen Ihr Unternehmen Messwerte zur Verfügbarkeit, Leistung und Latenz von cloudbasierten Anwendungen und Diensten erfassen und analysieren kann. SLIs sind spezifische Messwerte, mit denen Sie SLOs im Zeitverlauf messen und verfolgen können. Mit diesen Tools können Sie Cloud-Dienste effektiv überwachen und verwalten und dafür sorgen, dass sie die SLOs und SLAs einhalten.
Wenn Sie SLOs und SLAs für alle Ihre kritischen Cloud-Dienste klar definieren und kommunizieren, können Sie die Zuverlässigkeit und Leistung Ihrer bereitgestellten Anwendungen und Dienste gewährleisten.
Umfassende Sichtbarkeit implementieren
Um Echtzeitdaten zum Zustand und zur Leistung Ihrer Cloud-Umgebung zu erhalten, empfehlen wir eine Kombination aus Google Cloud-Tools zur Beobachtbarkeit und Lösungen von Drittanbietern. Diese Empfehlung bezieht sich auf die folgenden Schwerpunktbereiche der Betriebsbereitschaft: Prozesse und Tools.
Wenn Sie eine Kombination aus Lösungen zur Observability implementieren, erhalten Sie eine umfassende Observability-Strategie, die verschiedene Aspekte Ihrer Cloud-Infrastruktur und ‑Anwendungen abdeckt. Google Cloud Observability ist eine einheitliche Plattform zum Erfassen, Analysieren und Visualisieren von Messwerten, Protokollen und Traces aus verschiedenenGoogle Cloud Diensten, Anwendungen und externen Quellen. Mit Cloud Monitoring erhalten Sie Einblicke in die Ressourcennutzung, Leistungsmerkmale und den Gesamtstatus Ihrer Ressourcen.
Für ein umfassendes Monitoring sollten Sie wichtige Messwerte im Blick behalten, die Aufschluss über den Systemstatus geben, z. B. CPU-Auslastung, Arbeitsspeichernutzung, Netzwerkverkehr, Laufwerk-E/A und Anwendungsantwortzeiten. Sie müssen auch unternehmensspezifische Messwerte berücksichtigen. Wenn Sie diese Messwerte im Blick behalten, können Sie potenzielle Engpässe, Leistungsprobleme und Ressourcenbeschränkungen erkennen. Außerdem können Sie Benachrichtigungen einrichten, um die zuständigen Teams proaktiv über potenzielle Probleme oder Anomalien zu informieren.
Sie können Lösungen von Drittanbietern in Google Cloud Observability einbinden, um Ihre Monitoring-Funktionen weiter zu verbessern. Diese Lösungen können zusätzliche Funktionen wie erweiterte Analysen, die mithilfe von maschinellem Lernen unterstützte Anomalieerkennung und Funktionen zur Fehlerbehebung bieten. Mit dieser Kombination aus Google Cloud-Tools zur Beobachtbarkeit und Lösungen von Drittanbietern können Sie ein robustes und anpassbares Monitoring-System erstellen, das auf Ihre spezifischen Anforderungen zugeschnitten ist. Mit diesem kombinierten Ansatz können Sie Probleme proaktiv erkennen und beheben, die Ressourcennutzung optimieren und die allgemeine Zuverlässigkeit und Verfügbarkeit Ihrer Cloud-Anwendungen und ‑Dienste gewährleisten.
Leistungs- und Lasttests implementieren
Regelmäßige Leistungstests sorgen dafür, dass Ihre cloudbasierten Anwendungen und Ihre Infrastruktur Spitzenlasten bewältigen und eine optimale Leistung aufrechterhalten können. Bei Lasttests werden realistische Traffic-Muster simuliert. Bei Stresstests wird das System an seine Grenzen gebracht, um potenzielle Engpässe und Leistungseinschränkungen zu identifizieren. Diese Empfehlung bezieht sich auf die folgenden Schwerpunktbereiche der Betriebsbereitschaft: Prozesse und Tools.
Mit Tools wie Cloud Load Balancing und Lasttestdiensten können Sie reale Traffic-Muster simulieren und Ihre Anwendungen einem Stresstest unterziehen. Diese Tools liefern wertvolle Informationen dazu, wie sich Ihr System unter verschiedenen Lastbedingungen verhält, und können Ihnen helfen, Bereiche zu identifizieren, die optimiert werden müssen.
Anhand der Ergebnisse der Leistungstests können Sie Entscheidungen treffen, um Ihre Cloud-Infrastruktur und Anwendungen für optimale Leistung und Skalierbarkeit zu optimieren. Dazu kann die Anpassung der Ressourcenzuweisung, die Optimierung von Konfigurationen oder die Implementierung von Caching-Mechanismen gehören.
Wenn Sie beispielsweise feststellen, dass Ihre Anwendung bei hohem Traffic langsamer wird, müssen Sie möglicherweise die Anzahl der virtuellen Maschinen oder Container erhöhen, die der Anwendung zugewiesen sind. Möglicherweise müssen Sie auch die Konfiguration Ihres Webservers oder Ihrer Datenbank anpassen, um die Leistung zu verbessern.
Wenn Sie regelmäßig Leistungstests durchführen und die erforderlichen Optimierungen implementieren, können Sie dafür sorgen, dass Ihre cloudbasierten Anwendungen und Infrastrukturen immer mit Spitzenleistung laufen und Ihren Nutzern eine reibungslose und responsive Nutzung bieten. So können Sie einen Wettbewerbsvorteil bewahren und das Vertrauen Ihrer Kunden gewinnen.
Kapazität planen und verwalten
Wenn Sie proaktiv zukünftige Kapazitätsanforderungen planen – sowohl organische als auch anorganische –, können Sie den reibungslosen Betrieb und die Skalierbarkeit Ihrer cloudbasierten Systeme sicherstellen. Diese Empfehlung bezieht sich auf die Prozesse im Fokusbereich „Betriebsbereitschaft“.
Die Planung der zukünftigen Kapazität umfasst das Verständnis und die Verwaltung von Kontingenten für verschiedene Ressourcen wie Compute-Instanzen, Speicher und API-Anfragen. Wenn Sie bisherige Nutzungsmuster, Wachstumsprognosen und Geschäftsanforderungen analysieren, können Sie zukünftige Kapazitätsanforderungen genau vorhersagen. Mit Tools wie Cloud Monitoring und BigQuery können Sie Nutzungsdaten erfassen und analysieren, Trends erkennen und die zukünftige Nachfrage prognostizieren.
Vergangene Nutzungsmuster liefern wertvolle Informationen zur Ressourcennutzung im Zeitverlauf. Anhand von Messwerten wie CPU-Auslastung, Arbeitsspeichernutzung und Netzwerkverkehr können Sie Zeiten mit hoher Nachfrage und potenzielle Engpässe erkennen. Außerdem können Sie zukünftige Kapazitätsanforderungen schätzen, indem Sie Wachstumsprognosen anhand von Faktoren wie dem Wachstum der Nutzerbasis, neuen Produkten und Funktionen sowie Marketingkampagnen erstellen. Berücksichtigen Sie bei der Beurteilung der Kapazitätsanforderungen auch Geschäftsanforderungen wie SLAs und Leistungsziele.
Berücksichtigen Sie beim Bestimmen der Ressourcengröße für eine Arbeitslast Faktoren, die sich auf die Ressourcenauslastung auswirken können. Saisonale Schwankungen wie die Festtagssaison oder Quartalsenden-Verkäufe können zu vorübergehenden Nachfragespitzen führen. Geplante Ereignisse wie Produktveröffentlichungen oder Marketingkampagnen können die Zugriffszahlen ebenfalls deutlich steigern. Damit Ihr primäres System und Ihr Notfallwiederherstellungssystem (Disaster Recovery, DR) mit unerwarteten Nachfragespitzen umgehen können, planen Sie eine Kapazität, die ein reibungsloses Failover bei Störungen wie Naturkatastrophen und Cyberangriffen unterstützt.
Das Autoscaling ist eine wichtige Strategie, um Ihre Cloud-Ressourcen dynamisch an Arbeitslastschwankungen anzupassen. Mit Autoscaling-Richtlinien können Sie Recheninstanzen, Speicher und andere Ressourcen automatisch an den sich ändernden Bedarf anpassen. So wird eine optimale Leistung in Spitzenzeiten sichergestellt und gleichzeitig die Kosten minimiert, wenn die Ressourcennutzung niedrig ist. Autoscaling-Algorithmen verwenden Messwerte wie CPU-Auslastung, Arbeitsspeichernutzung und Warteschlangentiefe, um zu bestimmen, wann Ressourcen skaliert werden sollen.
Kontinuierlich überwachen und optimieren
Um Cloud-Arbeitslasten zu verwalten und zu optimieren, müssen Sie einen Prozess zum kontinuierlichen Überwachen und Analysieren von Leistungsmesswerten einrichten. Diese Empfehlung ist für die folgenden Schwerpunktbereiche der Betriebsbereitschaft relevant: Prozesse und Tools.
Um einen Prozess für kontinuierliches Monitoring und Analysen einzurichten, erfassen, erfassen und bewerten Sie Daten, die sich auf verschiedene Aspekte Ihrer Cloud-Umgebung beziehen. Anhand dieser Daten können Sie proaktiv Verbesserungsmöglichkeiten erkennen, die Ressourcennutzung optimieren und dafür sorgen, dass Ihre Cloud-Infrastruktur Ihre Leistungserwartungen regelmäßig erfüllt oder übertrifft.
Ein wichtiger Aspekt der Leistungsüberwachung ist die regelmäßige Prüfung von Protokollen und Traces. Protokolle liefern wertvolle Informationen zu Systemereignissen, Fehlern und Warnungen. Traces enthalten detaillierte Informationen zum Ablauf von Anfragen in Ihrer Anwendung. Durch die Analyse von Protokollen und Traces können Sie potenzielle Probleme erkennen, die Grundursachen von Problemen ermitteln und besser nachvollziehen, wie sich Ihre Anwendungen unter verschiedenen Bedingungen verhalten. Mithilfe von Messwerten wie der Laufzeit zwischen Diensten können Sie Engpässe in Ihren Arbeitslasten identifizieren und nachvollziehen.
Außerdem können Sie mithilfe von Leistungsoptimierungstechniken die Reaktionszeiten der Anwendung und die Gesamteffizienz erheblich verbessern. Im Folgenden finden Sie Beispiele für Methoden, die Sie verwenden können:
- Caching: Häufig aufgerufene Daten werden im Arbeitsspeicher gespeichert, um wiederholte Datenbankabfragen oder API-Aufrufe zu vermeiden.
- Datenbankoptimierung: Mithilfe von Techniken wie Indexierung und Abfrageoptimierung lässt sich die Leistung von Datenbankabläufen verbessern.
- Code-Profilierung: Sie können Bereiche Ihres Codes identifizieren, die zu viel Ressourcen verbrauchen oder Leistungsprobleme verursachen.
Mit diesen Verfahren können Sie Ihre Anwendungen optimieren und dafür sorgen, dass sie effizient in der Cloud ausgeführt werden.
Vorfälle und Probleme verwalten
Dieses Prinzip im Bereich „Operative Exzellenz“ des Google Cloud Well-Architected Framework enthält Empfehlungen zur Verwaltung von Vorfällen und Problemen im Zusammenhang mit Ihren Cloud-Arbeitslasten. Dazu gehört die Implementierung einer umfassenden Überwachung und Sichtbarkeit, die Festlegung klarer Verfahren zur Reaktion auf Vorfälle, die Durchführung einer gründlichen Ursachenanalyse und die Implementierung vorbeugender Maßnahmen. Viele der in diesem Prinzip behandelten Themen werden unter Zuverlässigkeit ausführlicher behandelt.
Grundsatzübersicht
Das Vorfall- und Problemmanagement sind wichtige Komponenten einer funktionalen Betriebsumgebung. Wie Sie auf Vorfälle unterschiedlicher Schwere reagieren, sie kategorisieren und lösen, kann sich erheblich auf Ihre Abläufe auswirken. Außerdem müssen Sie proaktiv und kontinuierlich Anpassungen vornehmen, um Zuverlässigkeit und Leistung zu optimieren. Ein effizienter Prozess für die Verwaltung von Vorfällen und Problemen basiert auf den folgenden grundlegenden Elementen:
- Kontinuierliches Monitoring: Probleme schnell erkennen und beheben.
- Automatisierung: Aufgaben rationalisieren und Effizienz steigern.
- Orchestrierung: Cloud-Ressourcen effektiv koordinieren und verwalten.
- Datengestützte Informationen: Optimieren Sie die Cloud-Nutzung und treffen Sie fundierte Entscheidungen.
Mit diesen Elementen können Sie eine robuste Cloud-Umgebung erstellen, die mit einer Vielzahl von Herausforderungen und Störungen umgehen kann. Diese Elemente können auch dazu beitragen, das Risiko kostspieliger Vorfälle und Ausfallzeiten zu verringern und die Agilität und den Erfolg Ihres Unternehmens zu steigern. Diese grundlegenden Elemente sind auf die vier Schwerpunktbereiche der Betriebsbereitschaft verteilt: Personal, Prozesse, Tools und Governance.
Empfehlungen
Beachten Sie die Empfehlungen in den folgenden Abschnitten, um Vorfälle und Probleme effektiv zu verwalten. Jede Empfehlung in diesem Dokument ist für mindestens einen der Fokusbereiche der Betriebsbereitschaft relevant.
Klare Verfahren für die Reaktion auf Vorfälle festlegen
Klare Rollen und Verantwortlichkeiten sind entscheidend für eine effektive und koordinierte Reaktion auf Vorfälle. Darüber hinaus tragen klare Kommunikationsprotokolle und Eskalationspfade dazu bei, dass Informationen bei einem Vorfall schnell und effektiv weitergegeben werden. Diese Empfehlung gilt für die folgenden Schwerpunktbereiche der Betriebsbereitschaft: Personal, Prozesse und Tools.
Um Verfahren zur Reaktion auf Vorfälle festzulegen, müssen Sie die Rollen und Erwartungen der einzelnen Teammitglieder definieren, z. B. Incident Commander, Prüfer, Kommunikatoren und technische Experten. Dazu gehören die Identifizierung wichtiger Kontakte, die Einrichtung von Kommunikationskanälen und die Definition des Prozesses zur Eskalierung von Vorfällen an höhere Managementebenen, falls erforderlich. Regelmäßige Schulungen und Vorbereitungen tragen dazu bei, dass die Teams über das Wissen und die Fähigkeiten verfügen, um auf Vorfälle effektiv zu reagieren.
Wenn Sie Verfahren zur Reaktion auf Vorfälle in einem Runbook oder Playbook dokumentieren, können Sie Teams einen standardisierten Leitfaden zur Verfügung stellen, an den sie sich bei einem Vorfall halten können. Das Runbook muss die Schritte beschreiben, die in jeder Phase des Prozesses zur Reaktion auf Vorfälle ausgeführt werden müssen, einschließlich Kommunikation, Triage, Untersuchung und Lösung. Außerdem müssen Informationen zu relevanten Tools und Ressourcen sowie Kontaktinformationen für wichtige Mitarbeiter enthalten sein. Sie müssen das Runbook regelmäßig überprüfen und aktualisieren, damit es immer auf dem neuesten Stand und effektiv ist.
Vorfallmanagement zentralisieren
Für eine effektive Nachverfolgung und Verwaltung während des gesamten Lebenszyklus eines Vorfalls sollten Sie ein zentrales System zur Fehlerbehebung verwenden. Diese Empfehlung gilt für die folgenden Schwerpunktbereiche der Betriebsbereitschaft: Prozesse und Tools.
Ein zentrales System für die Fehlerbehebung bietet folgende Vorteile:
- Verbesserte Transparenz: Wenn Sie alle ereignisbezogenen Daten an einem einzigen Ort zusammenführen, müssen Teams nicht mehr in verschiedenen Kanälen oder Systemen nach Kontext suchen. Dieser Ansatz spart Zeit und reduziert Verwirrung. Außerdem erhalten die Stakeholder einen umfassenden Überblick über den Vorfall, einschließlich Status, Auswirkungen und Fortschritt.
- Verbesserte Koordination und Zusammenarbeit: Ein zentrales System bietet eine einheitliche Plattform für Kommunikation und Aufgabenverwaltung. Sie fördert die reibungslose Zusammenarbeit zwischen den verschiedenen Abteilungen und Funktionen, die an der Reaktion auf Vorfälle beteiligt sind. So haben alle Zugriff auf aktuelle Informationen und das Risiko von Missverständnissen und Fehlausrichtungen wird verringert.
- Erhöhte Rechenschaftspflicht und Zuständigkeit: Mit einem zentralen System zur Fehlerbehebung kann Ihre Organisation Aufgaben bestimmten Personen oder Teams zuweisen und dafür sorgen, dass die Verantwortlichkeiten klar definiert und nachverfolgt werden. Dieser Ansatz fördert die Verantwortlichkeit und ermutigt zu proaktiver Problemlösung, da Teammitglieder ihren Fortschritt und ihre Beiträge leicht im Blick behalten können.
Ein zentrales System zur Fehlerbehebung muss robuste Funktionen für die Fehlerverfolgung, Aufgabenzuweisung und Kommunikationsverwaltung bieten. Mit diesen Funktionen können Sie Workflows anpassen, Prioritäten festlegen und die Integration in andere Systeme wie Monitoring-Tools und Ticketsysteme vornehmen.
Durch die Implementierung eines zentralen Systems für das Vorfallmanagement können Sie die Prozesse zur Reaktion auf Vorfälle in Ihrer Organisation optimieren, die Zusammenarbeit verbessern und die Transparenz erhöhen. Dies führt zu kürzeren Reaktionszeiten, weniger Ausfallzeiten und einer höheren Kundenzufriedenheit. Außerdem trägt es dazu bei, eine Kultur der kontinuierlichen Verbesserung zu fördern, da Sie aus früheren Vorfällen lernen und Verbesserungsmöglichkeiten erkennen können.
Gründliche Überprüfungen nach Vorfällen durchführen
Nach einem Vorfall müssen Sie eine detaillierte Postmortem-Analyse (PIR) durchführen, um die Ursache, die beitragenden Faktoren und die Erkenntnisse zu ermitteln. Diese gründliche Überprüfung hilft Ihnen, ähnliche Vorfälle in Zukunft zu vermeiden. Diese Empfehlung gilt für die folgenden Fokusbereiche der Betriebsbereitschaft: Prozesse und Governance.
Der PIR-Prozess muss ein multidisziplinäres Team umfassen, das über Fachwissen zu verschiedenen Aspekten des Vorfalls verfügt. Das Team muss alle relevanten Informationen durch Interviews, Dokumentenprüfungen und Vor-Ort-Besichtigungen zusammentragen. Es muss eine Zeitachse der Ereignisse erstellt werden, um die Abfolge der Aktionen zu ermitteln, die zum Vorfall geführt haben.
Nachdem das Team die erforderlichen Informationen erfasst hat, muss es eine Ursachenanalyse durchführen, um die Faktoren zu ermitteln, die zum Vorfall geführt haben. Bei dieser Analyse müssen sowohl die unmittelbare Ursache als auch die systemischen Probleme identifiziert werden, die zum Vorfall beigetragen haben.
Neben der Ermittlung der Grundursache muss das PIR-Team alle anderen Faktoren identifizieren, die zum Vorfall geführt haben könnten. Zu diesen Faktoren können menschliche Fehler, Geräteausfälle oder organisatorische Faktoren wie Kommunikationsstörungen und mangelnde Schulungen gehören.
Der PIR-Bericht muss die Ergebnisse der Untersuchung dokumentieren, einschließlich der Zeitleiste der Ereignisse, der Analyse der Grundursache und der empfohlenen Maßnahmen. Der Bericht ist eine wertvolle Ressource für die Implementierung von Korrekturmaßnahmen und die Vermeidung von Wiederholungen. Der Bericht muss allen relevanten Stakeholdern zur Verfügung gestellt und zur Entwicklung von Sicherheitsschulungen und -verfahren verwendet werden.
Damit ein PIR-Prozess erfolgreich ist, muss Ihr Unternehmen eine fehlerfreie Kultur fördern, die sich auf Lernen und Verbesserung konzentriert, anstatt Schuldzuweisungen zu erteilen. Diese Kultur ermutigt Einzelpersonen, Vorfälle ohne Angst vor Vergeltung zu melden. Außerdem können Sie so systemische Probleme angehen und sinnvolle Verbesserungen vornehmen.
Durch gründliche PIRs und die Implementierung von Korrekturmaßnahmen auf der Grundlage der Ergebnisse können Sie das Risiko ähnlicher Vorfälle in Zukunft erheblich reduzieren. Dieser proaktive Ansatz bei der Untersuchung und Prävention von Vorfällen trägt dazu bei, eine sicherere und effizientere Arbeitsumgebung für alle Beteiligten zu schaffen.
Wissensdatenbank pflegen
Eine Wissensdatenbank mit bekannten Problemen, Lösungen und Anleitungen zur Fehlerbehebung ist für die Verwaltung und Behebung von Vorfällen unerlässlich. Teammitglieder können mithilfe der Wissensdatenbank häufige Probleme schnell erkennen und beheben. Die Implementierung einer Wissensdatenbank trägt dazu bei, die Notwendigkeit von Eskalationen zu reduzieren und die Effizienz insgesamt zu verbessern. Diese Empfehlung gilt für die folgenden Schwerpunktbereiche der Betriebsbereitschaft: Personal und Prozesse.
Ein wesentlicher Vorteil einer Wissensdatenbank besteht darin, dass Teams aus früheren Erfahrungen lernen und Fehler vermeiden können. Wenn Teams Lösungen für bekannte Probleme erfassen und teilen, können sie gemeinsam ein Verständnis dafür entwickeln, wie häufige Probleme gelöst werden können, und Best Practices für das Problemmanagement entwickeln. Die Verwendung einer Wissensdatenbank spart Zeit und Mühe und hilft, Prozesse zu standardisieren und für Konsistenz bei der Behebung von Vorfällen zu sorgen.
Eine Wissensdatenbank trägt nicht nur dazu bei, die Zeit bis zur Problemlösung zu verkürzen, sondern fördert auch den Wissensaustausch und die Zusammenarbeit zwischen Teams. Mit einem zentralen Informationsspeicher können Teams ganz einfach auf die Wissensdatenbank zugreifen und zu ihr beitragen. Das fördert eine Kultur des kontinuierlichen Lernens und der Verbesserung. Diese Kultur ermutigt Teams, ihr Fachwissen und ihre Erfahrungen zu teilen, was zu einer umfassenderen und wertvolleren Wissensdatenbank führt.
Verwenden Sie geeignete Tools und Technologien, um eine Wissensdatenbank effektiv zu erstellen und zu verwalten. Plattformen für die Zusammenarbeit wie Google Workspace eignen sich gut für diesen Zweck, da Sie damit ganz einfach gemeinsam Dokumente erstellen, bearbeiten und freigeben können. Diese Tools unterstützen auch die Versionskontrolle und das Änderungs-Tracking, damit die Wissensdatenbank immer auf dem neuesten Stand und korrekt ist.
Sorgen Sie dafür, dass die Wissensdatenbank für alle relevanten Teams leicht zugänglich ist. Sie können dies erreichen, indem Sie die Wissensdatenbank in vorhandene Systeme zur Vorfallverwaltung einbinden oder ein spezielles Portal oder eine Intranet-Website bereitstellen. Über eine leicht zugängliche Wissensdatenbank können Teams schnell auf die Informationen zugreifen, die sie zur effizienten Behebung von Vorfällen benötigen. Diese Verfügbarkeit trägt dazu bei, Ausfallzeiten zu reduzieren und die Auswirkungen auf den Geschäftsbetrieb zu minimieren.
Prüfen und aktualisieren Sie die Wissensdatenbank regelmäßig, damit sie relevant und nützlich bleibt. Sie überwachen Vorfallberichte, identifizieren häufige Probleme und Trends und nehmen neue Lösungen und Anleitungen zur Fehlerbehebung in die Wissensdatenbank auf. Mit einer aktuellen Wissensdatenbank können Ihre Teams Probleme schneller und effektiver beheben.
Reaktion auf Vorfälle automatisieren
Mithilfe von Automatisierung können Sie Ihre Prozesse für die Reaktion auf und Behebung von Vorfällen optimieren. So können Sie Sicherheitsverstöße und Systemausfälle schnell und effizient beheben. Mit Google Cloud Produkten wie Cloud Run-Funktionen oder Cloud Run können Sie verschiedene Aufgaben automatisieren, die normalerweise manuell und zeitaufwendig sind. Diese Empfehlung bezieht sich auf die folgenden Schwerpunktbereiche der Betriebsbereitschaft: Prozesse und Tools.
Die automatisierte Reaktion auf Vorfälle bietet folgende Vorteile:
- Verkürzung der Zeit bis zur Erkennung und Behebung von Vorfällen: Automatisierte Tools können Systeme und Anwendungen kontinuierlich überwachen, verdächtige oder anormale Aktivitäten in Echtzeit erkennen und Stakeholder benachrichtigen oder ohne manuelles Eingreifen reagieren. So können Sie potenzielle Bedrohungen oder Probleme erkennen, bevor sie zu größeren Vorfällen eskalieren. Wenn ein Vorfall erkannt wird, können automatisierte Tools vordefinierte Maßnahmen zur Behebung auslösen, z. B. die Isolierung betroffener Systeme, die Quarantäne schädlicher Dateien oder das Zurücksetzen von Änderungen, um das System in einen bekannten fehlerfreien Zustand zu versetzen.
- Weniger Arbeit für Sicherheits- und Betriebsteams: Durch die automatisierte Reaktion auf Vorfälle können sich die Sicherheits- und Betriebsteams auf strategischere Aufgaben konzentrieren. Durch die Automatisierung von Routine- und wiederkehrenden Aufgaben wie dem Erfassen von Diagnoseinformationen oder dem Auslösen von Benachrichtigungen kann Ihr Unternehmen Personal für die Bearbeitung komplexerer und kritischer Vorfälle freisetzen. Diese Automatisierung kann zu einer verbesserten Effektivität und Effizienz der Reaktion auf Vorfälle führen.
- Höhere Konsistenz und Genauigkeit des Behebungsprozesses: Mithilfe automatisierter Tools können Maßnahmen zur Behebung von Sicherheitslücken einheitlich auf alle betroffenen Systeme angewendet werden, wodurch das Risiko von menschlichen Fehlern oder Inkonsistenzen minimiert wird. Diese Standardisierung des Behebungsprozesses hilft, die Auswirkungen von Vorfällen auf Nutzer und das Unternehmen zu minimieren.
Cloud-Ressourcen verwalten und optimieren
Dieses Prinzip im Bereich „Operative Exzellenz“ des Google Cloud Well-Architected Framework enthält Empfehlungen zur Verwaltung und Optimierung der Ressourcen, die von Ihren Cloud-Arbeitslasten verwendet werden. Dazu gehört die richtige Dimensionierung von Ressourcen basierend auf der tatsächlichen Nutzung und Nachfrage, die Verwendung von Autoscaling für die dynamische Ressourcenzuweisung, die Implementierung von Strategien zur Kostenoptimierung und die regelmäßige Überprüfung der Ressourcennutzung und -kosten. Viele der in diesem Prinzip behandelten Themen werden im Bereich Kostenoptimierung ausführlich erläutert.
Grundsatzübersicht
Die Verwaltung und Optimierung von Cloud-Ressourcen spielt eine wichtige Rolle bei der Optimierung von Cloud-Ausgaben, Ressourcennutzung und Infrastruktureffizienz. Sie umfasst verschiedene Strategien und Best Practices, mit denen Sie den Wert und die Rentabilität Ihrer Cloud-Ausgaben maximieren können.
Der Schwerpunkt dieser Säule auf Optimierung geht über die Kostensenkung hinaus. Dabei werden die folgenden Ziele hervorgehoben:
- Effizienz: Automatisierung und Datenanalyse für maximale Leistung und Kosteneinsparungen.
- Leistung: Ressourcen lassen sich mühelos skalieren, um schwankenden Anforderungen gerecht zu werden und optimale Ergebnisse zu erzielen.
- Skalierbarkeit: Anpassung der Infrastruktur und Prozesse an ein schnelles Wachstum und vielfältige Arbeitslasten.
Wenn Sie sich auf diese Ziele konzentrieren, erreichen Sie ein Gleichgewicht zwischen Kosten und Funktionalität. Sie können fundierte Entscheidungen hinsichtlich Ressourcenbereitstellung, ‑skalierung und ‑migration treffen. Außerdem erhalten Sie wertvolle Informationen zu den Mustern der Ressourcennutzung, sodass Sie potenzielle Probleme proaktiv erkennen und beheben können, bevor sie eskalieren.
Empfehlungen
Beachten Sie die Empfehlungen in den folgenden Abschnitten, um Ressourcen zu verwalten und zu optimieren. Jede Empfehlung in diesem Dokument ist für mindestens einen der Fokusbereiche der Betriebsbereitschaft relevant.
Ressourcen richtig dimensionieren
Die kontinuierliche Überwachung der Ressourcennutzung und die Anpassung der Ressourcenzuweisung an die tatsächliche Nachfrage sind für eine effiziente Verwaltung von Cloud-Ressourcen unerlässlich. Eine zu hohe Ressourcenbereitstellung kann zu unnötigen Kosten führen und eine zu geringe Bereitstellung kann zu Leistungsengpässen führen, die sich auf die Anwendungsleistung und die Nutzerfreundlichkeit auswirken. Um ein optimales Gleichgewicht zu erreichen, müssen Sie proaktiv die richtige Größe der Cloud-Ressourcen festlegen. Diese Empfehlung bezieht sich auf den Fokusbereich „Betriebsbereitschaft“ der Governance.
Mit Cloud Monitoring und Recommender können Sie Möglichkeiten zur richtigen Dimensionierung ermitteln. Mit Cloud Monitoring erhalten Sie Echtzeitdaten zu Messwerten zur Ressourcennutzung. So können Sie die Ressourcennutzung erfassen und potenzielle Ineffizienzen erkennen. Der Recommender analysiert Daten zur Ressourcennutzung, um intelligente Empfehlungen zur Optimierung der Ressourcenzuweisung zu geben. Mit diesen Tools können Sie Informationen zur Ressourcennutzung erhalten und fundierte Entscheidungen über die richtige Größe der Ressourcen treffen.
Zusätzlich zu Cloud Monitoring und Recommender können Sie benutzerdefinierte Messwerte verwenden, um automatische Maßnahmen zur richtigen Größe auszulösen. Mit benutzerdefinierten Messwerten können Sie bestimmte Messwerte zur Ressourcenauslastung erfassen, die für Ihre Anwendungen und Arbeitslasten relevant sind. Sie können auch Benachrichtigungen konfigurieren, damit Administratoren informiert werden, wenn vordefinierte Grenzwerte erreicht werden. Die Administratoren können dann die erforderlichen Maßnahmen ergreifen, um die Ressourcenzuweisung anzupassen. Dieser proaktive Ansatz sorgt dafür, dass Ressourcen rechtzeitig skaliert werden, was dazu beiträgt, die Cloud-Kosten zu optimieren und Leistungsprobleme zu vermeiden.
Autoscaling verwenden
Durch das automatische Skalieren von Rechen- und anderen Ressourcen lässt sich die Leistung und Kosteneffizienz Ihrer cloudbasierten Anwendungen optimieren. Mit Autoscaling können Sie die Kapazität Ihrer Ressourcen dynamisch an Arbeitslastschwankungen anpassen. So haben Sie die benötigten Ressourcen zur richtigen Zeit zur Verfügung und können eine Überdimensionierung und unnötige Kosten vermeiden. Diese Empfehlung gilt für die Prozesse im Fokusbereich „Betriebsbereitschaft“.
Um die unterschiedlichen Anforderungen verschiedener Anwendungen und Arbeitslasten zu erfüllen, bietetGoogle Cloud verschiedene Optionen für das automatische Skalieren, darunter:
- Verwaltete Instanzgruppen (Managed Instance Groups, MIGs) der Compute Engine sind Gruppen von VMs, die als einzelne Entität verwaltet und skaliert werden. Mit MIGs können Sie Autoscaling-Richtlinien definieren, die die Mindest- und Höchstzahl der VMs in der Gruppe sowie die Bedingungen angeben, die das Autoscaling auslösen. Sie können beispielsweise eine Richtlinie so konfigurieren, dass VMs in einer MIG hinzugefügt werden, wenn die CPU-Auslastung einen bestimmten Grenzwert erreicht, und VMs entfernt werden, wenn die Auslastung unter einen anderen Grenzwert sinkt.
Das Autoscaling in der Google Kubernetes Engine (GKE) passt Ihre Clusterressourcen dynamisch an die Anforderungen Ihrer Anwendung an. Es bietet die folgenden Tools:
- Cluster Autoscaler fügt Knoten hinzu oder entfernt sie je nach Ressourcenanforderungen von Pods.
- Mit dem horizontalen Pod-Autoscaling wird die Anzahl der Pod-Replikate anhand von CPU-, Arbeitsspeicher- oder benutzerdefinierten Messwerten geändert.
- Der vertikale Pod-Autoscaler passt die Pod-Ressourcenanfragen und -limits anhand von Nutzungsmustern an.
- Mit der automatischen Knotenbereitstellung werden automatisch optimierte Knotenpools für Ihre Arbeitslasten erstellt.
Diese Tools arbeiten zusammen, um die Ressourcennutzung zu optimieren, die Anwendungsleistung zu gewährleisten und die Clusterverwaltung zu vereinfachen.
Cloud Run ist eine serverlose Plattform, mit der Sie Code ausführen können, ohne die Infrastruktur verwalten zu müssen. Cloud Run bietet integriertes Autoscaling, mit dem die Anzahl der Instanzen automatisch an den eingehenden Traffic angepasst wird. Wenn das Traffic-Volumen zunimmt, skaliert Cloud Run die Anzahl der Instanzen, um die Last zu bewältigen. Wenn der Traffic abnimmt, skaliert Cloud Run die Anzahl der Instanzen herunter, um die Kosten zu senken.
Mit diesen Autoscaling-Optionen können Sie dafür sorgen, dass Ihre cloudbasierten Anwendungen die Ressourcen haben, die sie für die Verarbeitung unterschiedlicher Arbeitslasten benötigen, und gleichzeitig eine Überdimensionierung und unnötige Kosten vermeiden. Die Verwendung von Autoscaling kann zu einer Leistungssteigerung, Kosteneinsparungen und einer effizienteren Nutzung von Cloud-Ressourcen führen.
Strategien zur Kostenoptimierung nutzen
Wenn Sie Ihre Cloud-Ausgaben optimieren, können Sie die IT-Budgets Ihrer Organisation effektiv verwalten. Diese Empfehlung bezieht sich auf den Fokusbereich „Betriebsbereitschaft“ der Governance.
Google Cloud bietet verschiedene Tools und Verfahren zur Optimierung der Cloud-Kosten. Mit diesen Tools und Techniken können Sie das Beste aus Ihren Cloud-Ausgaben herausholen. Mit diesen Tools und Methoden können Sie Bereiche ermitteln, in denen Kosten gesenkt werden können, z. B. nicht ausreichend genutzte Ressourcen oder kostengünstigere Instanztypen. Google Cloud Möglichkeiten zur Optimierung der Cloud-Kosten:
- Rabatte für zugesicherte Nutzung sind Rabatte, die Sie erhalten, wenn Sie sich für einen bestimmten Zeitraum auf eine bestimmte Nutzung festlegen.
- Rabatte für kontinuierliche Nutzung in der Compute Engine bieten Rabatte für die kontinuierliche Nutzung eines Dienstes.
- Spot-VMs bieten Zugriff auf nicht genutzte VM-Kapazitäten zu niedrigeren Kosten als normale VMs.
Preismodelle können sich im Laufe der Zeit ändern und es können neue Funktionen eingeführt werden, die im Vergleich zu den vorhandenen Optionen eine bessere Leistung oder niedrigere Kosten bieten. Daher sollten Sie Ihre Preismodelle regelmäßig überprüfen und alternative Funktionen in Betracht ziehen. Wenn Sie sich über die neuesten Preismodelle und Funktionen informieren, können Sie fundierte Entscheidungen über Ihre Cloud-Architektur treffen, um die Kosten zu minimieren.
Die Tools zur Kostenverwaltung vonGoogle Cloud, z. B. Budgets und Benachrichtigungen, liefern wertvolle Informationen zu Cloud-Ausgaben. Mit Budgets und Benachrichtigungen können Nutzer Budgets festlegen und Benachrichtigungen erhalten, wenn die Budgets überschritten werden. Mit diesen Tools können Nutzer ihre Cloud-Ausgaben im Blick behalten und Bereiche identifizieren, in denen Kosten gesenkt werden können.
Ressourcennutzung und -kosten im Blick behalten
Mit Tagging und Labeling können Sie die Ressourcennutzung und -kosten im Blick behalten. Wenn Sie Ihren Cloud-Ressourcen wie Projekten, Abteilungen oder anderen relevanten Dimensionen Tags und Labels zuweisen, können Sie die Ressourcen kategorisieren und organisieren. So können Sie Ausgabenmuster für bestimmte Ressourcen im Blick behalten und analysieren sowie Bereiche mit hoher Nutzung oder potenziellen Kosteneinsparungen identifizieren. Diese Empfehlung gilt für die folgenden Schwerpunktbereiche der Betriebsbereitschaft: Governance und Tools.
Mit Tools wie Cloud Billing und Kostenverwaltung erhalten Sie einen umfassenden Überblick über Ihre Ausgabenmuster. Diese Tools bieten detaillierte Informationen zu Ihrer Cloud-Nutzung und ermöglichen es Ihnen, Trends zu erkennen, Kosten vorherzusagen und fundierte Entscheidungen zu treffen. Wenn Sie Verlaufsdaten und aktuelle Ausgabenmuster analysieren, können Sie die Schwerpunkte für Ihre Kostenoptimierung ermitteln.
Mit benutzerdefinierten Dashboards und Berichten können Sie Kostendaten visualisieren und detailliertere Informationen zu Ausgabentrends erhalten. Wenn Sie Dashboards mit relevanten Messwerten und Dimensionen anpassen, können Sie Leistungskennzahlen (KPIs) im Blick behalten und den Fortschritt bei der Erreichung Ihrer Ziele für die Kostenoptimierung verfolgen. Berichte bieten eine detailliertere Analyse von Kostendaten. In Berichten können Sie die Daten nach bestimmten Zeiträumen oder Ressourcentypen filtern, um die zugrunde liegenden Faktoren zu ermitteln, die zu Ihren Cloud-Ausgaben beitragen.
Prüfen und aktualisieren Sie Ihre Tags, Labels und Kostenanalysetools regelmäßig, damit Sie immer auf dem neuesten Stand sind, was Ihre Cloud-Nutzung und -Kosten angeht. Wenn Sie auf dem Laufenden bleiben und Kostennachbereitungen oder proaktive Kostenüberprüfungen durchführen, können Sie unerwartete Ausgabensteigerungen schnell erkennen. So können Sie proaktive Entscheidungen treffen, um Cloud-Ressourcen zu optimieren und die Kosten zu kontrollieren.
Kostenzuweisung und Budget festlegen
Rechenschaftspflicht und Transparenz bei der Cloud-Kostenverwaltung sind entscheidend, um die Ressourcennutzung zu optimieren und die Finanzkontrolle zu gewährleisten. Diese Empfehlung bezieht sich auf den Fokusbereich „Betriebsbereitschaft“ der Governance.
Um Rechenschaftspflicht und Transparenz zu gewährleisten, müssen Sie klare Mechanismen für die Kostenzuordnung und die Rückbuchung haben. Wenn Sie Kosten bestimmten Teams, Projekten oder Personen zuweisen, kann Ihre Organisation dafür sorgen, dass jede dieser Entitäten für ihre Cloud-Nutzung verantwortlich ist. Dies fördert das Verantwortungsbewusstsein und regt zu einer verantwortungsbewussten Ressourcenverwaltung an. Darüber hinaus können Sie mit Abbuchungsmechanismen die Cloud-Kosten von internen Kunden eintreiben, Anreize an die Leistung koppeln und für finanzielle Disziplin sorgen.
Die Festlegung von Budgets für verschiedene Teams oder Projekte ist ein weiterer wichtiger Aspekt der Cloud-Kostenverwaltung. Mit Budgets kann Ihre Organisation Ausgabenlimits festlegen und die tatsächlichen Ausgaben im Vergleich zu diesen Limits verfolgen. So können Sie proaktive Entscheidungen treffen, um unkontrollierte Ausgaben zu vermeiden. Wenn Sie realistische und erreichbare Budgets festlegen, können Sie dafür sorgen, dass Cloud-Ressourcen effizient und an den Geschäftszielen ausgerichtet verwendet werden. Wenn Sie die tatsächlichen Ausgaben regelmäßig mit den Budgets vergleichen, können Sie Abweichungen erkennen und potenzielle Kostenüberschreitungen schnell beheben.
Zur Budgetüberwachung können Sie Tools wie Cloud Billing-Budgets und -Benachrichtigungen verwenden. Diese Tools liefern Echtzeitdaten zu den Cloud-Ausgaben und benachrichtigen die Stakeholder über potenzielle Überschreitungen. Mit diesen Funktionen können Sie die Cloud-Kosten im Blick behalten und Korrekturmaßnahmen ergreifen, bevor es zu erheblichen Abweichungen kommt. Dieser proaktive Ansatz hilft, finanzielle Überraschungen zu vermeiden und dafür zu sorgen, dass Cloud-Ressourcen verantwortungsvoll genutzt werden.
Änderungen automatisieren und verwalten
Dieses Prinzip im Bereich „Operative Exzellenz“ des Google Cloud Well-Architected Framework enthält Empfehlungen zur Automatisierung und Verwaltung von Änderungen für Ihre Cloud-Arbeitslasten. Dazu gehört die Implementierung von Infrastructure as Code (IaC), die Festlegung von Standardverfahren, die Implementierung eines strukturierten Änderungsmanagementprozesses und die Verwendung von Automatisierung und Orchestration.
Grundsatzübersicht
Änderungsmanagement und Automatisierung spielen eine entscheidende Rolle für einen reibungslosen und kontrollierten Übergang in Cloud-Umgebungen. Für eine effektive Änderungsverwaltung müssen Sie Strategien und Best Practices anwenden, die Unterbrechungen minimieren und dafür sorgen, dass Änderungen nahtlos in bestehende Systeme integriert werden.
Effektives Änderungsmanagement und Automatisierung umfassen die folgenden grundlegenden Elemente:
- Änderungsgovernance: Legen Sie klare Richtlinien und Verfahren für das Änderungsmanagement fest, einschließlich Genehmigungsverfahren und Kommunikationsplänen.
- Risikobewertung: Identifizierung potenzieller Risiken im Zusammenhang mit Änderungen und Minderung dieser Risiken durch Risikomanagementtechniken.
- Tests und Validierung: Änderungen müssen gründlich getestet werden, um sicherzustellen, dass sie die funktionalen und Leistungsanforderungen erfüllen und potenzielle Rückschritte minimieren.
- Kontrollierte Bereitstellung: Änderungen werden kontrolliert implementiert, um einen reibungslosen Übergang der Nutzer in die neue Umgebung zu ermöglichen. Bei Bedarf können sie nahtlos rückgängig gemacht werden.
Diese grundlegenden Elemente tragen dazu bei, die Auswirkungen von Änderungen zu minimieren und dafür zu sorgen, dass sie sich positiv auf den Geschäftsbetrieb auswirken. Diese Elemente werden durch die Fokusbereiche der Betriebsbereitschaft für Prozesse, Tools und Governance dargestellt.
Empfehlungen
Beachten Sie die Empfehlungen in den folgenden Abschnitten, um Änderungen zu automatisieren und zu verwalten. Jede Empfehlung in diesem Dokument ist für mindestens einen der Fokusbereiche der Betriebsbereitschaft relevant.
IaC verwenden
Infrastructure as Code (IaC) ist ein transformativer Ansatz für die Verwaltung von Cloud-Infrastrukturen. Mit Tools wie Terraform können Sie die Cloud-Infrastruktur deklarativ definieren und verwalten. Mit IaC können Sie für Konsistenz, Wiederholbarkeit und eine vereinfachte Änderungsverwaltung sorgen. Außerdem ermöglicht es schnellere und zuverlässigere Bereitstellungen. Diese Empfehlung ist für die folgenden Schwerpunktbereiche der Betriebsbereitschaft relevant: Prozesse und Tools.
Im Folgenden sind die wichtigsten Vorteile der Verwendung des IaC-Ansatzes für Ihre Cloud-Bereitstellungen aufgeführt:
- Lesbare Ressourcenkonfigurationen: Mit dem IaC-Ansatz können Sie Ihre Cloud-Infrastrukturressourcen in einem für Menschen lesbaren Format wie JSON oder YAML deklarieren. Infrastrukturadministratoren und -betreiber können die Infrastruktur leicht verstehen und ändern sowie mit anderen zusammenarbeiten.
- Konsistenz und Wiederholbarkeit: IaC ermöglicht Konsistenz und Wiederholbarkeit bei Ihren Infrastrukturbereitstellungen. So können Sie dafür sorgen, dass Ihre Infrastruktur jedes Mal auf die gleiche Weise bereitgestellt und konfiguriert wird, unabhängig davon, wer die Bereitstellung durchführt. Dieser Ansatz trägt dazu bei, Fehler zu reduzieren und dafür zu sorgen, dass sich Ihre Infrastruktur immer in einem bekannten Zustand befindet.
- Verantwortlichkeit und vereinfachte Fehlerbehebung: Der IaC-Ansatz trägt dazu bei, die Verantwortlichkeit zu verbessern und die Fehlerbehebung zu vereinfachen. Wenn Sie Ihren IaC-Code in einem Versionskontrollsystem speichern, können Sie Änderungen nachverfolgen und feststellen, wann und von wem sie vorgenommen wurden. Bei Bedarf können Sie ganz einfach zu vorherigen Versionen zurückkehren.
Versionskontrolle implementieren
Ein Versionskontrollsystem wie Git ist eine wichtige Komponente des IaC-Prozesses. Es bietet robuste Funktionen für das Änderungsmanagement und die Risikobewältigung. Daher wird es häufig eingesetzt, entweder durch eigene Entwicklungen oder SaaS-Lösungen. Diese Empfehlung gilt für die folgenden Schwerpunktbereiche der Betriebsbereitschaft: Governance und Tools.
Durch das Nachverfolgen von Änderungen an IaC-Code und ‑Konfigurationen bietet die Versionskontrolle Transparenz in Bezug auf die Entwicklung des Codes. So lassen sich die Auswirkungen von Änderungen leichter nachvollziehen und potenzielle Probleme erkennen. Diese verbesserte Sichtbarkeit fördert die Zusammenarbeit zwischen Teammitgliedern, die an demselben IaC-Projekt arbeiten.
Mit den meisten Versionskontrollsystemen können Sie Änderungen bei Bedarf ganz einfach rückgängig machen. So lässt sich das Risiko von unbeabsichtigten Folgen oder Fehlern verringern. Wenn Sie Tools wie Git in Ihrem IaC-Workflow verwenden, können Sie die Prozesse für das Änderungsmanagement erheblich verbessern, die Zusammenarbeit fördern und Risiken minimieren. Dies führt zu einer effizienteren und zuverlässigeren IaC-Implementierung.
CI/CD-Pipelines erstellen
Pipelines für Continuous Integration und Continuous Delivery (CI/CD) optimieren die Entwicklung und Bereitstellung von Cloud-Anwendungen. CI/CD-Pipelines automatisieren die Build-, Test- und Bereitstellungsphasen. Dadurch sind schnellere und häufigere Releases mit verbesserter Qualitätskontrolle möglich. Diese Empfehlung bezieht sich auf das Tooling im Fokusbereich „Betriebsbereitschaft“.
CI/CD-Pipelines sorgen dafür, dass Codeänderungen kontinuierlich in ein zentrales Repository integriert werden, in der Regel ein Versionskontrollsystem wie Git. Durch die kontinuierliche Integration können Probleme frühzeitig erkannt und behoben werden. Außerdem sinkt die Wahrscheinlichkeit von Fehlern oder Kompatibilitätsproblemen.
Zum Erstellen und Verwalten von CI/CD-Pipelines für Cloud-Anwendungen können Sie Tools wie Cloud Build und Cloud Deploy verwenden.
- Cloud Build ist ein vollständig verwalteter Build-Dienst, mit dem Entwickler Build-Schritte deklarativ definieren und ausführen können. Sie lässt sich nahtlos in gängige Plattformen zur Quellcodeverwaltung einbinden und kann durch Ereignisse wie Codepushes und Pull-Requests ausgelöst werden.
- Cloud Deploy ist ein serverloser Bereitstellungsdienst, der die Bereitstellung von Anwendungen in verschiedenen Umgebungen wie Test-, Staging- und Produktionsumgebungen automatisiert. Es bietet Funktionen wie Blau/Grün-Bereitstellungen, Trafficaufteilung und Rollback-Funktionen, die die Verwaltung und Überwachung von Anwendungsbereitstellungen erleichtern.
Durch die Einbindung von CI/CD-Pipelines in Versionskontrollsysteme und Testframeworks lässt sich die Qualität und Zuverlässigkeit Ihrer Cloud-Anwendungen verbessern. Durch die Ausführung automatisierter Tests im Rahmen des CI/CD-Prozesses können Entwicklungsteams Probleme schnell erkennen und beheben, bevor der Code in der Produktionsumgebung bereitgestellt wird. Diese Integration trägt dazu bei, die Stabilität und Leistung Ihrer Cloud-Anwendungen insgesamt zu verbessern.
Tools zur Konfigurationsverwaltung verwenden
Mit Tools wie Puppet, Chef, Ansible und VM Manager können Sie die Konfiguration und Verwaltung von Cloud-Ressourcen automatisieren. Mit diesen Tools können Sie für Ressourcenkonsistenz und Compliance in Ihren Cloud-Umgebungen sorgen. Diese Empfehlung bezieht sich auf den Fokusbereich „Betriebsbereitschaft“.
Die Automatisierung der Konfiguration und Verwaltung von Cloud-Ressourcen bietet folgende Vorteile:
- Reduzierung des Risikos manueller Fehler: Bei manuellen Prozessen ist die Wahrscheinlichkeit von Fehlern aufgrund menschlicher Fehler höher. Tools zur Konfigurationsverwaltung reduzieren dieses Risiko, indem sie Prozesse automatisieren, sodass Konfigurationen einheitlich und korrekt auf alle Cloud-Ressourcen angewendet werden. Diese Automatisierung kann die Zuverlässigkeit und Stabilität der Cloud-Umgebung verbessern.
- Optimierung der Betriebseffizienz: Durch die Automatisierung wiederkehrender Aufgaben kann Ihr Unternehmen die IT-Mitarbeiter entlasten, damit sie sich auf strategischere Initiativen konzentrieren können. Diese Automatisierung kann zu einer Steigerung der Produktivität und Kosteneinsparungen sowie zu einer besseren Reaktion auf sich ändernde Geschäftsanforderungen führen.
- Vereinfachte Verwaltung komplexer Cloud-Infrastrukturen: Wenn Cloud-Umgebungen größer und komplexer werden, kann die Verwaltung der Ressourcen immer schwieriger werden. Tools zur Konfigurationsverwaltung bieten eine zentrale Plattform für die Verwaltung von Cloud-Ressourcen. Mit den Tools können Sie Konfigurationen leichter im Blick behalten, Probleme erkennen und Änderungen implementieren. Die Verwendung dieser Tools kann zu mehr Transparenz, Kontrolle und Sicherheit Ihrer Cloud-Umgebung führen.
Tests automatisieren
Durch die Einbindung automatisierter Tests in Ihre CI/CD-Pipelines können Sie die Qualität und Zuverlässigkeit Ihrer Cloud-Anwendungen verbessern. Wenn Sie Änderungen vor der Bereitstellung validieren, können Sie das Risiko von Fehlern und Rückschritten erheblich reduzieren. Das führt zu einem stabileren und robusteren Softwaresystem. Diese Empfehlung gilt für die folgenden Schwerpunktbereiche der Betriebsbereitschaft: Prozesse und Tools.
Im Folgenden sind die wichtigsten Vorteile der Einbindung automatisierter Tests in Ihre CI/CD-Pipelines aufgeführt:
- Frühzeitige Erkennung von Fehlern und Mängeln: Automatisierte Tests helfen, Fehler und Mängel frühzeitig im Entwicklungsprozess zu erkennen, bevor sie zu größeren Problemen in der Produktion führen können. So sparen Sie Zeit und Ressourcen, da in späteren Phasen des Entwicklungsprozesses keine kostspieligen Überarbeitungen und Fehlerkorrekturen mehr erforderlich sind.
- Hochwertiger und standardsbasierter Code: Automatisierte Tests können dazu beitragen, die Gesamtqualität Ihres Codes zu verbessern, indem sichergestellt wird, dass der Code bestimmte Standards und Best Practices erfüllt. Diese Funktion führt zu wartungsfreundlicheren und zuverlässigeren Anwendungen, die weniger fehleranfällig sind.
In CI/CD-Pipelines können Sie verschiedene Arten von Testmethoden verwenden. Jeder Testtyp dient einem bestimmten Zweck.
- Bei Unittests liegt der Schwerpunkt auf dem Testen einzelner Codeeinheiten wie Funktionen oder Methoden, um sicherzustellen, dass sie wie erwartet funktionieren.
- Bei Integrationstests werden die Interaktionen zwischen verschiedenen Komponenten oder Modulen Ihrer Anwendung getestet, um sicherzustellen, dass sie ordnungsgemäß zusammenarbeiten.
- End-to-End-Tests werden häufig zusammen mit Unit- und Integrationstests verwendet. Bei End-to-End-Tests werden reale Szenarien simuliert, um die Anwendung als Ganzes zu testen. So lässt sich besser nachvollziehen, ob die Anwendung die Anforderungen der Endnutzer erfüllt.
Um automatisierte Tests effektiv in Ihre CI/CD-Pipelines einzubinden, müssen Sie geeignete Testtools und ‑Frameworks auswählen. Es gibt viele verschiedene Optionen, die jeweils ihre eigenen Stärken und Schwächen haben. Außerdem müssen Sie eine klare Teststrategie festlegen, in der die durchzuführenden Tests, die Häufigkeit der Tests und die Kriterien für das Bestehen oder Nichtbestehen eines Tests beschrieben werden. Wenn Sie diese Empfehlungen befolgen, können Sie dafür sorgen, dass Ihr automatisierter Testprozess effizient und effektiv ist. Ein solcher Prozess liefert wertvolle Informationen zur Qualität und Zuverlässigkeit Ihrer Cloud-Anwendungen.
Kontinuierliche Verbesserung und Innovation
Dieses Prinzip im Bereich „Operative Exzellenz“ des Google Cloud Well-Architected Framework enthält Empfehlungen, mit denen Sie die Cloud-Nutzung kontinuierlich optimieren und Innovationen vorantreiben können.
Grundsatzübersicht
Wenn Sie sich in der Cloud kontinuierlich verbessern und Innovationen vorantreiben möchten, müssen Sie sich auf kontinuierliches Lernen, Experimentieren und Anpassungen konzentrieren. So können Sie neue Technologien kennenlernen und bestehende Prozesse optimieren. Außerdem wird eine Kultur der Spitzenleistung gefördert, die es Ihrem Unternehmen ermöglicht, eine führende Position in der Branche zu erreichen und zu halten.
Durch kontinuierliche Verbesserung und Innovation können Sie die folgenden Ziele erreichen:
- Innovationen beschleunigen: Neue Technologien und Dienste kennenlernen, um Funktionen zu verbessern und sich abzuheben.
- Kosten senken: Identifizieren und beseitigen Sie Ineffizienzen durch Initiativen zur Prozessverbesserung.
- Agilität verbessern: Schnelle Anpassung an sich ändernde Marktanforderungen und Kundenbedürfnisse.
- Entscheidungen verbessern: Sie erhalten wertvolle Informationen aus Daten und Analysen, um fundierte Entscheidungen zu treffen.
Unternehmen, die das Prinzip der kontinuierlichen Verbesserung und Innovation anwenden, können das volle Potenzial der Cloud-Umgebung ausschöpfen und nachhaltiges Wachstum erzielen. Dieses Prinzip bezieht sich hauptsächlich auf den Schwerpunktbereich „Operative Bereitschaft“. Eine Innovationskultur ermöglicht es Teams, mit neuen Tools und Technologien zu experimentieren, um die Funktionen zu erweitern und die Kosten zu senken.
Empfehlungen
Beachten Sie die Empfehlungen in den folgenden Abschnitten, um Ihre Cloud-Arbeitslasten kontinuierlich zu verbessern und zu innovieren. Jede Empfehlung in diesem Dokument ist für mindestens einen der Schwerpunktbereiche der Betriebsbereitschaft relevant.
Lernkultur fördern
Ermutigen Sie Teams, zu experimentieren, Wissen zu teilen und kontinuierlich zu lernen. Pflegen Sie eine Kultur ohne Schuldzuweisungen, in der Fehler als Chancen für Wachstum und Verbesserung angesehen werden. Diese Empfehlung bezieht sich auf den Fokusbereich „Betriebsbereitschaft“.
Wenn Sie eine Lernkultur fördern, können Teams aus Fehlern lernen und schnell iterieren. Dieser Ansatz ermutigt Teammitglieder, Risiken einzugehen, mit neuen Ideen zu experimentieren und die Grenzen ihrer Arbeit zu erweitern. Außerdem wird eine psychologisch sichere Umgebung geschaffen, in der sich die einzelnen Personen wohlfühlen und ihre Fehler teilen und daraus lernen können. Diese Art des Teilens führt zu einer offeneren und kooperativeren Arbeitsumgebung.
Schaffen Sie Möglichkeiten für den Wissensaustausch und das kontinuierliche Lernen, damit Teams Wissen teilen und voneinander lernen können. Sie können dies durch informelle und formelle Lernsitzungen und Konferenzen tun.
Wenn Sie eine Kultur des Experimentierens, des Wissensaustauschses und des kontinuierlichen Lernens fördern, können Sie eine Umgebung schaffen, in der Teams ermutigt werden, Risiken einzugehen, innovativ zu sein und sich weiterzuentwickeln. Diese Umgebung kann zu einer höheren Produktivität, einer besseren Problemlösung und einer engagierteren und motivierteren Belegschaft führen. Wenn Sie eine fehlerfreie Unternehmenskultur fördern, können Sie außerdem eine sichere Umgebung für Mitarbeiter schaffen, in der sie aus Fehlern lernen und zum gemeinsamen Wissen des Teams beitragen können. Diese Kultur führt letztendlich zu einer resilienteren und anpassungsfähigeren Belegschaft, die besser gerüstet ist, um Herausforderungen zu meistern und langfristig erfolgreich zu sein.
Regelmäßige Retrospektiven durchführen
Retrospektiven bieten Teams die Möglichkeit, ihre Erfahrungen zu reflektieren, zu erkennen, was gut gelaufen ist, und zu identifizieren, was verbessert werden kann. Durch Retrospektiven nach Projekten oder größeren Vorfällen können Teams aus Erfolgen und Misserfolgen lernen und ihre Prozesse und Praktiken kontinuierlich verbessern. Diese Empfehlung gilt für die folgenden Fokusbereiche der Betriebsbereitschaft: Prozesse und Governance.
Eine effektive Möglichkeit, eine Retrospektive zu strukturieren, ist das Start-Stop-Continue-Modell:
- Start: In der Start-Phase der Retrospektive identifizieren Teammitglieder neue Praktiken, Prozesse und Verhaltensweisen, die ihrer Meinung nach ihre Arbeit verbessern können. Sie besprechen, warum die Änderungen erforderlich sind und wie sie umgesetzt werden können.
- Aufhören: In der Stop-Phase identifizieren und beseitigen Teammitglieder Praktiken, Prozesse und Verhaltensweisen, die nicht mehr effektiv sind oder den Fortschritt behindern. Sie besprechen, warum diese Änderungen erforderlich sind und wie sie umgesetzt werden können.
- Weitermachen: In der Phase Weitermachen identifizieren Teammitglieder Praktiken, Prozesse und Verhaltensweisen, die gut funktionieren und fortgesetzt werden müssen. Er bespricht, warum diese Elemente wichtig sind und wie sie verstärkt werden können.
Mit einem strukturierten Format wie dem Start-Stop-Continue-Modell können Teams dafür sorgen, dass Retrospektiven produktiv und fokussiert sind. Dieses Modell hilft, die Diskussion zu erleichtern, die wichtigsten Erkenntnisse zu ermitteln und umsetzbare Schritte für zukünftige Verbesserungen zu identifizieren.
Mit Cloud-Technologien auf dem Laufenden bleiben
Wenn Sie das Potenzial von Google Cloud Diensten voll ausschöpfen möchten, müssen Sie über die neuesten Entwicklungen, Funktionen und Best Practices informiert bleiben. Diese Empfehlung bezieht sich auf den Fokusbereich „Betriebsbereitschaft“.
Die Teilnahme an relevanten Konferenzen, Webinaren und Schulungen ist eine gute Möglichkeit, Ihr Wissen zu erweitern. Bei diesen Veranstaltungen können Sie von Google Cloud Experten lernen, neue Funktionen kennenlernen und sich mit Branchenkollegen austauschen, die möglicherweise ähnliche Herausforderungen haben. Bei diesen Sessions erfahren Sie, wie Sie neue Funktionen effektiv nutzen, Ihre Cloud-Nutzung optimieren und Innovationen in Ihrem Unternehmen vorantreiben können.
Damit Ihre Teammitglieder mit den Cloud-Technologien Schritt halten, sollten Sie sie dazu ermutigen, sich zertifizieren zu lassen und an Schulungen teilzunehmen. Google Cloudbietet eine breite Palette von Zertifizierungen an, mit denen Fähigkeiten und Kenntnisse in bestimmten Cloud-Domänen nachgewiesen werden. Mit diesen Zertifizierungen belegen Sie Ihr Engagement für Spitzenleistungen und können nachweisen, dass Sie mit Cloud-Technologien vertraut sind. Die Schulungen, die von Google Cloud und unseren Partnern angeboten werden, gehen detaillierter auf bestimmte Themen ein. Sie bieten direkte Erfahrung und praktische Fähigkeiten, die sofort auf reale Projekte angewendet werden können. Wenn Sie in die berufliche Entwicklung Ihres Teams investieren, können Sie eine Kultur des kontinuierlichen Lernens fördern und dafür sorgen, dass alle die erforderlichen Kompetenzen haben, um in der Cloud erfolgreich zu sein.
Aktiv Feedback einholen und berücksichtigen
Holen Sie Feedback von Nutzern, Stakeholdern und Teammitgliedern ein. Nutzen Sie das Feedback, um Verbesserungsmöglichkeiten für Ihre Cloud-Lösungen zu identifizieren. Diese Empfehlung bezieht sich auf den Fokusbereich „Betriebsbereitschaft“.
Das Feedback, das Sie einholen, kann Ihnen helfen, die sich ändernden Anforderungen, Probleme und Erwartungen der Nutzer Ihrer Lösungen zu verstehen. Dieses Feedback dient als wertvoller Input, um Verbesserungen voranzutreiben und zukünftige Verbesserungen zu priorisieren. Sie können verschiedene Mechanismen verwenden, um Feedback einzuholen:
- Umfragen sind eine effektive Möglichkeit, quantitative Daten von einer großen Anzahl von Nutzern und Stakeholdern zu erheben.
- Nutzerinterviews bieten die Möglichkeit, qualitative Daten in detaillierter Form zu erheben. Interviews helfen Ihnen, die spezifischen Herausforderungen und Erfahrungen einzelner Nutzer zu verstehen.
- Feedbackformulare, die in den Cloud-Lösungen platziert werden, bieten Nutzern eine praktische Möglichkeit, sofort Feedback zu ihrer Nutzung zu geben.
- Regelmäßige Besprechungen mit Teammitgliedern können das Einholen von Feedback zu technischen Aspekten und Implementierungsherausforderungen erleichtern.
Das Feedback, das Sie über diese Mechanismen erfassen, muss analysiert und zusammengefasst werden, um gemeinsame Themen und Muster zu identifizieren. Anhand dieser Analyse können Sie zukünftige Verbesserungen basierend auf der Wirkung und Machbarkeit der vorgeschlagenen Verbesserungen priorisieren. Wenn Sie die durch Feedback ermittelten Anforderungen und Probleme angehen, können Sie dafür sorgen, dass Ihre Cloud-Lösungen weiterhin die sich ändernden Anforderungen Ihrer Nutzer und Stakeholder erfüllen.
Fortschritt messen und verfolgen
Leistungskennzahlen (KPIs) und Messwerte sind entscheidend, um den Fortschritt zu verfolgen und die Effektivität Ihrer Cloud-Nutzung zu messen. KPIs sind quantifizierbare Messwerte, die die Gesamtleistung widerspiegeln. Messwerte sind bestimmte Datenpunkte, die zur Berechnung von KPIs beitragen. Prüfen Sie die Messwerte regelmäßig und nutzen Sie sie, um Verbesserungsmöglichkeiten zu erkennen und den Fortschritt zu messen. So können Sie Ihre Cloud-Umgebung kontinuierlich verbessern und optimieren. Diese Empfehlung bezieht sich auf die folgenden Schwerpunktbereiche der Betriebsbereitschaft: Governance und Prozesse.
Ein Hauptvorteil der Verwendung von KPIs und Messwerten besteht darin, dass Ihr Unternehmen einen datengetriebenen Ansatz für die Cloud-Nutzung verfolgen kann. Wenn Sie Betriebsdaten erfassen und analysieren, können Sie fundierte Entscheidungen zur Optimierung der Cloud-Umgebung treffen. Dieser datengetriebene Ansatz hilft Ihnen, Trends, Muster und Anomalien zu erkennen, die ohne systematische Messwerte möglicherweise nicht sichtbar wären.
Sie können Tools wie Cloud Monitoring und BigQuery verwenden, um Betriebsdaten zu erheben und zu analysieren. Mit Cloud Monitoring können Cloud-Ressourcen und ‑Dienste in Echtzeit überwacht werden. Mit BigQuery können Sie die Daten speichern und analysieren, die Sie durch das Monitoring erfassen. Mit diesen Tools können Sie benutzerdefinierte Dashboards erstellen, um wichtige Messwerte und Trends zu visualisieren.
Betriebsdashboards können einen zentralen Überblick über die wichtigsten Messwerte bieten, sodass Sie schnell Bereiche erkennen können, die Aufmerksamkeit erfordern. Ein Dashboard kann beispielsweise Messwerte wie CPU-Auslastung, Arbeitsspeichernutzung, Netzwerkverkehr und Latenz für eine bestimmte Anwendung oder einen bestimmten Dienst enthalten. Wenn Sie diese Messwerte im Blick behalten, können Sie potenzielle Probleme schnell erkennen und beheben.