Eine zuverlässige Infrastruktur ist eine wichtige Voraussetzung für Arbeitslasten in der Cloud. Als Cloud Architect benötigen Sie ein gutes Verständnis der Zuverlässigkeitsfunktionen Ihres bevorzugten Cloudanbieters, um für Ihre Arbeitslasten eine zuverlässige Infrastruktur zu erstellen. In diesem Dokument werden die Bausteine der Zuverlässigkeit in Google Cloud (Zonen, Regionen und Standortressourcen) und die damit verbundenen Verfügbarkeitsstufen beschrieben. Dieses Dokument enthält auch Richtlinien zum Bewerten der Zuverlässigkeitsanforderungen Ihrer Arbeitslasten sowie Architekturempfehlungen zum Erstellen und Verwalten einer zuverlässigen Infrastruktur in Google Cloud.
Dieses Dokument ist in folgende Teile unterteilt:
- Übersicht über die Zuverlässigkeit (dieser Teil)
- Bausteine für Zuverlässigkeit in Google Cloud
- Zuverlässigkeitsanforderungen für Ihre Cloudarbeitslasten ermitteln
- Zuverlässige Infrastruktur für Ihre Arbeitslasten in Google Cloud entwerfen
- Traffic und Auslastung für Ihre Arbeitslasten in Google Cloud verwalten
- Google Cloud-Infrastruktur verwalten und überwachen
Wenn Sie diesen Leitfaden bereits gelesen haben und wissen möchten, was sich geändert hat, lesen Sie die Versionshinweisen.
Übersicht über Zuverlässigkeit
Eine Anwendung oder Arbeitslast ist zuverlässig, wenn sie Ihre aktuellen Ziele für Verfügbarkeit und Robustheit gegenüber Ausfällen erfüllt.
Verfügbarkeit (Uptime) ist der Prozentsatz der Zeit, während der eine Anwendung nutzbar ist. Bei einer Anwendung mit einem Verfügbarkeitsziel von 99,99% darf die Gesamtausfallzeit beispielsweise 8,64 Sekunden während eines 24-Stunden-Zeitraums nicht überschreiten. Manchmal wird die Verfügbarkeit als der Anteil der Anfragen gemessen, die die Anwendung während eines bestimmten Zeitraums erfolgreich verarbeitet. Bei einer Anwendung mit einem Verfügbarkeitsziel von 99,99% dürfen beispielsweise pro 100.000 empfangenen Anfragen nicht mehr als zehn Anfragen fehlschlagen. Die Verfügbarkeit wird häufig als Anzahl der Neunen in Prozent angegeben. Beispiel: 99,99% Verfügbarkeit wird als "4 Neunen" bezeichnet.
Je nach Zweck der Anwendung können Sie verschiedene Sätze von Indikatoren für die Zuverlässigkeit der Anwendung haben. Beispiele für solche Zuverlässigkeitsindikatoren:
- Für Anwendungen, die Inhalte bereitstellen, sind Verfügbarkeit, Latenz und Durchsatz wichtige Indikatoren für die Zuverlässigkeit. Sie geben an, ob die Anwendung auf Anfragen antworten kann, wie lange es dauert, bis die Anwendung auf Anfragen reagiert, und wie viele Anfragen die Anwendung in einem bestimmten Zeitraum erfolgreich verarbeiten kann.
- Bei Datenbanken und Speichersystemen sind Zuverlässigkeit, Latenz, Durchsatz und Verfügbarkeit (wie gut Daten vor Verlust oder Beschädigung geschützt sind) ein Indikator für die Zuverlässigkeit. Sie geben an, wie lange das System zum Lesen oder Schreiben von Daten benötigt und ob bei Bedarf auf Daten zugegriffen werden kann.
- Bei Big Data- und Analysearbeitslasten wie Datenverarbeitungspipelines ist eine konsistente Pipelineleistung (Durchsatz und Latenz) für die Aktualität der Datenprodukte wichtig und ein wichtiger Zuverlässigkeitsindikator. Sie gibt an, wie viele Daten verarbeitet werden können und wie lange es dauert, bis die Pipeline von der Datenaufnahme bis zur Datenverarbeitung durchlaufen wurde.
- Die meisten Anwendungen haben Datengenauigkeit als wesentlichen Zuverlässigkeitsindikator.
Weitere Richtlinien zum Definieren der Zuverlässigkeitsziele für Ihre Anwendungen finden Sie unter Zuverlässigkeitsanforderungen für Ihre Cloud-Arbeitslasten bewerten.
Faktoren, die sich auf die Zuverlässigkeit der Anwendungen auswirken
Die Zuverlässigkeit einer Anwendung, die in Google Cloud bereitgestellt wird, hängt von den folgenden Faktoren ab:
- Das interne Design der Anwendung.
- Die sekundären Anwendungen oder Komponenten, von denen die Anwendung abhängt.
- Google Cloud-Infrastrukturressourcen wie Computing, Netzwerke, Speicher, Datenbanken und Sicherheit, auf denen die Anwendung ausgeführt wird, und wie die Anwendung die Infrastruktur verwendet.
- Die von Ihnen bereitgestellte Infrastrukturkapazität und die Skalierung der Kapazität.
- Die DevOps-Prozesse und -Tools, die Sie zum Erstellen, Bereitstellen und Verwalten der Anwendung, ihrer Abhängigkeiten und der Google Cloud-Infrastruktur verwenden.
Diese Faktoren sind im folgenden Diagramm zusammengefasst:
Wie im vorherigen Diagramm dargestellt, hängt die Zuverlässigkeit einer Anwendung, die in Google Cloud bereitgestellt wird, von mehreren Faktoren ab. Der Schwerpunkt dieses Leitfadens liegt auf der Zuverlässigkeit der Google Cloud-Infrastruktur.
Nächste Schritte
- Bausteine für Zuverlässigkeit in Google Cloud
- Zuverlässigkeitsanforderungen für Ihre Cloudarbeitslasten ermitteln
- Zuverlässige Infrastruktur für Ihre Arbeitslasten in Google Cloud entwerfen
- Traffic und Auslastung für Ihre Arbeitslasten in Google Cloud verwalten
- Google Cloud-Infrastruktur verwalten und überwachen
Beitragende
Autoren:
- Nir Tarcic | Cloud Lifecycle SRE UTL
- Kumar Dhanagopal | Cross-Product Solution Developer
Weitere Beitragende:
- Alok Kumar | Distinguished Engineer
- Andrew Fikes | Engineering Fellow, Zuverlässigkeit
- Chris Heiser | SRE TL
- David Ferguson | Director, Site Reliability Engineering
- Joe Tan | Senior Product Counsel
- Krzysztof Duleba | Principal Engineer
- Narayan Desai | Principal SRE
- Sailesh Krishnamurthy | VP, Engineering
- Steve McGhee | Reliability Advocate
- Sudhanshu Jain | Product Manager
- Yaniv Aknin | Software Engineer