Bei der Verwaltung von Ereignissen mit Spitzenlasten oder hohem Traffic in der Cloud gibt es drei wichtige Phasen:
- Vorbereitung: Führen Sie Aktivitäten und Aufgaben aus, um sich auf Ihr Ereignis vorzubereiten, z. B. eine Architekturüberprüfung, Kapazitätsplanung und das Erstellen von Reservierungen.
- Ausführung: Wenn Ihr Ereignis beginnt, sollten Sie es genau beobachten und entsprechend reagieren.
- Analyse: Analysieren Sie nach Abschluss des Ereignisses, was gut gelaufen ist, was nicht und wie Sie zukünftige Ereignisse verbessern können.
Sie sollten in diesen Phasen bestimmte Best Practices beachten, damit Sie Ihre Dienste mit minimalen bis gar keinen Ausfallzeiten und ohne Beeinträchtigung der Leistung oder Nutzerfreundlichkeit während des Ereignisses bereitstellen können.
Vorbereitung: Planungsprozess Ihres Ereignisses beschreiben
In der Vorbereitungsphase für ein Ereignis mit Spitzenkapazität sollten Sie sich an Ihr Account-Management-Team oder Ihren TAM wenden. Sie erhalten Unterstützung bei der Überprüfung Ihrer Architektur, beim Erstellen von Diagrammen, Zeitplänen und Checklisten für die Einführung und bei der Überprüfung Ihrer Dienstkontingente basierend auf dem erwarteten Traffic. So können Sie die Gesamtauswirkung auf Ihre Projekte abschätzen.
Die Planung sollte rechtzeitig vor dem Datum des Ereignisses beginnen. In einigen Fällen ist es möglicherweise erforderlich, die Planung Monate im Voraus zu beginnen, während sich Ihr Dienst noch in der Entwicklung befindet. Stellen Sie ein Team zusammen, das Sie bei der Überprüfung des vorgeschlagenen Ereignis-Workflows, der erwarteten Zielgruppe, Ihrer Anforderungen und Erfolgskriterien sowie der End-to-End-Media-Lieferkette unterstützt. Die Vorbereitungsphase sollte Risikobewertungen, Minderungsplanung und eine Überprüfung der Einsatzbereitschaft umfassen, um sicherzustellen, dass Ihr Workflow gut konzipiert ist.
Weitere Informationen finden Sie im Google Cloud Architektur-Framework. Es enthält Empfehlungen, die Architekten, Entwicklern, Administratoren und anderen Cloud-Experten dabei helfen, eine Cloud-Topologie zu entwerfen und zu betreiben, die sicher, effizient, stabil, leistungsstark und kostengünstig ist.
Ausführung: Überwachung und Reaktion während der Ausführung
Wenn die Hauptsaison oder das Einführungsereignis beginnt, müssen Sie die Aktivitäten genau beobachten und bei Bedarf reagieren. Nachdem Sie in der Vorbereitungsphase Monitoring, Benachrichtigungen und Logging eingerichtet haben, können Sie geschäftskritischen Traffic, Logs und Kontingentstufen im Blick behalten und diese Informationen nutzen, um die Grundursachen herauszufinden und Probleme schnell zu beheben. Weitere Informationen finden Sie unter Benachrichtigungen und Dashboards prüfen.
Sollten Probleme auftreten, sind ein klar definiertes Vorfallmanagement und ein Prozess der Eskalierung entscheidend, um den Aufwand und die Zeit für die Problembehebung möglichst gering zu halten. Falls noch nicht geschehen, richten Sie einen Prozess für das Vorfallmanagement ein. Weitere Informationen finden Sie unter Vorbereiten auf die Behebung von Problemen während des Ereignisses.
Analyse: Analyse prüfen und dokumentieren
Wenn die Hauptsaison oder das Einführungsereignis vorbei ist, sollten Sie das Ereignis prüfen und analysieren. Dokumentieren Sie die gewonnenen Erkenntnisse, damit Sie sie auf das nächste wichtige Ereignis anwenden können.
Konzentrieren Sie sich auf die folgenden Bereiche:
Zusammenfassung der Zeitachse: Hier sehen Sie, wann Ihr Traffic zu steigen begann, und die wichtigsten Ereignisse (Spitzen) während des Ereigniszeitraums. Finden Sie heraus, wann Probleme aufgetreten sind.
Ursachenanalyse: Untersuchen Sie alle aufgetretenen Probleme. Gibt es etwas, das Sie oder Google Cloud hätten anders machen können? Sollte das beim nächsten Mal berücksichtigt werden? Dokumentieren Sie alle gewonnenen Erkenntnisse und erforderlichen Schritte, um sich für die Zukunft zu verbessern.
Vorhersagen mit tatsächlichen Werten vergleichen: Analysieren Sie Ihre Traffic-Vorhersage im Vergleich zum tatsächlichen Traffic. Wo waren zusätzliche Ressourcen erforderlich? Wo wurden Ressourcen unterfordert oder waren unnötig?
Retrospektive: Teilen Sie die vorherigen Informationen mit wichtigen Stakeholdern und überprüfen Sie sie gemeinsam. Fördern Sie eine Kultur, in der niemandem die Schuld zugewiesen wird. Gehen Sie davon aus, dass alle Beteiligten gute Absichten hatten, und konzentrieren Sie sich darauf, die beitragenden Ursachen herauszufinden, ohne auf Einzelpersonen oder Teams hinzuweisen.