Planen Sie Traffic-Spitzen und Startereignisse

Last reviewed 2023-06-25 UTC

In diesem Dokument im Google Cloud-Architektur-Framework erfahren Sie, wie Sie Traffic-Spitzen und Startereignisse in Ihre Planung einbeziehen, um Unterbrechungen Ihres Geschäftsangebots zu vermeiden.

Spitzen-Events sind wichtige geschäftsbezogene Ereignisse, die einen starken Anstieg des Traffics über die Standardwerte der Anwendung hinaus bedingen. Für diese Spitzen-Events ist eine geplante Skalierung erforderlich.

So können Einzelhändler, die online präsent sind, beispielsweise an Feiertagen Spitzenereignisse erwarten. Black Friday, ein Tag nach Thanksgiving in den USA, ist einer der geschäftigsten Tage des Jahres. Für die Gesundheitsbranche in den USA können in den Monaten Oktober und November die Spitzenereignisse aufgrund von Spitzen beim Online-Traffic für die Anmeldung von Vorteilen auftreten.

Startereignisse sind alle größeren Rollouts oder Migrationen neuer Funktionen in der Produktion. Beispiel: Eine Migration von der lokalen Umgebung zur Cloud oder die Einführung eines neuen Produktdienstes oder -Features.

Wenn Sie ein neues Produkt einführen, sollten Sie während der Bekanntgabe und möglicherweise danach eine stärkere Auslastung Ihrer Systeme erwarten. Diese Ereignisse bedingen häufig eine Erhöhung der Last um das 5- bis 20-Fache (oder höher) auf Frontend-Systemen. Durch diese erhöhte Last wird auch die Last auf Backend-Systemen erhöht. Häufig sind diese Frontend- und Backend-Lasten durch eine schnelle Skalierung über eine kurze Zeit gekennzeichnet, während das Event für Web-Traffic freigegeben wird. Nach Einführungen sinkt der Traffic langsam auf normale Werte ab. Die Abnahme verläuft in der Regel langsamer als der Anstieg auf den Spitzenwert.

Spitzen- und Einführungs-Events umfassen drei Phasen:

  • Planung und Vorbereitung für das Einführungs- oder Spitzen-Event
  • Event starten
  • Ereignisleistung und nachträgliche Ereignisanalyse überprüfen

Die in diesem Dokument beschriebenen Praktiken können dazu beitragen, dass jede dieser Phasen reibungslos abläuft.

Allgemeines Playbook für Einführungen und Spitzenereignisse erstellen

Erstellen Sie ein allgemeines Playbook mit einer langfristigen Ansicht der aktuellen und zukünftigen Spitzen-Events. Erweitern Sie das Dokument, damit es als Referenz für zukünftige Spitzen-Events dienen kann.

Bereiten Sie sich auf Ihre Einführungs- und Spitzen-Events vor

Planen Sie vor. Erstellen Sie Geschäftsprognosen für zukünftige Markteinführungen und für erwartete (und unerwartete) Spitzen-Events. Wie Sie Ihr System auf Skalierungsspitzen vorbereiten, hängt von Ihren Geschäftsprognosen ab. Je mehr über frühere Prognosen bekannt ist, desto genauer können Sie neue Geschäftsprognosen erstellen. Diese neuen Prognosen lassen wichtige Rückschlüsse darüber zu, welche Systemlast zu erwarten ist.

Die Einrichtung von Programmmanagement und koordinierter Planung – organisationsübergreifend und mit Drittanbietern – ist ebenfalls ein Schlüssel zum Erfolg. Richten Sie die Teams frühzeitig ein, damit Ihr Programmverwaltungsteam Zeitpläne festlegen, Budgets sichern und Ressourcen für zusätzliche Infrastruktur, Tests und Schulungen aufbauen kann.

Es ist wichtig, klare Kommunikationskanäle einzurichten. Gute Kommunikation ist in allen Phasen der Einführung oder eines Spitzenereignisses von entscheidender Bedeutung. Besprechen Sie Risiken und Bereiche frühzeitig und lassen Sie Probleme gemeinschaftlich durch die Teams bearbeiten, bevor sie zu unüberwindbaren Hindernissen werden. Erstellen Sie eine Dokumentation zur Ereignisplanung. Fassen Sie die wichtigsten Informationen zu dem Spitzenereignis zusammen und verteilen Sie sie. Auf diese Weise können Mitarbeiter Planungsinformationen aufnehmen und grundlegende Fragen lösen. Neue Mitarbeiter können damit auf den aktuellen Planungsstand gebracht werden.

Dokumentieren Sie Ihren Plan für jedes Ereignis. Achten Sie beim Dokumentieren Ihres Plans auf Folgendes:

  • Identifizieren Sie Annahmen, Risiken und unbekannte Faktoren.
  • Prüfen Sie frühere Ereignisse, um relevante Informationen für den bevorstehenden Start oder das Spitzenereignis zu ermitteln. Ermitteln Sie, welche Daten verfügbar sind und welche Aussagekraft sie in der Vergangenheit hatten.
  • Detaillieren Sie den Rollback-Plan für Start- und Migrationsereignisse.
  • Führen Sie eine Architekturüberprüfung durch:
    • Dokumentieren Sie Schlüsselressourcen und Architekturkomponenten.
    • Verwenden Sie das Architektur-Framework um alle Aspekte der Umgebung auf Risiken und Skalierungsaspekte zu prüfen.
    • Erstellen Sie ein Diagramm, das zeigt, wie die Hauptkomponenten der Architektur verbunden sind. Eine Prüfung des Diagramms kann Ihnen dabei helfen, Probleme zu isolieren und ihre Lösung zu beschleunigen.
  • Konfigurieren Sie gegebenenfalls den Service so, dass Benachrichtigungen zu einem automatischen Neustart führen, wenn ein Fehler auftritt. Verwenden Sie bei Nutzung von Compute Engine für die Verarbeitung von Durchsatzspitzen das Autoscaling.
  • Verwenden Sie Reservierungen, damit Compute Engine-Ressourcen verfügbar sind, wenn Sie sie benötigen. Reservierungen bieten ein sehr hohes Maß an Sicherheit beim Beschaffen von Kapazitäten für zonale Ressourcen von Compute Engine. Mit Reservierungen können Sie dafür sorgen, dass in Ihrem Projekt Ressourcen verfügbar sind.
  • Identifizieren Sie Messwerte und Benachrichtigungen, die verfolgt werden sollen:
    • Identifizieren Sie Geschäfts- und Systemmesswerte, die auf das Ereignis überwacht werden sollen. Wenn keine Messwerte oder Service Level Indicators (SLIs) erfasst werden, ändern Sie das System so, dass diese Daten erfasst werden.
    • Achten Sie auf ausreichende Monitoring- und Benachrichtigungsfunktionen und prüfen Sie die normalen und vorherigen Traffic-Muster. Prüfen Sie, ob die Benachrichtigungen entsprechend festgelegt sind. Mit Google Cloud Monitoring-Tools können Sie Anwendungsnutzung, -kapazität und den Gesamtzustand von Anwendungen und Infrastruktur einsehen.
    • Erfassen Sie Systemmesswerte mit Monitoring- und Benachrichtigungsebenen, die von Interesse sind.
  • Prüfen Sie mit Ihrem Google Cloud-Kontoteam die erhöhten Kapazitätsanforderungen und planen Sie die erforderliche Kontingentverwaltung. Weitere Informationen finden Sie unter Prüfen, ob Ihre Kontingente Ihren Kapazitätsanforderungen entsprechen.
  • Sorgen Sie dafür, dass Sie geeignete Cloud-Supportstufen haben, und Ihr Team versteht, wie Supportfälle geöffnet werden. Außerdem muss ein Eskalationspfad eingerichtet sein. Weitere Informationen finden Sie unter Cloud-Support- und Eskalationsprozesse einrichten.
  • Definieren Sie einen Kommunikationsplan, einen Zeitplan und Verantwortlichkeiten:
    • Binden Sie funktionsübergreifende Stakeholder ein, um die Kommunikation und Programmplanung zu koordinieren. Zu diesen Beteiligten können geeignete Personen aus technischen, operativen und Führungsteams sowie Drittanbietern gehören.
    • Legen Sie einen eindeutigen Zeitplan fest, der wichtige Aufgaben und die jeweils besitzenden Teams enthält.
    • Richten Sie eine RACI-Matrix (Verantwortlichkeitszuweisung) ein, um die Inhaberschaft für Teams, Teamleiter, Beteiligte und Verantwortliche zu kommunizieren.
    • Für geplante Spitzenereignisse können Sie den Event Management Service des Premium-Supports nutzen. Bei diesem Dienst arbeiten Customer Care-Partner mit Ihrem Team zusammen, um einen Plan zu erstellen und Sie während des Ereignisses zu begleiten.

Überprüfungsverfahren festlegen

Wenn das Spitzenereignis für den Traffic oder das Startereignis beendet ist, prüfen Sie das Ereignis, um die gewonnenen Erkenntnisse zu dokumentieren. Aktualisieren Sie dann Ihr Playbook mit diesen Lektionen. Wenden Sie schließlich das Gelernte auf das nächste Hauptereignis an. Das Lernen von früheren Ereignissen ist wichtig, insbesondere wenn sie unter Stress Beschränkungen für das System hervorheben.

Rückblickende Überprüfungen, auch Postmortems genannt, sind bei Trafficspitzen oder Startereignissen ein hilfreiches Verfahren zum Erfassen von Daten und zum Verständnis der aufgetretenen Vorfälle. Prüfen Sie diese Überprüfung auf Spitzenzugriffs- und Einführungsereignisse, die wie erwartet erfolgt sind, und auf Vorfälle, die Probleme verursacht haben. Unterstützen Sie bei dieser Prüfung eine Kultur ohne Schuldzuweisung.

Weitere Informationen zu Postmortems finden Sie unter Postmortem-Kultur: Aus Fehlern lernen.

Nächste Schritte