Site Reliability Engineering (SRE)
Vorteile
Ausgewogenheit zwischen Geschwindigkeit und Zuverlässigkeit finden
Vorteile der Geschwindigkeit nutzen
Automatisieren Sie durchgängig, vom Schreiben des Codes bis zum Ausführen der Dienste in der Produktion. Stimmen Sie Entwicklung und Betrieb auf Ziele ab, um schneller voranzukommen. Nutzen Sie Ihre gewohnten Tools wie das Vorfallmanagement, um den Aufwand zu minimieren.
Zuverlässigkeit mit bewährten SRE-Prinzipien verbessern
Nutzen Sie die SRE-Prinzipien, die bei Google entwickelt wurden und nachweislich im großen Maßstab funktionieren. Mit der Operations-Suite von Google Cloud können Sie ganz einfach Best Practices für SRE implementieren, um die Problemlösung zu beschleunigen und die Zuverlässigkeit zu verbessern.
Wir unterstützen Sie auf Ihrem SRE-Weg
Fördern Sie eine bessere Softwarebereitstellung – unabhängig von der Unternehmensgröße, der Branche und der Verwendung von VMs, Kubernetes oder serverlosen Lösungen. Wählen Sie zwischen kostenlosen Tools und kostenpflichtigen Angeboten, um den Einstieg in SRE zu vollbringen.
Wichtige Features
SRE-Tools und -Ressourcen zur Optimierung Ihrer Geschäftsabläufe und SRE-Teams
Dienststatus mit SRE-Prinzipien überwachen
Überwachen Sie den Status Ihrer Dienste. Arbeiten Sie mit Entwicklern zusammen, um die Geschwindigkeit von Änderungen zu erhöhen. Verwenden Sie dazu den integrierten Support für das Dienstmonitoring. Wählen Sie Messwerte für SLIs aus, legen Sie die SLOs fest und verfolgen Sie Fehlerbudgets, um Risiken für Ihren Dienst zu reduzieren. Nutzen Sie leistungsstarke Dashboards, um Messwerte und Logs zu aggregieren, einschließlich goldener Signale, um die MTTR zu reduzieren und Fragen zum Servicezustand schnell zu beantworten.
Sofort einsatzbereite Integrationen für mehr Automatisierung und geringeren Arbeitsaufwand
Nutzen Sie die direkt verfügbaren Integrationen in Ihre gewohnten Tools, um Vorfälle schnell zu beheben. Implementieren Sie schrittweise Rollouts und führen Sie ein sicheres Rollback der Änderungen durch. Mit vordefinierten Integrationen in Cloud Build können Sie Artefakte erstellen, testen und bereitstellen aufGoogle Kubernetes Engine, App Engine, Cloud Functions, Firebase undCloud Run als Teil Ihrer CI/CD.
Eine integrierte Ansicht für schnellere Auflösung
Genießen Sie eine einheitliche Ansicht von Logs, Ereignissen, Messwerten und SLOs. Kontextbezogene Beobachtbarkeitsdaten direkt in den Dienstkonsolen von Google Kubernetes Engine, Cloud Run Compute Engine und Anthos sowie anderen Laufzeiten abrufen. Erfassen Sie Messwerte, Traces und Logs ohne Einrichtung. Die Aufnahmelatenz von unter einer Sekunde und die Aufnahmerate von einem Terabyte pro Sekunde sorgen dafür, dass Sie Logs in Echtzeit verwalten und analysieren können.
Weitere Unterstützung von Google Cloud SRE-Fachleuten
Wenn Sie praktische Unterstützung bei der Migration benötigen, können Sie zusätzliche Google-Beratungsdienste nutzen. Wenden Sie sich an den Vertrieb, um zu ermitteln, welche Option für Ihre Organisation geeignet ist. Unser CRE-Team zeigt Ihnen, wie Kunden mit Google Cloud-Tools und -Praktiken anderen Unternehmen bei der Implementierung von SRE helfen.
Zusammenarbeit im SRE/Entwicklungsteam fördern, um die Beobachtbarkeit „nach links“ zu verschieben
Mit OpenTelemetry (OT)-Paketen und Google Exporter können Entwickler Trace-Daten nach Cloud Trace instrumentieren und exportieren. Unser neuer einheitlicher Ops-Agent (in der Vorschau) erfasst Messwerte und Logs und unterstützt OpenTelemetry, um Messwerte zu erfassen und zu übertragen. Wir arbeiten daran, OT-Bibliotheken als Standard-Features in vielen unserer Cloud-Produkte zu implementieren. Ein Beispiel für diese Bemühungen ist Cloud SQL Insights.
Ähnliche Dienste
SRE-Integrationen und Produkte
Mit Google Cloud neue Cloud-Anwendungen erstellen und bereitstellen, Artefakte speichern und die Sicherheit und Zuverlässigkeit von Anwendungen überwachen
Dokumentation
Informationen zum Implementieren von SRE in Ihrer Organisation mit diesen Ressourcen
Google Site Reliability Engineering
Auf SRE-Books zugreifen, von SREs hören und erfahren, wie wir bei Google SRE nutzen
SLO erstellen
Zum Monitoring eines Dienstes benötigen Sie mindestens ein Service Level Objective (SLO). Schritt-für-Schritt-Anleitung zum Erstellen Ihres ersten SLO in Cloud Monitoring.
Praxisorientierte Labs: Fehlerbehebung von Arbeitslasten in GKE für SREs
Hier erfahren Sie, wie Sie Ressourcenseiten von GKE aufrufen, das GKE-Dashboard verwenden, logbasierte Messwerte erstellen, ein SLO erstellen und eine Benachrichtigung definieren, um SRE-Mitarbeiter über Vorfälle zu informieren.
Zuverlässiges Engineering
Hier erfahren Sie, wie Sie SLOs in Operations-Suite von Google Cloud definieren und schützen und die Beobachtbarkeit Ihrer in Google Cloud ausgeführten Anwendungen verbessern.
SRE: Messung und Verwaltung von Zuverlässigkeit
Dieser Kurs vermittelt die Theorie von Service Level Objectives (SLOs), einer grundsatzorientierten Methode, um die gewünschte Zuverlässigkeit eines Dienstes zu beschreiben und zu messen.
Developing a Google SRE Culture
Dieser Kurs stellt die wichtigsten Verfahren des SRE von Google vor und zeigt auf, welche zentrale Rolle IT- und Unternehmensverantwortliche bei der Umsetzung spielen.
Das ist neu bei Google Cloud SRE
Melden Sie sich für die Google Cloud-Newsletter an. So werden Sie regelmäßig über Neuigkeiten zu Produkten, Veranstaltungen, Sonderangebote und weitere aktuelle Themen informiert.