Laden Sie das neue Whitepaper zu SRE herunter und erfahren Sie mehr über Schlüsselkonzepte und dazu, wie Google Cloud Sie auf Ihrem SRE-Weg unterstützen kann.
Weiter zu

Site Reliability Engineering (SRE)

SRE ist eine Jobfunktion, eine Denkweise und eine Reihe von technischen Praktiken zum Betrieb zuverlässiger Produktionssysteme. Google Cloud unterstützt Sie bei der Implementierung der SRE-Prinzipien mit Tools, Dienstleistungen und weiteren Ressourcen.
  • Sabre
  • Lowe’s
  • adeo
  • Zebra
  • Logo: Optiva
  • Proctor & Gamble
  • TELUS
  • Ulta
  • Logo: JCB

Vorteile

Ausgewogenheit zwischen Geschwindigkeit und Zuverlässigkeit finden

Vorteile der Geschwindigkeit nutzen

Automatisieren Sie durchgängig, vom Schreiben des Codes bis zum Ausführen der Dienste in der Produktion. Stimmen Sie Entwicklung und Betrieb auf Ziele ab, um schneller voranzukommen. Nutzen Sie Ihre gewohnten Tools wie das Vorfallmanagement, um den Aufwand zu minimieren.

Zuverlässigkeit mit bewährten SRE-Prinzipien verbessern

Nutzen Sie die SRE-Prinzipien, die bei Google entwickelt wurden und nachweislich im großen Maßstab funktionieren. Mit der Operations-Suite von Google Cloud können Sie ganz einfach Best Practices für SRE implementieren, um die Problemlösung zu beschleunigen und die Zuverlässigkeit zu verbessern.

Wir unterstützen Sie auf Ihrem SRE-Weg

Fördern Sie eine bessere Softwarebereitstellung – unabhängig von der Unternehmensgröße, der Branche und der Verwendung von VMs, Kubernetes oder serverlosen Lösungen. Wählen Sie zwischen kostenlosen Tools und kostenpflichtigen Angeboten, um den Einstieg in SRE zu vollbringen.

Wichtige Features

SRE-Tools und -Ressourcen zur Optimierung Ihrer Geschäftsabläufe und SRE-Teams

Dienststatus mit SRE-Prinzipien überwachen

Überwachen Sie den Status Ihrer Dienste. Arbeiten Sie mit Entwicklern zusammen, um die Geschwindigkeit von Änderungen zu erhöhen. Verwenden Sie dazu den integrierten Support für das Dienstmonitoring. Wählen Sie Messwerte für SLIs aus, legen Sie die SLOs fest und verfolgen Sie Fehlerbudgets, um Risiken für Ihren Dienst zu reduzieren. Nutzen Sie leistungsstarke Dashboards, um Messwerte und Logs zu aggregieren, einschließlich goldener Signale, um die MTTR zu reduzieren und Fragen zum Servicezustand schnell zu beantworten.

Sofort einsatzbereite Integrationen für mehr Automatisierung und geringeren Arbeitsaufwand

Nutzen Sie die direkt verfügbaren Integrationen in Ihre gewohnten Tools, um Vorfälle schnell zu beheben. Implementieren Sie schrittweise Rollouts und führen Sie ein sicheres Rollback der Änderungen durch. Mit vordefinierten Integrationen in Cloud Build können Sie Artefakte erstellen, testen und bereitstellen aufGoogle Kubernetes Engine, App Engine, Cloud Functions, Firebase undCloud Run als Teil Ihrer CI/CD.

Eine integrierte Ansicht für schnellere Auflösung

Genießen Sie eine einheitliche Ansicht von Logs, Ereignissen, Messwerten und SLOs. Kontextbezogene Beobachtbarkeitsdaten direkt in den Dienstkonsolen von Google Kubernetes Engine, Cloud Run Compute Engine und Anthos sowie anderen Laufzeiten abrufen. Erfassen Sie Messwerte, Traces und Logs ohne Einrichtung. Die Aufnahmelatenz von unter einer Sekunde und die Aufnahmerate von einem Terabyte pro Sekunde sorgen dafür, dass Sie Logs in Echtzeit verwalten und analysieren können. 

Weitere Unterstützung von Google Cloud SRE-Fachleuten

Wenn Sie praktische Unterstützung bei der Migration benötigen, können Sie zusätzliche Google-Beratungsdienste nutzen. Wenden Sie sich an den Vertrieb, um zu ermitteln, welche Option für Ihre Organisation geeignet ist. Unser CRE-Team zeigt Ihnen, wie Kunden mit Google Cloud-Tools und -Praktiken anderen Unternehmen bei der Implementierung von SRE helfen.

Zusammenarbeit im SRE/Entwicklungsteam fördern, um die Beobachtbarkeit „nach links“ zu verschieben

Mit OpenTelemetry-Paketen und Google Exporter können Entwickelnde Trace-Daten in Google Cloud Trace instrumentieren und exportieren. Unser neuer einheitlicher Ops-Agent (in der Vorschau) erfasst Messwerte und Logs und unterstützt OpenTelemetry, um Messwerte zu erfassen und zu übertragen. Wir arbeiten daran, OT-Bibliotheken als vorkonfigurierte Features in vielen unserer Cloud-Produkte zu implementieren. Cloud SQL Insights ist ein Beispiel dafür.


Dokumentation

Informationen zum Implementieren von SRE in Ihrer Organisation mit diesen Ressourcen

Best Practice
Google Site Reliability Engineering

Auf SRE-Books zugreifen, von SREs hören und erfahren, wie wir bei Google SRE nutzen

Google Cloud Basics
SLO erstellen

Zum Monitoring eines Dienstes benötigen Sie mindestens ein Service Level Objective (SLO). Schritt-für-Schritt-Anleitung zum Erstellen Ihres ersten SLO in Cloud Monitoring.

Tutorial
Zuverlässiges Engineering

Hier erfahren Sie, wie Sie SLOs in Operations-Suite von Google Cloud definieren und schützen und die Beobachtbarkeit Ihrer in Google Cloud ausgeführten Anwendungen verbessern.

Tutorial
SRE: Messung und Verwaltung von Zuverlässigkeit

Dieser Kurs vermittelt die Theorie von Service Level Objectives (SLOs), einer grundsatzorientierten Methode, um die gewünschte Zuverlässigkeit eines Dienstes zu beschreiben und zu messen.

Tutorial
Developing a Google SRE Culture

Dieser Kurs stellt die wichtigsten Verfahren des SRE von Google vor und zeigt auf, welche zentrale Rolle IT- und Unternehmensverantwortliche bei der Umsetzung spielen.

Das ist neu

Das ist neu bei Google Cloud SRE

Melden Sie sich für die Google Cloud-Newsletter an. So werden Sie regelmäßig über Neuigkeiten zu Produkten, Veranstaltungen, Sonderangebote und weitere aktuelle Themen informiert.