SRE の新しいホワイトペーパーをダウンロードして、主要な概念と、Google Cloud が SRE 実装の道のりでどのように役立つかについて学びます

ジャンプ先

サイト信頼性エンジニアリング(SRE)

SRE は、信頼性の高い本番環境システムを実行するための職務、考え方、一連のエンジニアリング手法です。Google Cloud では、ツールやプロフェッショナル サービスなどのリソースを通じて、SRE の原則を実装できるよう支援しています。
Sabre
Lowe's
ADEO
Zebra
Optiva
Proctor & Gamble
Telus
Ulta

利点

スピードと信頼性のバランスを取る

スピードのメリットを受ける

コードの記述から本番環境でのサービスの実行まで、エンドツーエンドの自動化を実現します。開発と運用を共通の目標に合わせて調整し、改善します。手間を最小限に抑えながら、インシデント管理などの使い慣れたツールに接続できます。

実績のある SRE の原則に従って信頼性を改善

Google が開発し、大規模な運用が証明された SRE 原則を利用できます。SRE のベスト プラクティスを Google Cloud のオペレーション スイートで簡単に実装することで、問題解決の迅速化と信頼性の向上を実現できます。

SRE 導入のどの段階にいても Google が支援

会社の規模や業種、また VM、Kubernetes、サーバーレスのいずれを使用しているかにかかわらず、ソフトウェア デリバリーを向上させます。無料ツールや有料サービスから選択して、SRE の構築をすぐに開始できます。

主な機能

運用チームと SRE チームのパフォーマンスを向上させる SRE ツールとリソース

SRE 原則を使用したサービスの健全性のモニタリング

サービスの健全性をモニタリングし、デベロッパーと協力して、サービス モニタリングの組み込みサポートを使用して変更の速度を高めます。SLISLO、 および エラー バジェットサービスのリスクを軽減するために指標を選択します。パワフルな ダッシュボード を使用して ゴールデン シグナル を含む指標やログを集約して MTTRを短縮すれば サービスの状態に関する質問に迅速に回答できます。

すぐに使用できる統合による自動化の向上と手間の削減

使い慣れたツールとの統合機能が組み込まれているため、インシデントを迅速にトラブルシューティングできます。段階的なロールアウトを実装し、変更を安全にロールバックします。Cloud Build との事前構築済みの統合を利用して、アーティファクトをビルド、テストし、CI / CD の一部として Google Kubernetes EngineApp EngineCloud FunctionsFirebaseCloud Run にデプロイできます。

1 つの統合ビューで問題を迅速に解決

ログ、イベント、指標、SLO を 1 つにまとめてビューを表示できます。Google Kubernetes EngineCloud RunCompute EngineAnthos、その他の実行時間のサービス コンソール内で、コンテキスト内のオブザーバビリティ データを取得できます。設定なしで指標、トレース、ログを収集できます。1 秒未満の取り込みレイテンシと 1 秒あたりのテラバイトの取り込み速度により、リアルタイムのログ管理と大規模な分析を実行できます。

Google Cloud SRE スペシャリストからのサポートを受ける

このプロセスで実践的にサポートを受けたい場合は、Google コンサルティング サービスの追加サービスもご検討ください。お客様の組織に適したオプションについては、営業担当者にお問い合わせください。Google Cloud のツールとプラクティスが、他の企業が組織に SRE を実装するのにどのように役立ったかについて、CRE チームとお客様の成功事例から学びましょう。

SRE / 開発者のコラボレーションを促進して「シフトレフト」オブザーバビリティを実現

OpenTelemetry(OT)パッケージと Google Exporter を使用すると、デベロッパーはトレースデータを Cloud Trace に計測してエクスポートできます。新しい統合 Ops エージェント(プレビュー版)は、指標とログを収集します。また、OpenTelemetry をサポートすることで指標をキャプチャして転送します。Google では、多くのクラウド プロダクトにすぐに使える機能として OT ライブラリを実装するよう取り組んでいます。Cloud SQL Insights はこの取り組みの一例です。


導入事例

SRE プラクティスでお客様の要求に対応

関連サービス

ドキュメント

SRE を組織に導入する方法については、以下のリソースをご覧ください

ベスト プラクティス
Google のサイト信頼性エンジニアリング

SRE ブックにアクセスし、SRE から話を聞き、Google の SRE の手法について学びます。

Google Cloud の基礎
SLO の作成

サービスをモニタリングするには、サービスレベル目標(SLO)が少なくとも 1 つ必要です。Cloud Monitoring で最初の SLO を作成する方法を順を追って確認します。

チュートリアル
SRE 向け GKE ワークロードのトラブルシューティング

GKE のリソースページの操作方法、GKE ダッシュボードの使用方法、ログベースの指標の作成方法、SLO の作成方法、SRE スタッフにインシデントを通知するアラートの定義方法を学習します。

チュートリアル
信頼性のためのエンジニアリング

Google Cloud のオペレーション スイートで SLO を定義して保護し、Google Cloud で実行されているアプリケーションのオブザーバビリティを向上させる方法を学びます。

チュートリアル
SRE: 信頼性の測定と管理

このコースでは、サービスレベル目標(SLO)の理論について説明します。SLO とは、サービスの目標とする信頼性を記述および測定する理にかなった方法です。

チュートリアル
Developing a Google SRE Culture

このコースでは、Google SRE の主要な実践方法を紹介し、SRE の組織的な導入を成功させるうえで IT リーダーとビジネス リーダーが果たす重要な役割について説明します。

最新情報

Google Cloud Platform の新機能

Google Cloud のニュースレターにご登録いただくと、サービスの最新情報、イベント情報、スペシャル オファーなどを受け取ることができます。