SRE の新しいホワイトペーパーをダウンロードして、主要な概念と、Google Cloud が SRE 実装の道のりでどのように役立つかについて学びます

ジャンプ先

サイト信頼性エンジニアリング(SRE)

SRE は、信頼性の高い本番環境システムを実行するための職務、マインドセット、エンジニアリング手法のセットです。Google Cloud では、ツールやプロフェッショナル サービスなどのリソースを通じて、SRE の原則を実装できるよう支援しています。
Sabre
Lowe's
ADEO
Zebra
Optiva
Proctor & Gamble
Telus
Ulta

利点

スピードと信頼性のバランスを取る

スピードのメリットを受ける

コードの記述から本番環境でのサービスの実行まで、エンドツーエンドの自動化を実現します。開発と運用を共通の目標に合わせて調整し、高速化します。手間を最小限に抑えながら、インシデント管理などの使い慣れたツールに接続できます。

実績のある SRE の原則に従って信頼性を改善

Google が開発し、大規模な運用が証明された SRE 原則を利用できます。SRE のベスト プラクティスを Google Cloud のオペレーション スイートで簡単に実装することで、問題解決の迅速化と信頼性の向上を実現できます。

SRE 導入のどの段階にいても Google が支援

会社の規模や業種、また VM、Kubernetes、サーバーレスのいずれを使用しているかにかかわらず、ソフトウェア デリバリーを向上させます。無料ツールや有料サービスから選択して、SRE の構築をすぐに開始できます。

主な機能

運用チームと SRE チームのパフォーマンスを向上させる SRE ツールとリソース

SRE 原則を使用したサービスの健全性のモニタリング

サービスの健全性をモニタリングし、デベロッパーと協力して、サービス モニタリングの組み込みサポートを使用して変更の速度を高めます。SLISLO、 および エラー バジェットサービスのリスクを軽減するために指標を選択します。パワフルな ダッシュボード を使用して ゴールデン シグナル を含む指標やログを集約して MTTRを短縮すれば サービスの状態に関する質問に迅速に回答できます。

すぐに使用できる統合による自動化の向上と手間の削減

使い慣れたツールとの統合機能が組み込まれているため、インシデントを迅速にトラブルシューティングできます。段階的なロールアウトを実装し、変更を安全にロールバックします。Cloud Build との事前構築された統合を利用して、アーティファクトを Google Kubernetes EngineApp EngineCloud FunctionsFirebaseCloud Run に対して、CI / CD の一部として構築、テスト、デプロイできます。

1 つの統合ビューで問題を迅速に解決

ログ、イベント、指標、SLO をまとめた 1 つビューを表示できます。Google Kubernetes EngineCloud RunCompute EngineAnthos、その他のランタイムのサービス コンソール内で、インコンテキスト オブザーバビリティ データを取得できます。設定なしで指標、トレース、ログを収集できます。1 秒未満の取り込みレイテンシと 1 秒あたりテラバイトの取り込み速度により、リアルタイムのログ管理と大規模な分析を実行できます。

Google Cloud SRE スペシャリストからのサポートを受ける

プロセス全体を通じて実践的なサポートを受けたい場合は、Google コンサルティング サービスなどの追加サービスもご検討ください。お客様の組織に適したオプションについては、営業担当者にお問い合わせください。Google の CRE チームとお客様の成功事例から、Google Cloud のツールとプラクティスが他の企業における SRE の実装にどのように役立っているかをご覧ください。

SRE / 開発者のコラボレーションを促進して「シフトレフト」オブザーバビリティを実現

OpenTelemetry(OT)パッケージと Google エクスポータを使用すると、デベロッパーはトレースデータを Cloud Trace にインストゥルメント化してエクスポートできます。新しい統合 Ops エージェント (プレビュー版)は、指標とログを収集するとともに、OpenTelemetry をサポートして、指標の取得と転送を行います。Google では、OT ライブラリをすぐに使用できる機能として、多くのクラウド プロダクトに実装する作業を進めています。 Cloud SQL Insights はこの取り組みの一例です。


ドキュメント

SRE を組織に導入する方法については、以下のリソースをご覧ください

ベスト プラクティス
Google のサイト信頼性エンジニアリング

SRE ブックにアクセスし、SRE から話を聞き、Google の SRE の手法について学びます。

Google Cloud の基礎
SLO の作成

サービスをモニタリングするには、サービスレベル目標(SLO)が少なくとも 1 つ必要です。Cloud Monitoring で最初の SLO を作成する方法を順を追って確認します。

チュートリアル
ハンズオンラボ: SRE 向け GKE 上のワークロードのトラブルシューティング

GKE のリソースページの操作方法、GKE ダッシュボードの使用方法、ログベースの指標の作成方法、SLO の作成方法、SRE スタッフにインシデントを通知するアラートの定義方法を学習します。

チュートリアル
信頼性のためのエンジニアリング

Google Cloud のオペレーション スイートで SLO を定義して保護し、Google Cloud で実行されているアプリケーションのオブザーバビリティを向上させる方法を学びます。

チュートリアル
SRE: 信頼性の測定と管理

このコースでは、サービスレベル目標(SLO)の理論について説明します。SLO とは、サービスの目標とする信頼性を記述および測定する理にかなった方法です。

チュートリアル
Developing a Google SRE Culture

このコースでは、Google SRE の主要な実践方法を紹介し、SRE の組織的な導入を成功させるうえで IT リーダーとビジネス リーダーが果たす重要な役割について説明します。

Google Cloud Platform の新機能

Google Cloud のニュースレターにご登録いただくと、サービスの最新情報、イベント情報、スペシャル オファーなどを受け取ることができます。