サイト信頼性エンジニアリング(SRE)
利点
スピードと信頼性のバランスを取る
スピードのメリットを受ける
コードの記述から本番環境でのサービスの実行まで、エンドツーエンドの自動化を実現します。開発と運用を共通の目標に合わせて調整し、高速化します。手間を最小限に抑えながら、インシデント管理などの使い慣れたツールに接続できます。
実績のある SRE の原則に従って信頼性を改善
Google が開発し、大規模な運用が証明された SRE 原則を利用できます。SRE のベスト プラクティスを Google Cloud のオペレーション スイートで簡単に実装することで、問題解決の迅速化と信頼性の向上を実現できます。
SRE 導入のどの段階にいても Google が支援
会社の規模や業種、また VM、Kubernetes、サーバーレスのいずれを使用しているかにかかわらず、ソフトウェア デリバリーを向上させます。無料ツールや有料サービスから選択して、SRE の構築をすぐに開始できます。
主な機能
運用チームと SRE チームのパフォーマンスを向上させる SRE ツールとリソース
SRE 原則を使用したサービスの健全性のモニタリング
サービスの健全性をモニタリングし、デベロッパーと協力して、サービス モニタリングの組み込みサポートを使用して変更の速度を高めます。SLI、 SLO、 および エラー バジェットサービスのリスクを軽減するために指標を選択します。パワフルな ダッシュボード を使用して ゴールデン シグナル を含む指標やログを集約して MTTRを短縮すれば サービスの状態に関する質問に迅速に回答できます。
すぐに使用できる統合による自動化の向上と手間の削減
使い慣れたツールとの統合機能が組み込まれているため、インシデントを迅速にトラブルシューティングできます。段階的なロールアウトを実装し、変更を安全にロールバックします。Cloud Build との事前構築された統合を利用して、アーティファクトを Google Kubernetes Engine、App Engine、Cloud Functions、Firebase、Cloud Run に対して、CI / CD の一部として構築、テスト、デプロイできます。
1 つの統合ビューで問題を迅速に解決
ログ、イベント、指標、SLO をまとめた 1 つビューを表示できます。Google Kubernetes Engine、Cloud Run、Compute Engine、Anthos、その他のランタイムのサービス コンソール内で、インコンテキスト オブザーバビリティ データを取得できます。設定なしで指標、トレース、ログを収集できます。1 秒未満の取り込みレイテンシと 1 秒あたりテラバイトの取り込み速度により、リアルタイムのログ管理と大規模な分析を実行できます。
Google Cloud SRE スペシャリストからのサポートを受ける
プロセス全体を通じて実践的なサポートを受けたい場合は、Google コンサルティング サービスなどの追加サービスもご検討ください。お客様の組織に適したオプションについては、営業担当者にお問い合わせください。Google の CRE チームとお客様の成功事例から、Google Cloud のツールとプラクティスが他の企業における SRE の実装にどのように役立っているかをご覧ください。
SRE / 開発者のコラボレーションを促進して「シフトレフト」オブザーバビリティを実現
OpenTelemetry(OT)パッケージと Google エクスポータを使用すると、デベロッパーはトレースデータを Cloud Trace にインストゥルメント化してエクスポートできます。新しい統合 Ops エージェント (プレビュー版)は、指標とログを収集するとともに、OpenTelemetry をサポートして、指標の取得と転送を行います。Google では、OT ライブラリをすぐに使用できる機能として、多くのクラウド プロダクトに実装する作業を進めています。 Cloud SQL Insights はこの取り組みの一例です。
関連サービス
SRE の統合とプロダクト
新しいクラウド アプリケーションのビルドとデプロイ、アーティファクトの保存、アプリケーションの安全性と信頼性の監視を Google Cloud で行います。
ドキュメント
SRE を組織に導入する方法については、以下のリソースをご覧ください
Google のサイト信頼性エンジニアリング
SRE ブックにアクセスし、SRE から話を聞き、Google の SRE の手法について学びます。
SLO の作成
サービスをモニタリングするには、サービスレベル目標(SLO)が少なくとも 1 つ必要です。Cloud Monitoring で最初の SLO を作成する方法を順を追って確認します。
ハンズオンラボ: SRE 向け GKE 上のワークロードのトラブルシューティング
GKE のリソースページの操作方法、GKE ダッシュボードの使用方法、ログベースの指標の作成方法、SLO の作成方法、SRE スタッフにインシデントを通知するアラートの定義方法を学習します。
信頼性のためのエンジニアリング
Google Cloud のオペレーション スイートで SLO を定義して保護し、Google Cloud で実行されているアプリケーションのオブザーバビリティを向上させる方法を学びます。
SRE: 信頼性の測定と管理
このコースでは、サービスレベル目標(SLO)の理論について説明します。SLO とは、サービスの目標とする信頼性を記述および測定する理にかなった方法です。
Developing a Google SRE Culture
このコースでは、Google SRE の主要な実践方法を紹介し、SRE の組織的な導入を成功させるうえで IT リーダーとビジネス リーダーが果たす重要な役割について説明します。
Google Cloud Platform の新機能
Google Cloud のニュースレターにご登録いただくと、サービスの最新情報、イベント情報、スペシャル オファーなどを受け取ることができます。