Cloud Operations Sandbox を使用して SRE への第一歩を踏み出す
Google Cloud Japan Team
※この投稿は米国時間 2021 年 1 月 23 日に、Google Cloud blog に投稿されたものの抄訳です。
Google Cloud チームは、組織のベスト プラクティスに関するトレーニングとクラウド サービスの運用を成功に導くために必要なツールの提供を通じて、サイト信頼性エンジニアリング(SRE)を活用いただけるようお客様のサポートに取り組んでいます。その要となるのが、ロギング、モニタリング、トレース、プロファイリング、デバッグの機能を備えた包括的なオブザーバビリティ ツールです。本番環境で起こる問題の迅速なトラブルシューティング、リリースのスピードアップ、サービスの信頼性向上にお役立ていただけます。
オブザーバビリティの実装は難しいという声をよくお聞きします。特に、さまざまなプログラミング言語を使用して実装し、多様な環境にデプロイした複雑な分散アプリケーションの場合は、運用費用が複数にわたるなど、多くの複雑な要因があります。その結果、ワークロードを Google Cloud に移行してモダナイゼーションを行っても、オブザーバビリティが後回しになりがちです。
しかし、信頼性の高い本番環境システムを運用するうえで、システムをデバッグ可能にし、システムの動作に関する分析情報を得られるようにすることはやはり重要です。Google Cloud で提供されるツールを使用して本番環境の安全を確保しつつ、オブザーバビリティに必要なサービスと SRE のベスト プラクティスを実装する方法を知りたいというご要望が、複数のお客様から寄せられています。Cloud Operations Sandbox を使用すると、オブザーバビリティの導入方法を実践的に学ぶと同時に、自社のユースケースに有効かどうかを確認できます。
Cloud Operations Sandbox は、Google の SRE プラクティスを学んで、Google Cloud のオペレーション スイート(旧称 Stackdriver)を使用したクラウド サービスに適用できるようにするオープンソース ツールです。Cloud Operations Sandbox には必要な機能がすべて揃っていて、ワンクリックで使用できます。
デモサービス - 最新のクラウドネイティブ スタック上でマイクロサービス アーキテクチャを使用して構築されたアプリケーション(Online Boutique マイクロサービスのデモアプリの修正フォーク)。
ワンクリック デプロイ - Google Cloud にサービスのデプロイと構成を行う、以下の自動スクリプト。
Service Monitoring 構成
OpenTelemetry によるトレース
クラウドのプロファイリング、ロギング、エラーレポート、デバッグなど
負荷生成ツール - デモサービス上で合成トラフィックを生成するコンポーネント。
SRE レシピ - デモアプリで意図的にエラーを発生させる事前構築されたタスク。Cloud Operations ツールを使って、本番環境で起こりうる問題の根本原因を見つける際に使用できます。
インタラクティブ チュートリアル - Cloud Operations の使用を開始するためのチュートリアル。
開始方法
Cloud Operations Sandbox を開始する手順はとても簡単です。
cloud-ops-sandbox.dev にアクセスします。
[Open in Google Cloud Shell] ボタンをクリックします。
これにより、新しい Google Cloud プロジェクトが作成されます。このプロジェクト内で、Terraform スクリプトによって Google Kubernetes Engine(GKE)クラスタが作成され、サンプル アプリケーションがデプロイされます。デモアプリを構成するマイクロサービスには、各マイクロサービスの言語ランタイムに適したロギング、モニタリング、トレース、デバッグ、プロファイリングの各機能が事前実装されています。そのため、デモアプリにトラフィックを送信すると発生するテレメトリーを、クラウド サービス運用の診断に役立てることができます。また、自動スクリプトは、本番環境同様のトラフィックを生成するために、デモアプリとは別の場所に合成負荷生成機能をデプロイします。
Google の SRE ブックで説明されているモニタリングの 4 つのゴールデン シグナルを表すカスタム ダッシュボードが、各マイクロサービスに 1 つずつ、計 11 個作成されます。
また、稼働時間チェック、サービスのモニタリング(SLO と SLI)、ログベースの指標、アラート ポリシーなどの機能が追加され、自動的に構成されます。
プロビジョニング スクリプトの最後で、以下のように新しく作成されたプロジェクトの URL を確認できます。
ユーザーガイドに沿って Cloud オペレーション スイートのツール全体について学習できます。たとえば、デモアプリの OpenTelemetry インストルメンテーションにより Cloud Trace でのマイクロサービスの操作の追跡について学べます。学習した内容を自社のシナリオに適用する方法もご確認いただけます。
最後に、使用し終わったサンドボックスを削除するには、以下のコマンドを実行します。
次のステップ
高い信頼性を持つアプリケーションをクラウドで実行するための実証済みの方法として、SRE 原則に沿うことをおすすめします。Cloud Operations Sandbox で SRE のプラクティスを学ぶことで、自信を持って SRE へ第一歩を踏み出していただければ幸いです。
利用を開始するには、cloud-ops-sandbox.dev にアクセスし、プロジェクトのリポジトリを表示して、ユーザーガイドに沿って操作してください。
-デベロッパー プログラム エンジニア Simon Zeltser
-デベロッパー プログラム エンジニア Daniel Sanche