Google Cloud のオペレーション スイートの概要
Google Cloud Japan Team
※この投稿は米国時間 2021 年 12 月 3 日に、Google Cloud blog に投稿されたものの抄訳です。
クラウドのデプロイメントがどのように動作しているのか、あるいは本番環境で何かが壊れてユーザーに影響が出ていないかを確認したいときがあるでしょう。問題を発見して解決するために確認すべきツールがあまりにも多く、苦労することもあるかと思います。このような場合に役に立つのが Google Cloud のオペレーション スイートです。
オペレーション スイートとは
Google Cloud のオペレーション スイートは、大規模なサービスをモニタリング、トラブルシューティング、運用するためのプロダクトで構成されており、DevOps、SRE、ITOps の各チームが Google SRE のベスト プラクティスを活用できるようにします。モニタリング、ロギング、そしてトレース、デバッガ、プロファイラなどの高度なオブザーバビリティ サービスを統合した機能を提供します。エンドツーエンドの運用ソリューションには、組み込みテレメトリー、デフォルトで設定済みのダッシュボード、推奨事項、アラートなどが含まれます。
シグナルのキャプチャ
モニタリング システム
インシデントの管理
問題のトラブルシューティング
Cloud Operations に含まれるもの
Cloud Logging: Google Cloud 上のすべてのインフラストラクチャとアプリケーションからのログデータを 1 か所に集約する、高いスケーラビリティを有するフルマネージド サービスです。Cloud Logging は、Google Cloud サービスから自動的にログデータを収集し、アプリケーション、オンプレミス ソース、その他のクラウドなどのカスタム ログソースは、Ops エージェント、オープンソースの fluentd、または API を介して収集します。また、ログをどこにどのように保存するかを完全に管理できます。たとえば、ログの Cloud Logging への保存、Cloud Storage へのエクスポート、Cloud Pub/Sub を介したカスタムのサードパーティの移動先へのストリーミングが可能です。Cloud Logging チームは先日、ログを BigQuery で自動的に利用できるようにする Log Analytics のプレビューを発表しました。これにより、より深い分析情報を得て、他のビジネスデータと一緒にデータを分析できます。Logs Explorer は、ログをフィルタリングし、モニタリング、アラート、分析、可視化のためにログベースの指標に変換する強力な機能を提供します。
Cloud Monitoring は、Google Cloud、オンプレミス、他のクラウドなど、場所を問わず、アプリやインフラストラクチャ全体のオブザーバビリティを提供します。さまざまな指標のインテグレーションに対応しており、ユースケースに応じて独自のカスタム指標を定義し、その指標を外部システムに送信することも可能です。Metrics Explorer と Monitoring Query Language を使用することで、これらの指標を即座に分析し、相関関係を特定して対応するチャートをダッシュボードに簡単に追加できます。デフォルトで設定済みのダッシュボードやカスタムのダッシュボードを使用することで、インフラストラクチャ、サービス、アプリケーションの健全性を統合的に把握し、異常を簡単に発見できます。しかし、一日中ダッシュボードを眺めているわけにもいきません。Cloud Monitoring にはアラート機能があり、パフォーマンス指標、稼働時間チェック、サービスレベル指標に関するアラートのポリシーを作成できます。
アプリケーション パフォーマンス管理(APM)
アプリケーション パフォーマンス管理(APM)には、Cloud Logging と Cloud Monitoring のモニタリング機能とトラブルシューティング機能に加えて、レイテンシと費用の低減に役立つ Cloud Trace、Cloud デバッガ、Cloud Profiler が統合されており、アプリケーションをより効率的に実行できます。
Cloud Trace は、アプリにおけるリクエスト フロー、サービス トポロジ、レイテンシの問題を理解するための可視化と分析を提供します。
Cloud デバッガを使用すると、デプロイされ実行中のアプリケーションを停止させたり遅延させることなく、状態を検査できます。
Cloud Profiler は、各サービスにおけるコードのパフォーマンスを継続的に分析することで、コードのスピードアップやコスト削減を実現します。また、パフォーマンスへの影響がほとんどない状態で本番環境で運用できるように設計されています。
また、Trace はサービス間の関係やレイテンシを追跡するために使用されますが、Profiler はコードベース内の個々の関数全体でこれを追跡し、デバッガがメソッドから特定の問題のあるコード部分まで根本原因を見つけるのに役立ちます。
Cloud Operations の仕組み
Cloud Console で直接ツールを使用したり、API を介して IDE のデータにアクセスできます。Cloud Operations ツールは、平均復元時間(MTTR)を短縮し、アプリケーションのパフォーマンスを最適化します。
Cloud Logging では、Google Cloud 監査ログとプラットフォーム ログが自動的に取り込まれるので、すぐに使い始めることができます。また、API を使って他の環境やオンプレミスからログや指標を取り込むことも可能です。以下が使用できるようになります。
ログを表示、クエリ、分析するためのログビューア
ログベースの指標を作成し、アラートを設定
ログシンクを作成してリテンションを管理し、ポリシーを設定
Cloud Monitoring は、Google Cloud サービスで作成されたすべてのシステム指標を表示し、無料で利用できます。また、Cloud Monitoring は、Google Cloud 以外のモニタリング サービスを提供するさまざまなサードパーティ プロバイダとも連携しています。また、エージェントや API を介して、アプリケーションや Google Cloud 以外のソースからカスタム指標を取り込むこともできます。取り込まれた指標を使用して、以下を作成できます。
グラフとダッシュボード
アラートと通知
SLO のモニタリングと稼働時間チェック
GKE ユーザーの場合は、Cloud Operations for GKE を構成し、マネージド Prometheus サポートを含めます。Prometheus の表示形式を使用するサービスによって生成された指標は、クラスターからエクスポートして、Cloud Monitoring で外部指標として表示できます。
セキュリティの観点から、お客様のデータはすべて保存時も転送時も暗号化されます。Cloud Logging ではセキュリティに焦点を当てたすべての監査ログが自動的に利用可能で、誰が、どこで、いつ、何をしたのかを把握できます。アクセスの透明性ログは、Google の担当者がサポートを提供する際のアクションを記録するため、常にコンプライアンスを維持できます。
Cloud Operations に興味をお持ちの方は、こちらからドキュメントをご確認いただけます。
#GCPSketchnote や同様の Cloud コンテンツの詳細については、Twitter で @pvergadia をフォローしてください。thecloudgirl.dev もぜひご覧ください。
- Google デベロッパー アドボケイト Priyanka Vergadia