コンテンツに移動
管理ツール

Cloud Ops でオブザーバビリティを向上させる 21 の新しい方法

2020年8月25日
Google Cloud Japan Team

※この投稿は米国時間 2020 年 8 月 13 日に、Google Cloud blog に投稿されたものの抄訳です。

 Google Cloud で確実にアプリケーションを運用してインフラストラクチャを実行することがどれほど重要であるかについて、お客様からさまざまな声が寄せられています。とりわけ、オブザーバビリティは信頼性のある運用のために欠かせない要素です。Google Cloud 環境の分析情報をすばやく得られるよう、今年に入ってリリースしたオブザーバビリティ スイートである Cloud Operations に 21 の新機能を追加しました。これにより、Google Cloud Console からすべてのオペレーション機能に直接アクセスできます。今日ご案内する新機能では、お使いの環境が Google Cloud、その他のクラウド、オンプレミス、またはその組み合わせのいずれであっても、必要なオブザーバビリティを容易に得られるようになります。

さらに重要な点として、Cloud Operations は驚異的な規模のインフラストラクチャの上に構築されており、結果として生じたパフォーマンスをお届けします。Cloud Operations の 2 つのセントラル サービスである Cloud Monitoring と Cloud Logging は、コアとなるオブザーバビリティ プラットフォーム上に構築されています。これらのプラットフォームは Google 全体で使用されており、1 秒あたり 1,600 万件の指標のクエリ、1 か月あたり 2.5 エクサバイトのログ、ディスク上で 1,400 兆を超える指標ポイントを処理しています。これはとてつもない量のデータです。

この規模に到達するため、迅速さと信頼性を確保しながら構築、リリース、本番環境におけるアプリケーションの実行を実現する文化と手法を開発しました。その核となっているサイト信頼性エンジニアリング(SRE)の手法は、プロダクト計画に不可欠です。Google では、この巨大なプラットフォームのパワーを Google Cloud のお客様にご提供するだけでなく、SRE アプローチから関連する機能を選りすぐっています。これにより、カスタマー エクスペリエンスを簡素化して Cloud Ops プロダクトに組み込み、お客様の環境にオブザーバビリティを加えるための計画、収集、保存、構成、トラブルシューティングという 5 つのステップに従って細分化できると考えています。具体的に見ていきましょう。

https://storage.googleapis.com/gweb-cloudblog-publish/images/google_sre.max-500x500.jpg

計画

運用ワークフローを構築する前に、サービスを俯瞰して、各サービスがどのように行われるべきかを理解し、サービスレベル目標(SLO)を定義することがベスト プラクティスです。ここで、最初の新機能が役立ちます。

1. SLO Monitoring の一般提供

SLO に焦点を合わせることが、これまでになく簡単になりました。SLO Monitoring では、シグナルに集中して信号雑音比を改善することが可能です。すぐに使用できるアラートとの連係により、多くの専門知識がなくても本番環境のモニタリングを行って重要なビジネス指標に影響を与える前に問題を特定して修正することが容易になります。

SLO Monitoring は一般提供が開始されてからわずか 2 週間で数百人もの新規ユーザーを獲得し、SLO Monitoring を使用してモニタリングの手法を簡素化する方法についてのすばらしいフィードバックも寄せられています。

Equifax の SRE リーダー兼エンタープライズ アーキテクトである Vipul Makar 氏は、次のように述べています。「SLO では、ユーザーがプロダクトについてどのように感じているかを測定できます。これは非常に重要なことです。SLO Monitoring のおかげでデータドリブンな意思決定を行い、より信頼性の高いプロダクトを構築できます。SLO の使い方を知ってしまったら、もう手放せません。」

SLO の詳細と、カスタム指標を使用して SLO を作成する方法については、Google Cloud Next ’20: OnAir のセッション、OPS200 - Equifax による Kubernetes Engine インフラストラクチャとサービスのモニタリングおよび OPS102 - Google Cloud におけるカスタム指標テレメトリーのベスト プラクティスにご参加ください。

収集

ログと指標の収集は、すぐに使用できる Google Cloud のシステムログと指標のためのオブザーバビリティを活用して容易に行えます。アプリケーションやサードパーティのログと指標を、OpenTelemetry / OpenCensus、Google Cloud のモニタリング エージェントおよびロギング エージェントによるキャプチャ、Cloud Operations API を介した直接送信など、作成されたどの場所からでも追加できます。

今日、Google ではロギングに使用できるログの種類を拡大しています。これには 2 つの重要な方法があります。

2. G Suite 監査ログ - これは一般提供中の G Suite 監査ログと Cloud Logging を統合したもので、すぐに使用できる監査ログを提供している多くの Google Cloud サービスに追加されています。

3. マルチクラウドとオンプレミス - Blue Medora と提携して、どこからでもログと指標を収集できるエージェントをお届けします。現在、追加費用なしで一般提供されています

また、Compute Engine VM から指標とログをキャプチャする作業がさらに容易になりました。

4. Compute Engine インスタンスの複数のグループ間で、または全体において、単一のコマンドを使って Cloud Logging エージェントと Cloud Monitoring エージェントをインストール、実行、管理できるようになりました。

ログと指標の収集についての詳細は、OPS102 - Google Cloud におけるカスタム指標テレメトリーのベスト プラクティスおよび OPS203 - Shopify、Splunk、Google における OpenTelemetry とオブザーバビリティ セッションにご参加ください。

保管

Cloud Logging と Cloud Monitoring でデータを保管し保護することは、オブザーバビリティ戦略において重要です。そのため、Google ではお客様のセキュリティ要件とプライバシー要件を満たすために役立つ新機能のリリースに取り組んでいます。

Cloud Logging なら、簡単にログの検索と分析ができ、さらに安全性、コンプライアンス、スケーラビリティに優れた一元的なログ保管を実現します。本日、ログの探索と分析に関する最近の機能強化に基づき、ログの保管と管理機能にさらに多くの改善を加えることを発表します。新機能をいくつかご紹介します。

5. ログバケット(ベータ版) - オーナー権限、保持期間、リージョンに基づいて、ログを一元化または分割します。

6. ログビュー(プレビュー) - ログデータへのアクセス権をコントロールしやすくなります。

7. リージョン化されたログ保管(プレビュー) - 5 つの個別のクラウド リージョンにログバケットを構成できます。リージョンは今後も追加予定です。

8. 強化されたログ ルーティング(プレビュー) - プロジェクトから別のプロジェクトにログをルーティングしたり、フォルダまたは組織レベルで集約ログシンクを使用してログをログバケットに一元化したりできます。

9. カスタマイズ可能な保持期間(一般提供) - 一般提供されているカスタム保持でログデータの保持期間を 1 日から 10 年まで設定できることに加えて、2021 年 3 月末までカスタム保持を追加費用なしでご利用いただけます。ログの長期コンプライアンスと分析のニーズにお応えするログ管理機能を、委託費なしでお試しいただけます。

リージョン化されたログバケットとログビューは現在非公開プレビューの段階ですが、2020 年 9 月にベータ版を公開予定です。プレビュー ユーザーから好評をいただいた新機能には組織全体におけるすべての監査ログの一元化マルチテナンシー GKE クラスタから複数のプロジェクトへのログ分割、リージョン化されたログ保管の設定といった機能があります。登録していただくと、ログビューとリージョン化された保管のプレビューが今後リリースされた時点で通知を受けたり、アクセスしたりできるようになります。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Regionalized_logs_buckets_and_logs_view.max-1300x1300.jpg

さらに、カスタム指標および Prometheus 指標を書き込んで保持できることも、アプリケーションとサービスのオブザーバビリティにとって重要となりえます。こうした指標を必要に応じて使用できるようにするため、次の機能が役に立ちます。

10. カスタム指標と Prometheus 指標のための長期保持 - 6 週間ではなく、24 か月にわたり保持されるようになりました。追加費用はかかりません。

11. エージェント指標、カスタム指標、Prometheus 指標のための 10 秒の解像度 - エージェント指標、カスタム指標、Prometheus 指標に対して、10 秒の粒度で指標を書き込めます。こうした解像度の高い指標を使って、迅速に変化する環境、アプリケーション、サービス、インフラストラクチャをトラッキングできます。

ログ管理の新機能についての詳細は、OPS100 - Google Cloud でのオブザーバビリティの設計セッションにご参加ください。

構成

Cloud Operations スイートでは、ビジネスと信頼性の目標を達成するために環境をカスタマイズする方法をいくつかご提供しています。これにはダッシュボード、アラート ポリシー、ログベースの指標、稼働時間チェック、SLO などがあります。お客様が構成を自動化して、新しいダッシュボードをすぐに活用できるよう、さまざまな新しい強化機能をご用意しています。

12. Monitoring Dashboards API - モニタリングをコードとして管理できる新しい Dashboards API で、大規模なダッシュボードの構築がこれまでにないほど簡単になりました。

13. すぐに使えるダッシュボード - 簡単に構築できるダッシュボードは便利ですが、そのダッシュボードがすでにお客様のために構築済みであればなお便利です。Cloud Logging ダッシュボードや、フリート間の指標を表示する Compute Engine 向けの新しくなったダッシュボードなど、すぐに使える新しいダッシュボードを幅広く追加しました。

14. Pub/Sub アラート通知 - システムの可視化に加えて、Cloud Monitoring のアラート用の新しい Pub/Sub 統合で、アラート機能を使用して信頼性を高めて自動化を行い、作業負担を軽減できます。

15. Monitoring Query Language(一般提供) - 新しい Monitoring Query Language では、時系列を操作して便利なグラフを作成し、時系列値の算術式を定義したり、新しい集計を作成したりできます。作成できるグラフには、異なる指標間や、現在の指標と過去の指標を比較したプロット比率などがあります。  

Cloud Operations のアラートとダッシュボードについての詳細は、OPS208 - Google Cloud Monitoring のアラートに関するベスト プラクティスおよび OPS302 - コードとしてモニタリング セッションにご参加ください。

トラブルシューティング

これですべての設定が完了し、本番環境における問題のトラブルシューティングを行う準備が整いました。問題の迅速な特定に役立つ 6 つの新機能を Cloud Logging に追加しました。

16. 一般提供(GA)されている新しいログビューアは、さまざまな新しいログデータ分析機能を誇ります。GCP 組織のフォルダレベルまたは組織レベルにおけるログ表示がサポートされるようになりました。

17. 新しいログビューアにはヒストグラムが追加され、時間の経過に伴うログのパターンを特定することができます。

18. 新しいログビューアにはログ フィールド エクスプローラが追加されました。すばやくクエリを絞り込んで、データ全体の興味深い分布を見つけるのに便利です。

19. 新しいログビューアの保存済み検索条件と最近の検索では、最も価値のあるログをさらにすばやく取得できます。

20. トレースとの統合により、レイテンシについてのコンテキストに応じた分析情報が得られ、特定のトレースを含むすべてのログを見つけやすくなりました。

21. また、ロギングクエリ言語がメジャー アップグレードされ、正規表現がサポートされるようになりました。

Cloud Operations のトラブルシューティングについての詳細は、OPS201 - Google Cloud のオペレーション スイート サービスを使ったより良いデベロッパー エクスペリエンスの実現および OPS301 - パフォーマンスのボトルネックを検出する分散トレースの分析セッションにご参加ください。

新機能の概要と GKE での使用法については、こちらの動画をご覧ください。

Video Thumbnail

Cloud Operations を使ってみる

Google の大規模な基盤と新機能の積極的なロードマップが、Cloud Operations のオブザーバビリティ ツールの信頼性を高めています。ぜひミッション クリティカルなアプリケーションの管理、モニタリング、トラブルシューティングにお役立てください。Cloud Operations についての詳細は、NEXT’20 OnAir で次の各セッションに登録してご参加ください。

OPS100 - Google Cloud でのオブザーバビリティの設計

OPS200 - Equifax による Kubernetes Engine インフラストラクチャとサービスのモニタリング

OPS213 - Cloud Operations の注目情報

 

Pali Bhat, Vice President of Product & Design

投稿先