Bare Metal Solution 環境でのモニタリング
Bare Metal Solution を使用すると、Google Cloud データセンター付近にあるリージョンの拡張施設で特殊なワークロードを実行できます。Bare Metal Solution 環境を実装すると、全体的なコストを削減し、クラウドへの移行に伴うリスクを軽減できます。
モニタリングの概要
Google の主な優先事項の一つは、Bare Metal Solution 環境で最高の可用性を提供することです。そのため、Google Cloud とパートナーはさまざまなモニタリング アクティビティを行っています。Google がモニタリングする Bare Metal Solution 環境内のインフラストラクチャ デバイスは次のとおりです。
コンピューティング インフラストラクチャ
- サーバー ハードウェア
ストレージ インフラストラクチャ
- ストレージ デバイス
- SAN スイッチ
ネットワーク インフラストラクチャ
- ルーター
- スイッチ
- 相互接続のインフラストラクチャ
また、Google Cloud はサーバールームの温度や湿度など、データセンター環境も追跡します。
オペレーティング システム、アプリケーション レベルのアクティビティとワークロード、Bare Metal Solution サーバー間で送受信されるネットワーク トラフィックはモニタリングの対象外です。Cloud Operations を使用して OS レベルのアクティビティをモニタリングできるユーティリティのプレビューを希望される場合は、Google Cloud の営業担当者までお問い合わせください。
モニタリング ツール
Google のパートナーは、Information Technology Infrastructure Library(ITIL)に完全に準拠する商用グレードのソフトウェア ソリューションをモニタリングに使用しています。Google Cloud とパートナーは、Pub/Sub、Cloud Run 関数、Cloud Monitoring などの Google Cloud サービスも利用し、モニタリング データの収集と処理を行っています。Google の社内チケット発行システムおよび通知システムは、これらのサービスと直接連携します。
モニタリング データ
モニタリング データの概要は次のとおりです。
- SNMP トラップ
- Syslog メッセージ
- 専用の管理ソフトウェアからのメッセージ
- Intelligent Platform Management Interface(IPMI)
モニタリング対象デバイスの一般的な指標:
- CPU 使用率
- ネットワーク インターフェース:
- 帯域幅使用率
- パケット破棄数
- エラー
アラート
Google Cloud は、Bare Metal Solution 環境の特定の要件に対して広範な正規化と検証アクティビティを行いました。認定されたイベントが通常の範囲から外れると、モニタリング システムによってアラートがトリガーされます。
インシデント管理
Google Cloud と Google のパートナー インフラストラクチャ プロバイダには、インシデント対応を担当する 24 時間 365 日体制の専門チームを設置しています。また、ブリッジチームも 24時間 365 日体制で各サポート チケットの初期分析を実行し、問題を軽減するために必要な措置を講じます。インシデントの重大度に基づいて、適切なチームを配備してインシデントを解決します。
Cloud カスタマーケアは、Google Cloud エンジニアリング SysOps チームと連携しています。エンジニアリング SysOps チームは最新情報を提供し、サポートが必要なすべての操作を手配します。Google Cloud エンジニアリング チームは、必要に応じてインフラストラクチャ プロバイダ パートナーやハードウェア ベンダーと協力して、問題の解決をサポートします。
根本原因の分析プロセス
広範囲にわたり深刻な影響を与えるインシデントの場合、Google は、その症状、影響、根本原因、是正措置、今後のインシデント防止策をまとめたインシデント報告書をリリースします。事後分析と同じく、Google が特に注意を向けるのは、問題から学び、信頼性を改善するために講じる措置です。
このモニタリング機能の概要が、インフラストラクチャとアプリケーションをクラウドに移行する際に、Bare Metal Solution 環境に対して自信を持っていただくための一助となれば幸いです。