AIOps とは

AIOps(IT 運用向け AI)は、ML や自然言語処理(NLP)などのテクノロジーを使用して、IT システムの管理方法を自動化し、改善します。IT システムから大量のデータを調べてパターンを見つけ、IT チームが何が起こっているのか、何をすべきかを理解できるようにします。AIOps プラットフォームは、ログ、パフォーマンス測定、イベントなど、さまざまな場所からデータを収集し、IT 環境の全体像を把握できるようにします。AIOps は、このデータに接続して理解することで、異常なアクティビティを特定し、問題の原因を見つけ、潜在的な問題を発生前に予測するのに役立ちます。

Gemini Cloud Assist : AI でクラウドの運用と管理を簡素化

AIOps と DevOps: どのように連携するか

AIOps と DevOps は起源が異なりますが、競合する概念ではなく、強力なパートナーです。この関係は次のように考えるとよいでしょう。

  • DevOps は、開発と運用を統合してソフトウェア デリバリーのライフサイクルを加速させることを目的とした文化とプロセスです。これはコラボレーション、自動化、CI / CD パイプラインに重点を置いています。
  • AIOps は、DevOps ツールチェーンを強化するインテリジェント エンジンです。最新の DevOps 手法による複雑さを管理するために必要な高度な分析と自動化を提供します。

つまり、DevOps は高速で動くパイプラインを構築し、AIOps は問題を自動的に検出、診断、解決することで、パイプラインが確実に効率的に実行されるようにします。

AIOps の仕組み

AIOps プラットフォームは通常、観測、関与、行動という 3 つの部分からなるプロセスで機能します。

観察

AIOps プラットフォームは、IT 環境全体から指標、ログ、トレース、イベントなどの膨大なデータストリームを取り込んで一元化し、システムの健全性をリアルタイムで完全に把握できるようにします。

連携

このプラットフォームは、ML を使用してこのデータを関連付けて分析し、重要なシグナルとノイズを区別します。異常を自動的に検出し、関連するアラートをグループ化して、考えられる根本原因を特定し、統合ダッシュボードと対象を絞ったアラートを通じて、行動につながる分析情報を IT チームに提供します。

行動

プラットフォームは分析に基づいて、問題を解決するための自動応答をトリガーします。これは、適切なチームへの通知から、サービスの再起動、リソースのスケーリング、変更のロールバックなどの自動修復ワークフローの実行まで多岐に渡り、多くの場合、人間のオペレーターが介入する前に実行されます。

AIOps の主なステージは?

AIOps の成熟度を高めるための取り組みは通常、いくつかのステージに分かれています。

  1. リアクティブ: この最初のステージでは、組織は独立して活動し、イベントに関するデータをリアクティブな目的でのみ収集します。システムとビジネスの間のインタラクションはほとんどありません。
  2. 統合: 企業が AIOps の導入を進めるにつれて、データソースを統合された構造に統合し、IT サービス管理(ITSM)を改善することで、サイロを解消し、コラボレーションを促進できます。
  3. 分析: 3 つ目のステージでは、すべてのステークホルダーがデータにアクセスできるようにすることを優先する包括的な分析戦略を実装します。ITSM プロセスを強化し、測定基準と主要な指標を定義することで、組織は成果を向上させることができます。
  4. 規範的: この段階では、組織は自動化を優先し、機械学習を頻繁に使用します。自動化は、人間の介入を補完するものであり、ITSM プロセスの重要な要素となっています。また、比較分析を使用して、改善とビジネスへの影響を測定できます。
  5. 自動化: 最高レベルの成熟度では、組織は完全な自動化と、人間の介入なしで動作する予測 ML モデルを実現します。ステークホルダーはデータをシームレスに共有し、分析の透明性が確保されます。これにより、ビジネス価値を重視する先を見越した意思決定を促進できます。

AIOps にはどのような種類がありますか?

適切なプラットフォームを選択して効果的に実装するには、さまざまなタイプの AIOps ソリューションを理解しておくことが重要です。AIOps ソリューションは、主に次の 2 つのタイプに分類できます。

  • ドメイン中心の AIOps: これらの AI を活用した専用ツールは、ネットワーキング、アプリケーション、クラウド コンピューティング環境など、特定の IT 運用領域のパフォーマンスをモニタリングおよび管理します。たとえば、ドメイン中心の AIOps プラットフォームは、ネットワーク パフォーマンスのモニタリングに特化し、AI を使用してネットワークの異常を検出して診断します。
  • ドメインに依存しない AIOps: これらのソリューションは、より広範なネットワークと組織の境界を越えて予測分析と AI 自動化をスケールするように設計されています。IT 環境全体にわたる多様なソースからイベントデータを収集して分析し、総合的な分析情報と相関関係を提供します。たとえば、ドメインに依存しない AIOps プラットフォームは、さまざまなモニタリング ツール、セキュリティ システム、IT サービス管理(ITSM)プラットフォームからデータを取り込み、IT 運用を包括的に把握し、さまざまなドメインにわたるイベント間の相関関係を特定する場合があります。

AIOps のメリット

AIOps を実装すると、組織に戦略的および運用上の大きなメリットがもたらされます。

ビジネスのアジリティと応答性の向上

AIOps を使用すると、IT はより柔軟になり、変化するビジネスニーズに迅速に対応できます。インシデントの迅速な解決、リソース割り当ての最適化、先見的な分析情報により、新しいサービスの迅速なデプロイ、市場機会への迅速な対応、スケーラビリティの向上を実現できます。

戦略的なリソースの最適化と費用対効果

AIOps は、リソース使用率の最適化、オーバープロビジョニングとアンダープロビジョニングの防止、費用のかかるダウンタイムの削減により、よりスマートな IT 支出を促進します。データドリブンな分析情報により、インフラストラクチャ投資に関する戦略的な意思決定が可能になり、ビジネス目標との整合性が向上し、大幅な費用削減につながります。

顧客とユーザーのエクスペリエンス、ブランドの評判の向上

AIOps によって推進される一貫性、信頼性、高性能の IT サービスは、ポジティブでシームレスなユーザー エクスペリエンスを実現し、中断を最小限に抑え、サービスの可用性を最大化します。これは、デジタル化が進む世界において、顧客満足度の向上、ブランドの評判の向上、顧客ロイヤルティの強化に直結します。

IT チームの生産性とイノベーション能力の向上

AIOps は、ルーチンタスクの自動化、アラート疲労の軽減、実用的な分析情報の提供により、IT 運用効率を大幅に向上させ、IT 担当者の貴重な時間を解放します。これにより、IT チームは、事後対応的な作業から、ビジネスの成長を促進する戦略的イニシアチブ、イノベーション、付加価値活動に焦点を移すことができます。

ビジネスのレジリエンスとリスク軽減の強化

AIOps は、IT の潜在的な問題を、重要なビジネス オペレーションに影響を与える前にプロアクティブに特定して解決し、ダウンタイムとサービスの中断を最小限に抑えます。さらに、AIOps はセキュリティ ポスチャーとコンプライアンスの取り組みを強化し、ビジネスの全体的な復元力に貢献して、運用リスクとセキュリティ リスクを軽減します。

AIOps のユースケース

AIOps は、さまざまな IT 運用シナリオで幅広い機能のアプリケーションを提供します。

プロアクティブなパフォーマンス モニタリングと信頼性

サービスを高速かつ信頼性の高い状態に保つため、AIOps は IT インフラストラクチャのパフォーマンスをプロアクティブにモニタリングします。過去のデータとリアルタイムのデータを分析して正常な状態を学習し、メモリリークや応答時間の低下など、将来の問題を示す微妙な逸脱を検出できるようにします。これにより、チームはサービスの中断を引き起こす前に問題を修正できます。

自動化されたインシデント修復ワークフロー

AIOps は、IT 自動化ツールやオーケストレーション プラットフォームと統合することで、インシデント対応ワークフローの自動化を促進します。インシデントが検出されると、AIOps は、サービスを再起動する、リソースをスケーリングする、診断スクリプトを実行するなど、事前定義された修復アクションを手動で介入することなく自動的にトリガーできます。たとえば、AIOps がウェブ アプリケーションのエラーを検出した場合、アプリケーション サーバーを再起動し、最近の問題となるコードデプロイをロールバックするワークフローを自動的に開始できます。

多次元データ相関によるインテリジェントな根本原因分析

ML を活用して、ログ、指標、ネットワーク トラフィック、構成データなど、さまざまな IT ソースからのデータを分析して関連付け、インテリジェントな根本原因分析を実行できるようにします。この機能により、AIOps は、人間による分析では見逃されがちな複雑な関係や依存関係を特定することで、IT の問題の根本原因を正確に特定できます。たとえば、データベースのパフォーマンスの問題が検出された場合、AIOps はデータベースのログをサーバーの指標やネットワークのレイテンシ データと関連付け、根本原因がクエリの遅延、サーバー リソースの競合、ネットワークのボトルネックのいずれであるかを特定できます。

セキュリティ運用(SecOps)の強化

AIOps は、脅威から保護するために同じ異常検出の原則を適用することで、セキュリティを強化します。ネットワーク トラフィック、ユーザーの行動、システムログを分析して、正常なアクティビティのベースラインを確立します。その後、異常なデータアクセス パターンや予期しない場所からのログイン試行など、セキュリティ侵害の可能性を示す不審な逸脱にフラグを立て、セキュリティ チームにアラートをトリガーします。

コンテキストアウェアで動的なアラートの優先順位付け

インテリジェントなアルゴリズムを組み込んでアラートを分析してコンテキスト化し、重大度、ビジネスへの影響、依存関係に基づいて動的に優先順位を付けます。この機能は、単純なしきい値ベースのアラートを提供するだけでなく、アラートのノイズを減らし、IT チームが最も重要で対応が必要な通知に集中できるようにします。

トレンド分析とリソースの推奨事項による事前対応型のパフォーマンス最適化

傾向分析とキャパシティ プランニング アルゴリズムを実行して、潜在的なパフォーマンスのボトルネックをプロアクティブに特定し、リソース割り当てを最適化します。AIOps は、過去のパフォーマンス データを分析し、将来のリソースのニーズを予測することで、コンピューティング リソースのスケールアップやワークロードのリバランスなどのリソース調整に関する推奨事項を提供し、最適なパフォーマンスを維持してサービス品質の低下を防ぎます。たとえば、AIOps はアプリケーションのパフォーマンスの傾向を分析し、ウェブ アプリケーションがピーク負荷を経験する可能性が高い時期を予測できます。また、ピーク時に一貫したユーザー エクスペリエンスを確保するために、ウェブサーバー インスタンスのプロアクティブなスケーリングを推奨します。

AIOps の実装方法

AIOps の実装には、データ品質、インテグレーション、スキル開発などのさまざまな要素を考慮した戦略的アプローチが必要です。組織内で AIOps を実装する方法の概要は次のとおりです。

  • AIOps をビジネス目標に合わせる: AIOps の実装に関する明確な目標を定義し、組織の全体的なビジネス戦略に合わせます。たとえば、組織の目標が顧客満足度の向上である場合、AIOps を使用してダウンタイムを短縮し、サービスの信頼性を向上させることに重点を置きます。
  • イベントデータを AIOps ツールに接続する: さまざまなソースやモニタリング ツールからのデータを統合して、IT 環境の統合ビューを提供します。これには、既存のモニタリング ツール、ログ管理システム、ITSM プラットフォームとの統合などが含まれます。
  • ノイズを減らす: 無関係なアラートや通知をフィルタする戦略を実装し、最も重要な問題に焦点を当てます。これには、AI を使用してアラートを関連付け、パターンを特定し、偽陽性を抑制することなどが含まれます。
  • イベントデータとインシデントを拡充して正規化する: イベントデータを標準化して拡充することで、チーム間の迅速な対応とコラボレーションを促進します。これには、影響を受けるシステム、アプリケーション、ユーザーなどのコンテキスト情報をアラートに追加することなどが含まれます。
  • 自動修復ワークフローを構築する: まず、よく発生する反復的なインシデントを特定します。AIOps がトリガーしてこれらの問題を即座に解決できる自動化されたハンドブックを作成してテストし、人間のエンジニアがより複雑な問題に注力できるようにします。
  • 高品質なデータを確保する: AIOps の有効性は、システムに供給されるデータの品質によって左右されます。分析情報や予測が不正確にならないように、データの正確性、完全性、整合性を確保してください。
  • オープン API と SDK を活用する: オープン API と SDK は、AIOps を既存のシステムと統合し、統合をカスタマイズするために不可欠です。IT 環境とのシームレスな統合を確保するために、オープン API と SDK を提供する AIOps プラットフォームを選択します。

Gemini Cloud Assist と AIOps

Gemini Cloud Assist は、自然言語のやり取りを通じて AIOps 機能を強化する、インテリジェントで常時稼働のコラボレーターとして機能します。Google Cloud のオブザーバビリティ ツールや管理ツールと緊密に統合することで、「観測、関与、行動」のサイクルを簡素化し、クラウドチームや開発チーム全体が高度な運用にアクセスできるようにします。

  • トラブルシューティングの迅速化: 問題が発生した場合、オペレーターは Gemini Cloud Assist にログとエラー メッセージを分析するよう簡単な英語で指示できます。サービス全体で情報を関連付けて、考えられる根本原因を示し、具体的な修正を推奨することで、平均修復時間(MTTR)を大幅に短縮します。
  • 予防的な最適化: Gemini Cloud Assist は環境をスキャンして、使用率が低いリソースやセキュリティの脆弱性など、改善の余地がある領域を特定できます。その後、パフォーマンスの最適化、セキュリティの強化、費用の削減に役立つ、カスタマイズされた推奨事項を提示します。
  • 運用の簡素化: チームは、複雑なクエリを作成したり、複数のダッシュボードを操作したりする代わりに、会話型プロンプトを使用して、システムの健全性に関するリアルタイムの分析情報を取得できます。これにより、データアクセスが民主化され、技術的な専門知識のレベルが異なるチームメンバーが、情報に基づいたデータドリブンな意思決定を行えるようになります。

Google Cloud で AIOps ソリューションを構築

Google Cloud は、最新の AIOps 戦略の構成要素となる、強力な統合サービス スイートを提供します。単一のプロダクトではなく、「観察、関与、行動」のワークフローを実装するための柔軟なプラットフォームを提供します。

  • 「観察」レイヤの場合:
  • Google Cloud のオブザーバビリティ スイート(Cloud Logging、Cloud Monitoring、Cloud Trace): データ収集の基盤となります。Google Cloud、ハイブリッド、マルチクラウド環境全体から指標、ログ、トレースを自動的に取り込み、分析に必要な生データを提供します。
  • 「関与」(分析と診断)レイヤの場合:
  • BigQuery: このサーバーレス データ ウェアハウスは、中心的な分析エンジンとして機能します。Cloud Observability からのペタバイト単位の運用データを保存して処理できます。複雑なクエリを実行して、過去の傾向を分析し、異なるデータセット間のパターンを特定できます。
  • Vertex AI: AIOps で「AI」を活用できる場所です。Vertex AI を使用すると、BigQuery に保存されたデータに対して直接、高度な異常検出、予測アラート、根本原因分析のためのカスタム ML モデルを構築、トレーニング、デプロイできます。
  • 「行動」(自動化と修復)レイヤの場合:
  • Cloud FunctionsCloud Run: これらのサーバーレス コンピューティング サービスは、自動修復アクションの実行に最適です。Vertex AI からの分析情報や Cloud Monitoring からのアラートにより、Cloud Functions をトリガーして Pod の自動再起動、サービスのスケーリング、コラボレーション ツールへの詳細な通知の投稿を行うことができます。
  • Workflows: このサービスにより、複数の Google Cloud サービスにわたる複雑なアクション シーケンスをオーケストレートできます。AIOps イベントによって自動的にトリガーされる、高度なエンドツーエンドの修復ハンドブックを設計し、一貫性のある信頼性の高いインシデント対応を確保できます。

次のステップ

$300 分の無料クレジットと 20 以上の Always Free プロダクトを活用して、Google Cloud で構築を開始しましょう。

  • Google Cloud プロダクト
  • 100 種類を超えるプロダクトをご用意しています。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。また、すべてのお客様に 25 以上のプロダクトを無料でご利用いただけます(毎月の使用量上限があります)。
Google Cloud