コンテンツに移動
パートナー

Datadog で Vertex AI でのリアルタイム オブザーバビリティが可能に

2023年8月10日
Google Cloud Japan Team

※この投稿は米国時間 2023 年 8 月 4 日に、Google Cloud blog に投稿されたものの抄訳です。

状況は変わろうとしています。ML や AI のアプリケーションは、あらゆる問題の解決方法に革命をもたらしています。それは、医療や金融などの複雑なシステムから、自律走行車やパーソナライズされた検索アルゴリズムまで多岐にわたります。Vertex AI のようなエンドツーエンドの ML プラットフォームは、特徴量エンジニアリングからトレーニングのモデル化や低レイテンシの推論まで、ML モデルの開発やデプロイに重要なガードレールを提供し、そのすべての作業を、企業のガバナンスとモニタリングの下で進めます。Vertex AI の活用により、WayfairVodafoneTwitterCNA などの企業が ML プロジェクトを加速させています。同時に、企業がこれらの革命的なツールの可能性を最大限に活用するには、自社の AI / ML システムを包括的に把握する必要があります。

AI 開発のリスクを軽減する

従来のオペレーションやプロダクトの常識を破壊し、変革を起こす力は刺激的である一方、リスクがないわけではありません。本番環境で稼働する ML モデルが増加することに伴い、エンドユーザーのパフォーマンスと安全性を確保するために、モデルの精度をモニタリングすることがますます重要になっています。Google は、クラウド AI のデベロッパー サービスにおけるリーダーでありAI に関する原則に基づいて、リスクを軽減する方法で AI の開発を続けています。Vertex AI は、責任ある AI に関する原則に基づいて構築されたエンドツーエンドの ML Ops ツールを提供し、ユースケースやアプリケーション内の潜在的な影響を特定、評価、軽減します。  

本番環境で AI アプリケーションをモニタリングすることは非常に重要です。予測数の減少や高いレイテンシは、ユーザー エクスペリエンスに悪影響を与える可能性があります。例として、画像解析における AI / ML のユースケースを考えてみましょう。このモデルでパフォーマンスが低下すると、誤ったラベルや分類がユーザーに表示される可能性があります。アプリケーションのパフォーマンスを常に最高の状態に保ち、大規模なサービス停止を防ぎ、AI / ML アプリケーションの信用度を守るには、開発者はプロアクティブかつタイムリーにアラートにアクセスする必要があります。

Datadog: Vertex AI のための完全なオブザーバビリティ ソリューション

新しい AI / ML モデルの作成は、トレーニングとデプロイだけでは終わりません。Datadog が Vertex AI 向けのインテグレーションを提供するのはそのためです。これにより、お客様は、本番環境でモデルのパフォーマンスを維持するための最適なツールを利用できるようになります。Datadog は、Vertex AI の本番環境で ML モデルのパフォーマンスのモニタリング、分析、最適化を可能にする、業界初の完全なオブザーバビリティ ソリューションです。

Datadog は、すぐに使える Vertex AI ダッシュボードにある推論指標などのほかに、以下の分野のオブザーバビリティを提供します(完全なリストはこちら)。

  • パフォーマンス: 1 秒あたりの予測、予測エラー、予測レイテンシ、ベースモデルあたりの予測リクエスト

  • リソース使用率: CPU 使用率、メモリ使用率

  • ネットワーク使用量: ネットワークの送信バイト数と受信バイト数

  • スケーリング: ターゲット レプリカ数、アクティブ レプリカ数

Google Cloud で Vertex AI を活用する AI / ML デベロッパーは、本番環境の推論指標を数分でモニタリングできます。Datadog のクローラーがこれらの指標を自動的に pull し、事前に構築されているダッシュボードに表示します。最適化モニターを有効にすることで、予測数、エラー、レイテンシの急増に関する通知を受け取ることができます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/datadog.max-1400x1400.png

これにより、チームはアプリケーションのパフォーマンスやユーザー エクスペリエンスに影響が及ぶ前に、問題をプロアクティブに特定できます。また、データチームは、Vertex AI でモデルの入出力などの指標を時系列にロギングおよび追跡することで、モデルの精度を高めることができます。

AL / ML アプリケーションにおける完全なオブザーバビリティのメリット

Datadog の完全なオブザーバビリティ ソリューションを Vertex AI アプリケーションに活用することで、開発者やデータチームは以下のような幅広い機能を利用できます。

  • 最適なパフォーマンスの確保: すべての AI / ML / LLM アプリケーションが最高のパフォーマンスを発揮し、正確な予測を提供できるため、安心感を得られます。

  • エラーやレイテンシの急増のモニタリング: 予測エラーに関するアラートをリアルタイムで受信し、予測レイテンシの急増をモニタリングしてリソースの使用率(CPU、メモリ)を表示し、それらがモデルのパフォーマンスに与える影響を関連付けます。

  • 異常やモニタリング エラーの検出: Datadog のモニタリング機能は、ML アプリケーションの信頼性と堅牢性を維持するために役立ちます。異常をモニタリングすることで、入力データやモデル予測における予期せぬパターンや外れ値を特定できます。

Datadog のオブザーバビリティ ソリューションを使用することで、開発者やデータチームは、より簡単かつ確信を持って ML の複雑さに対処できます。また、オブザーバビリティによって、モデルの動作に対する詳細な分析情報を得ることができ、異常の検出や問題のトラブルシューティングを行い、優れたユーザー エクスペリエンスを確保できます。オブザーバビリティの機能を活用することで、AI / ML アプリケーションの可能性を最大限に引き出し、その効率を最大化できます。

世界の ML 市場が飛躍的に成長する中、ML モデルと AI アプリケーションの品質と完全性を保証する堅牢なモニタリング ソリューションを活用して勢いを維持することが極めて重要です。

ご関心をお持ちの場合は、こちらからお問い合わせください。お客様のビジネスをどのように支援できるかについてご説明いたします。Google Cloud Marketplace の Datadog のリスティングもご覧ください。


- Google Cloud、DevOps パートナーシップ担当グローバル リード Utkarsh Guleri
Google Cloud、ISV インフラストラクチャおよび DevOps パートナー マーケティング責任者 Sameer Nori

投稿先