AI 推論は、AI の「実行」段階です。トレーニングされたモデルが学習を終え、知識を活用して現実の成果を生み出し始める瞬間、それが推論です。
トレーニングが AI に新しいスキルを教えることだとしたら、推論は AI がそのスキルを使って実際に仕事をすることです。新しいデータ(写真やテキストなど)をインプットすると、予測を返したり、写真を生成したり、意思決定を行ったりと、即座にアウトプットを出します。AI がビジネス価値を生み出す瞬間です。AI を活用してソリューションを構築する際には、推論を高速、スケーラブル、かつ費用対効果の高いものにすることが、成功の鍵となります。
AI のライフサイクル全体には、データの収集から長期的なモニタリングまでが含まれますが、モデルの作成から実行までの中心的なプロセスは、3 つの主要なステージに分けられます。最初の 2 つは学習に関するもので、最後の 1 つは学習したことを実践するものです。
次の表は、主な違いをまとめたものです。
AI トレーニング | AI ファインチューニング | AI 推論 | AI サービング | |
目的 | 新しいモデルをゼロから構築する。 | 事前トレーニング済みモデルを特定のタスクに適応させる。 | トレーニング済みモデルを使用して予測を行う。 | 推論リクエストを処理するためにモデルをデプロイして管理する。 |
プロセス | 大規模なデータセットから繰り返し学習する。 | 既存のモデルを小規模なデータセットで改良する。 | 新しいデータに対して行われる、1 回の高速な「フォワードパス」。 | モデルをパッケージ化して API として公開する。 |
データ | ラベルの付いた大規模な過去のデータセット。 | タスク固有の小規模なデータセット。 | ライブの実環境におけるラベルなしデータ。 | なし |
ビジネスの着目点 | モデルの精度と能力。 | 効率性とカスタマイズ。 | スピード(レイテンシ)、規模、費用対効果。 | 推論エンドポイントの信頼性、スケーラビリティ、管理性。 |
AI トレーニング
AI ファインチューニング
AI 推論
AI サービング
目的
新しいモデルをゼロから構築する。
事前トレーニング済みモデルを特定のタスクに適応させる。
トレーニング済みモデルを使用して予測を行う。
推論リクエストを処理するためにモデルをデプロイして管理する。
プロセス
大規模なデータセットから繰り返し学習する。
既存のモデルを小規模なデータセットで改良する。
新しいデータに対して行われる、1 回の高速な「フォワードパス」。
モデルをパッケージ化して API として公開する。
データ
ラベルの付いた大規模な過去のデータセット。
タスク固有の小規模なデータセット。
ライブの実環境におけるラベルなしデータ。
なし
ビジネスの着目点
モデルの精度と能力。
効率性とカスタマイズ。
スピード(レイテンシ)、規模、費用対効果。
推論エンドポイントの信頼性、スケーラビリティ、管理性。
基本的には、AI 推論は、新しいデータを有用な出力に変換する 3 つのステップで構成されています。
写真内のオブジェクトを識別するために構築された AI モデルという簡単な例を使用して、このプロセスを説明します。
1 回の推論は高速ですが、数百万人のユーザーにリアルタイムでサービスを提供すると、レイテンシと費用が増加するため、最適化されたハードウェアが必要になります。AI 専用の画像処理装置(GPU)とGoogle の Tensor Processing Unit は、Google Kubernetes Engine によるオーケストレーションとともに、これらのタスクを効率的に処理するように設計されており、スループットの向上とレイテンシの短縮に役立ちます。
これは最も一般的なアプローチであり、データセンターの強力なリモートサーバーで推論を実行します。クラウドは、膨大なスケーラビリティとコンピューティング リソースを提供するため、大規模なデータセットや複雑なモデルの処理に最適です。クラウドでは、通常、主な推論のモードが 2 つあります。
このアプローチでは、データが生成されるデバイス(スマートフォンや業務用センサーなど)で推論を直接行います。エッジ推論は、クラウドへのラウンドトリップを回避することで、次のような独自の利点を提供します。
特定のニーズに最適なアプローチを選択できるように、各タイプの AI 推論の主な特徴とユースケースを簡単に比較してみましょう。
機能 | バッチ推論 | リアルタイムの推論 | エッジ推論 |
プライマリ ロケーション | Cloud(データセンター) | Cloud(データセンター) | ローカル デバイス(スマートフォン、IoT センサー、ロボットなど) |
レイテンシ / 応答性 | 高(バッチ処理後に予測が返される) | 非常に低い(リクエストあたりミリ秒~秒) | 非常に低い(ほぼ瞬時、ネットワーク ホップなし) |
データ容量 | 大規模なデータセット(テラバイトなど) | 個々のイベント / リクエスト | 個々のイベント / リクエスト(デバイス上) |
データフロー | データがクラウドに送信され、処理されて結果が返されます | 各リクエストはクラウドに送信され、処理され、返されます | データはデバイス上で処理され、結果はデバイス上で使用されます |
一般的なユースケース | 大規模なドキュメントの分類、夜間の財務分析、定期的な予測メンテナンス | プロダクトのレコメンデーション、chatbot、リアルタイム翻訳、リアルタイムの不正行為アラート | 自動運転、スマートカメラ、オフライン音声アシスタント、産業用品質管理 |
主な利点 | 大規模で緊急性のないタスクに費用対効果が高い | ユーザー向けアプリの即時応答性 | 最小限のレイテンシ、プライバシーの強化、オフライン機能、帯域幅コストの削減 |
機能
バッチ推論
リアルタイムの推論
エッジ推論
プライマリ ロケーション
Cloud(データセンター)
Cloud(データセンター)
ローカル デバイス(スマートフォン、IoT センサー、ロボットなど)
レイテンシ / 応答性
高(バッチ処理後に予測が返される)
非常に低い(リクエストあたりミリ秒~秒)
非常に低い(ほぼ瞬時、ネットワーク ホップなし)
データ容量
大規模なデータセット(テラバイトなど)
個々のイベント / リクエスト
個々のイベント / リクエスト(デバイス上)
データフロー
データがクラウドに送信され、処理されて結果が返されます
各リクエストはクラウドに送信され、処理され、返されます
データはデバイス上で処理され、結果はデバイス上で使用されます
一般的なユースケース
大規模なドキュメントの分類、夜間の財務分析、定期的な予測メンテナンス
プロダクトのレコメンデーション、chatbot、リアルタイム翻訳、リアルタイムの不正行為アラート
自動運転、スマートカメラ、オフライン音声アシスタント、産業用品質管理
主な利点
大規模で緊急性のないタスクに費用対効果が高い
ユーザー向けアプリの即時応答性
最小限のレイテンシ、プライバシーの強化、オフライン機能、帯域幅コストの削減
AI 推論は、新たなレベルの自動化、よりスマートな意思決定、革新的なアプリケーションを可能にすることで、業界を変革しています。企業デベロッパーにとって、推論が具体的なビジネス価値をもたらす重要な分野は次のとおりです。
AI 推論には、レイテンシの管理、費用の管理、スケーラビリティの確保など、独自の技術的な課題が存在します。Google Cloud では推論のための柔軟なパスを提供しており、モデルの複雑さ、パフォーマンスのニーズ、運用能力に基づいて適切なツールを選択できます。フルマネージド ソリューションから始め、要件の変化に応じてカスタマイズしたインフラストラクチャを段階的に導入していくことが可能です。
このアプローチは、強力な AI 機能を迅速に統合することを検討している、AI 初心者を含むあらゆるスキルレベルのデベロッパーに最適です。モデルやインフラストラクチャを管理する必要はなく、簡単な API 呼び出しを行うだけで済みます。
Google の Gemini モデルと、厳選されたオープンソース モデルをシンプルな API エンドポイントで使用できます。ホスティングやスケーリングの複雑な処理を代行するため、ユーザーはアプリケーションに集中して、生成 AI タスクで優れた成果を得ることができます。 |
Google の Gemini モデルと、厳選されたオープンソース モデルをシンプルな API エンドポイントで使用できます。ホスティングやスケーリングの複雑な処理を代行するため、ユーザーはアプリケーションに集中して、生成 AI タスクで優れた成果を得ることができます。
このオプションは、すでにカスタムモデルを構築しているデベロッパー向けです。Google Cloud のマネージド サービスにデプロイできるため、複雑なサーバー設定やオーケストレーションをユーザーが行う必要はありません。インフラストラクチャの管理ではなく、モデルに集中できます。
Vertex AI Prediction は、ML モデルをスケーラブルなエンドポイントとしてデプロイするマネージド サービスです。GPU などのハードウェア アクセラレータを使用して、リアルタイム データと大規模なバッチデータの両方を高速に処理します。 | |
コンテナ化されたモデルをデプロイし、ゼロへの自動スケーリングとリクエストごとの料金設定を活用します。変動が激しい断続的なワークロードや、シンプルなウェブサービスに最適です。 |
Vertex AI Prediction は、ML モデルをスケーラブルなエンドポイントとしてデプロイするマネージド サービスです。GPU などのハードウェア アクセラレータを使用して、リアルタイム データと大規模なバッチデータの両方を高速に処理します。
コンテナ化されたモデルをデプロイし、ゼロへの自動スケーリングとリクエストごとの料金設定を活用します。変動が激しい断続的なワークロードや、シンプルなウェブサービスに最適です。
デベロッパーや MLOps に、カスタムのコンテナ化された推論サービスをデプロイ、管理、スケーリングするためのきめ細かい制御と柔軟性を提供します。多くの場合、専用ハードウェアを活用し、クラウド環境やハイブリッド環境全体に対応します。
GKE は、CPU、GPU、TPU などのハードウェアをきめ細かく制御できるため、非常に大規模または複雑な ML モデルのパフォーマンスやサービング費用をカスタマイズして最適化する場合に最適です。 |
GKE は、CPU、GPU、TPU などのハードウェアをきめ細かく制御できるため、非常に大規模または複雑な ML モデルのパフォーマンスやサービング費用をカスタマイズして最適化する場合に最適です。
SQL を使用している場合は、データがすでに存在している場所で AI モデルから予測を取得できます。これにより、データを別のプラットフォームに移動する必要がなくなり、ワークフローを簡素化できます。
BigQuery を使用した推論により、シンプルな SQL コマンドでデータに対して直接 ML モデルを実行できるため、データの移動が不要になり、複雑さとレイテンシが軽減されます。特に、データがすでに BigQuery に保存されている場合、顧客セグメンテーションや需要予測といったバッチ処理タスクにおいて非常に効率的な方法です。 |
BigQuery を使用した推論により、シンプルな SQL コマンドでデータに対して直接 ML モデルを実行できるため、データの移動が不要になり、複雑さとレイテンシが軽減されます。特に、データがすでに BigQuery に保存されている場合、顧客セグメンテーションや需要予測といったバッチ処理タスクにおいて非常に効率的な方法です。
AI 推論スキルを次のレベルに引き上げる準備は準備はお済みでしょうか?ここでは、学習を深め、すぐに始められるおすすめのリソースをいくつかご紹介します。