AI 推論は、AI の「実行」段階です。トレーニングされたモデルが学習を終え、知識を活用して現実の成果を生み出し始める瞬間、それが推論です。
トレーニングが AI に新しいスキルを教えることだとしたら、推論は AI がそのスキルを使って実際に仕事をすることです。新しいデータ(写真やテキストなど)をインプットすると、予測を返したり、写真を生成したり、意思決定を行ったりと、即座にアウトプットを出します。AI がビジネス価値を生み出す瞬間です。AI を活用してソリューションを構築する際には、推論を高速、スケーラブル、かつ費用対効果の高いものにすることが、成功の鍵となります。たとえば、企業のデベロッパーは Google Kubernetes Engine(GKE)で AI 推論を活用して、顧客の購入をリアルタイムで分析し、購入手続き時にパーソナライズされた割引を提供するシステムを構築すれば、売り上げと顧客満足度を向上させることができます。
AI のライフサイクル全体には、データの収集から長期的なモニタリングまでが含まれますが、モデルの作成から実行までの中心的なプロセスは、3 つの主要なステージに分けられます。最初の 2 つは学習に関するもので、最後の 1 つは学習したことを実践するものです。
次の表は、主な違いをまとめたものです。
AI トレーニング | AI ファインチューニング | AI 推論 | AI サービング | |
目的 | 新しいモデルをゼロから構築する。 | 事前トレーニング済みモデルを特定のタスクに適応させる。 | トレーニング済みモデルを使用して予測を行う。 | 推論リクエストを処理するためにモデルをデプロイして管理する。 |
プロセス | 大規模なデータセットから繰り返し学習する。 | 既存のモデルを小規模なデータセットで改良する。 | 新しいデータに対して行われる、1 回の高速な「フォワードパス」。 | モデルをパッケージ化して API として公開する。 |
データ | ラベルの付いた大規模な過去のデータセット。 | タスク固有の小規模なデータセット。 | ライブの実環境におけるラベルなしデータ。 | なし |
ビジネスの着目点 | モデルの精度と能力。 | 効率性とカスタマイズ。 | スピード(レイテンシ)、規模、費用対効果。 | 推論エンドポイントの信頼性、スケーラビリティ、管理性。 |
AI トレーニング
AI ファインチューニング
AI 推論
AI サービング
目的
新しいモデルをゼロから構築する。
事前トレーニング済みモデルを特定のタスクに適応させる。
トレーニング済みモデルを使用して予測を行う。
推論リクエストを処理するためにモデルをデプロイして管理する。
プロセス
大規模なデータセットから繰り返し学習する。
既存のモデルを小規模なデータセットで改良する。
新しいデータに対して行われる、1 回の高速な「フォワードパス」。
モデルをパッケージ化して API として公開する。
データ
ラベルの付いた大規模な過去のデータセット。
タスク固有の小規模なデータセット。
ライブの実環境におけるラベルなしデータ。
なし
ビジネスの着目点
モデルの精度と能力。
効率性とカスタマイズ。
スピード(レイテンシ)、規模、費用対効果。
推論エンドポイントの信頼性、スケーラビリティ、管理性。
基本的には、AI 推論は、新しいデータを有用な出力に変換する 3 つのステップで構成されています。
写真内のオブジェクトを識別するために構築された AI モデルという簡単な例を使用して、このプロセスを説明します。
1 回の推論は高速ですが、数百万人のユーザーにリアルタイムでサービスを提供すると、レイテンシと費用が増加し、最適化されたハードウェアが必要になります。AI 専用の画像処理装置(GPU)とGoogle の Tensor Processing Unit は、Google Kubernetes Engine によるオーケストレーションとともに、これらのタスクを効率的に処理するように設計されており、スループットの向上とレイテンシの短縮に役立ちます。
これは最も一般的なアプローチで、データセンターの強力なリモートサーバーで推論を実行します。クラウドは、膨大なスケーラビリティと計算リソースを提供するため、大規模なデータセットや複雑なモデルの処理に最適です。クラウド内では、通常、推論の主なモードが 2 つあります。
このアプローチでは、データが生成されるデバイス(スマートフォンや産業用センサーなど)で直接推論を行います。エッジ推論は、クラウドへのラウンドトリップを回避することで、次のような独自の利点を提供します。
特定のニーズに最適なアプローチを選択できるように、各タイプの AI 推論の主な特徴とユースケースを簡単に比較してみましょう。
機能 | バッチ推論 | リアルタイムの推論 | エッジ推論 |
プライマリ ロケーション | Cloud(データセンター) | Cloud(データセンター) | ローカル デバイス(スマートフォン、IoT センサー、ロボットなど) |
レイテンシ / 応答性 | 高(バッチ処理後に予測が返される) | 非常に低い(リクエストあたりミリ秒~秒) | 非常に低い(ほぼ瞬時、ネットワーク ホップなし) |
データ容量 | 大規模なデータセット(テラバイトなど) | 個々のイベント / リクエスト | 個々のイベント / リクエスト(デバイス上) |
データフロー | データがクラウドに送信され、処理されて結果が返されます | 各リクエストはクラウドに送信され、処理され、返されます | データはデバイス上で処理され、結果はデバイス上で使用されます |
一般的なユースケース | 大規模なドキュメントの分類、夜間の財務分析、定期的な予測メンテナンス | プロダクトのレコメンデーション、chatbot、リアルタイム翻訳、リアルタイムの不正行為アラート | 自動運転、スマートカメラ、オフライン音声アシスタント、産業用品質管理 |
主な利点 | 大規模で緊急性のないタスクに費用対効果が高い | ユーザー向けアプリの即時応答性 | 最小限のレイテンシ、プライバシーの強化、オフライン機能、帯域幅コストの削減 |
機能
バッチ推論
リアルタイムの推論
エッジ推論
プライマリ ロケーション
Cloud(データセンター)
Cloud(データセンター)
ローカル デバイス(スマートフォン、IoT センサー、ロボットなど)
レイテンシ / 応答性
高(バッチ処理後に予測が返される)
非常に低い(リクエストあたりミリ秒~秒)
非常に低い(ほぼ瞬時、ネットワーク ホップなし)
データ容量
大規模なデータセット(テラバイトなど)
個々のイベント / リクエスト
個々のイベント / リクエスト(デバイス上)
データフロー
データがクラウドに送信され、処理されて結果が返されます
各リクエストはクラウドに送信され、処理され、返されます
データはデバイス上で処理され、結果はデバイス上で使用されます
一般的なユースケース
大規模なドキュメントの分類、夜間の財務分析、定期的な予測メンテナンス
プロダクトのレコメンデーション、chatbot、リアルタイム翻訳、リアルタイムの不正行為アラート
自動運転、スマートカメラ、オフライン音声アシスタント、産業用品質管理
主な利点
大規模で緊急性のないタスクに費用対効果が高い
ユーザー向けアプリの即時応答性
最小限のレイテンシ、プライバシーの強化、オフライン機能、帯域幅コストの削減
AI 推論は、新たなレベルの自動化、よりスマートな意思決定、革新的なアプリケーションを可能にすることで、業界を変革しています。企業デベロッパーにとって、推論が具体的なビジネス価値をもたらす重要な分野は次のとおりです。
Google Cloud は、デベロッパーや組織が AI 推論ワークロードを効率的に大規模に構築、デプロイ、管理するのに役立つ、包括的なツールスイートやサービスを提供します。推論機能は、多くのサービスに深く統合されています。
Google Cloud プロダクト | サポートされている推論アプローチ | 以下のような場合に最適 | 推論のユースケースの例 |
すべての推論タイプ(クラウドとハイブリッド) | クラウド環境またはハイブリッド環境全体で、多くの場合専用のハードウェアを使用して、カスタム コンテナ化推論サービスをデプロイ、管理、スケーリングするための究極の制御と柔軟性を実現します。 | 複雑な産業システムでリアルタイムの異常検出を行うためのカスタム AI モデルをデプロイ、スケーリングする。 | |
リアルタイム クラウド推論(サーバーレス) | コンテナ化されたモデルをデプロイし、ゼロへの自動スケーリングとリクエストごとの料金設定を活用する。変動が激しい断続的なワークロードや、シンプルなウェブサービスに最適。 | トラフィックの変動が大きいウェブ アプリケーション向けに、中小規模のモデルを提供し、費用対効果を確保する。 | |
リアルタイムクラウド推論とバッチクラウド推論 | 幅広い AI モデルやフレームワークに対応する、柔軟で高性能なアクセラレーションを実現する。 | 医療診断用の高解像度画像の迅速な処理や、複雑な財務モデリングの高速実行を実現する。 | |
バッチクラウド推論(データ ウェアハウス) | データを移動することなく、データ ウェアハウスにすでに保存されているデータに対して SQL で直接推論を実行する。 | BigQuery 内の CRM データを活用して、顧客離脱を直接予測する。 | |
リアルタイム クラウド推論(特定のタスク) | ビジョン、言語、音声などの高度な AI 機能を、モデルの構築やトレーニングなしでアプリケーションに簡単に統合する。 | 顧客とのチャット メッセージをリアルタイムで自動翻訳したり、ソーシャル メディアの投稿から感情を分析したりする。 | |
リアルタイム クラウド推論とバッチクラウド推論(大規模モデル) | 特に大規模言語モデル(LLM)などの非常に大規模で複雑なディープ ラーニング モデルを提供する際に、パフォーマンスと費用対効果を最大限に高める。 | 最先端の生成 AI chatbot によるリアルタイム応答を強化する。 | |
エッジ ソリューション(Coral、GDC Edge など) | エッジ推論 | モデルをデバイス上で直接実行することで、超低レイテンシ、プライバシーの強化、オフライン機能を実現する。 | 動画をクラウドに送信せずに、スマートカメラ上で即座に物体認識を実行する。 |
バッチクラウド推論のためのデータ準備 | 大規模なバッチ推論ジョブのために、大量のデータを効率的に処理して準備する。 | ペタバイト単位のセンサーデータを予測メンテナンス モデルにフィードする前に前処理する。 |
Google Cloud プロダクト
サポートされている推論アプローチ
以下のような場合に最適
推論のユースケースの例
すべての推論タイプ(クラウドとハイブリッド)
クラウド環境またはハイブリッド環境全体で、多くの場合専用のハードウェアを使用して、カスタム コンテナ化推論サービスをデプロイ、管理、スケーリングするための究極の制御と柔軟性を実現します。
複雑な産業システムでリアルタイムの異常検出を行うためのカスタム AI モデルをデプロイ、スケーリングする。
リアルタイム クラウド推論(サーバーレス)
コンテナ化されたモデルをデプロイし、ゼロへの自動スケーリングとリクエストごとの料金設定を活用する。変動が激しい断続的なワークロードや、シンプルなウェブサービスに最適。
トラフィックの変動が大きいウェブ アプリケーション向けに、中小規模のモデルを提供し、費用対効果を確保する。
リアルタイムクラウド推論とバッチクラウド推論
幅広い AI モデルやフレームワークに対応する、柔軟で高性能なアクセラレーションを実現する。
医療診断用の高解像度画像の迅速な処理や、複雑な財務モデリングの高速実行を実現する。
バッチクラウド推論(データ ウェアハウス)
データを移動することなく、データ ウェアハウスにすでに保存されているデータに対して SQL で直接推論を実行する。
BigQuery 内の CRM データを活用して、顧客離脱を直接予測する。
リアルタイム クラウド推論(特定のタスク)
ビジョン、言語、音声などの高度な AI 機能を、モデルの構築やトレーニングなしでアプリケーションに簡単に統合する。
顧客とのチャット メッセージをリアルタイムで自動翻訳したり、ソーシャル メディアの投稿から感情を分析したりする。
リアルタイム クラウド推論とバッチクラウド推論(大規模モデル)
特に大規模言語モデル(LLM)などの非常に大規模で複雑なディープ ラーニング モデルを提供する際に、パフォーマンスと費用対効果を最大限に高める。
最先端の生成 AI chatbot によるリアルタイム応答を強化する。
エッジ ソリューション(Coral、GDC Edge など)
エッジ推論
モデルをデバイス上で直接実行することで、超低レイテンシ、プライバシーの強化、オフライン機能を実現する。
動画をクラウドに送信せずに、スマートカメラ上で即座に物体認識を実行する。
バッチクラウド推論のためのデータ準備
大規模なバッチ推論ジョブのために、大量のデータを効率的に処理して準備する。
ペタバイト単位のセンサーデータを予測メンテナンス モデルにフィードする前に前処理する。
Vertex AI は Google Cloud の統合 AI プラットフォームです。ML モデルの構築、デプロイ、管理のための包括的なツールが用意されているため、クラウドベースの推論のほぼすべてのニーズに対応できます。
Vertex AI の機能 | 推論アプローチ | 以下のような場合に最適 | 推論のユースケースの例 |
リアルタイム クラウド推論 | カスタムモデルをデプロイし、マネージド エンドポイントからリアルタイムかつ低レイテンシの予測を取得する。 | ウェブサイトを閲覧しているユーザーに商品を即座にレコメンドする。 | |
バッチクラウド推論 | リアルタイムの結果を必要とせずに、大規模なデータセットを費用対効果の高い方法で処理する。 | 昨日の顧客トランザクションをすべて分析して、不正行為のパターンを検出する。 | |
リアルタイム クラウド推論とバッチクラウド推論(生成 AI) | 強力な事前トレーニング済みモデルをゼロからトレーニングすることなく、一般的なタスクや生成 AI タスクにすぐに活用する。 | マーケティング コピーの生成、長文ドキュメントの要約、コード スニペットの作成などを行う。 |
Vertex AI の機能
推論アプローチ
以下のような場合に最適
推論のユースケースの例
リアルタイム クラウド推論
カスタムモデルをデプロイし、マネージド エンドポイントからリアルタイムかつ低レイテンシの予測を取得する。
ウェブサイトを閲覧しているユーザーに商品を即座にレコメンドする。
リアルタイム クラウド推論とバッチクラウド推論(生成 AI)
強力な事前トレーニング済みモデルをゼロからトレーニングすることなく、一般的なタスクや生成 AI タスクにすぐに活用する。
マーケティング コピーの生成、長文ドキュメントの要約、コード スニペットの作成などを行う。
AI 推論スキルを次のレベルに引き上げる準備は準備はお済みでしょうか?ここでは、学習を深め、すぐに始められるおすすめのリソースをいくつかご紹介します。