AI 推論とは

AI 推論は、AI の「実行」段階です。トレーニングされたモデルが学習を終え、知識を活用して現実の成果を生み出し始める瞬間、それが推論です。

トレーニングが AI に新しいスキルを教えることだとしたら、推論は AI がそのスキルを使って実際に仕事をすることです。新しいデータ(写真やテキストなど)をインプットすると、予測を返したり、写真を生成したり、意思決定を行ったりと、即座にアウトプットを出します。AI がビジネス価値を生み出す瞬間です。AI を活用してソリューションを構築する際には、推論を高速、スケーラブル、かつ費用対効果の高いものにすることが、成功の鍵となります。

「AI トレーニング」、「ファインチューニング」、「推論」、「サービング」の違い

AI のライフサイクル全体には、データの収集から長期的なモニタリングまでが含まれますが、モデルの作成から実行までの中心的なプロセスは、3 つの主要なステージに分けられます。最初の 2 つは学習に関するもので、最後の 1 つは学習したことを実践するものです。

  • AI トレーニングは、基盤となる学習フェーズです。モデルが膨大なデータセットを分析し、パターンや関係性を学習する、計算負荷の高いプロセスです。このフェーズの目的は、正確で知識豊富なモデルを構築することにあります。そのためには、GPU や TPU などの高性能なハードウェア アクセラレータが必要で、完了までに数時間から数週間かかることがあります。
  • AI ファインチューニングは、トレーニングの近道です。強力な事前トレーニング済みモデルをベースに、より小規模で専門的なデータセットを使って、特定のタスクに適応させます。これにより、モデルをゼロからトレーニングする場合と比べて、時間とリソースを大幅に節約できます。
  • AI 推論は実行フェーズです。トレーニングとファインチューニングが完了したモデルを使って、新しい「未知の」データに対して高速に予測を行います。個々の予測はトレーニングよりも計算負荷がはるかに低いですが、数百万件の予測をリアルタイムで提供するには、高度に最適化されたスケーラブルなインフラストラクチャが必要です。
  • AI サービングは、推論のためにモデルをデプロイして管理するプロセスです。通常は、モデルのパッケージ化、API エンドポイントの設定、リクエスト処理のためのインフラストラクチャの管理などが含まれます。

次の表は、主な違いをまとめたものです。

AI トレーニング

AI ファインチューニング

AI 推論

AI サービング

目的

新しいモデルをゼロから構築する。

事前トレーニング済みモデルを特定のタスクに適応させる。

トレーニング済みモデルを使用して予測を行う。

推論リクエストを処理するためにモデルをデプロイして管理する。

プロセス

大規模なデータセットから繰り返し学習する。

既存のモデルを小規模なデータセットで改良する。

新しいデータに対して行われる、1 回の高速な「フォワードパス」。


モデルをパッケージ化して API として公開する。

データ

ラベルの付いた大規模な過去のデータセット。

タスク固有の小規模なデータセット。

ライブの実環境におけるラベルなしデータ。

なし


ビジネスの着目点

モデルの精度と能力。

効率性とカスタマイズ。

スピード(レイテンシ)、規模、費用対効果。

推論エンドポイントの信頼性、スケーラビリティ、管理性。

AI トレーニング

AI ファインチューニング

AI 推論

AI サービング

目的

新しいモデルをゼロから構築する。

事前トレーニング済みモデルを特定のタスクに適応させる。

トレーニング済みモデルを使用して予測を行う。

推論リクエストを処理するためにモデルをデプロイして管理する。

プロセス

大規模なデータセットから繰り返し学習する。

既存のモデルを小規模なデータセットで改良する。

新しいデータに対して行われる、1 回の高速な「フォワードパス」。


モデルをパッケージ化して API として公開する。

データ

ラベルの付いた大規模な過去のデータセット。

タスク固有の小規模なデータセット。

ライブの実環境におけるラベルなしデータ。

なし


ビジネスの着目点

モデルの精度と能力。

効率性とカスタマイズ。

スピード(レイテンシ)、規模、費用対効果。

推論エンドポイントの信頼性、スケーラビリティ、管理性。

AI 推論の仕組み

基本的には、AI 推論は、新しいデータを有用な出力に変換する 3 つのステップで構成されています。

写真内のオブジェクトを識別するために構築された AI モデルという簡単な例を使用して、このプロセスを説明します。

  1. 入力データの準備: まず、新しいデータが提供されます。たとえば、ユーザーが送信したばかりの写真などです。この写真は、モデル用に即座に準備されます。これは、モデルのトレーニングに使用された正確な寸法にサイズ変更するだけの場合もあります。
  2. モデルの実行: 次に、準備された写真を AI モデルが分析します。トレーニング中に学習した内容と一致するパターン(色、形、質感など)を探します。この迅速な分析は「フォワード パス」と呼ばれ、モデルが新しいことを学習せずに知識を適用する読み取り専用のステップです。
  3. 出力の生成: モデルが実用的な結果を生成します。写真分析の場合、これは確率スコア(画像に「犬」が含まれている可能性が 95% など)になります。この出力はアプリケーションに送信され、ユーザーに表示されます。

1 回の推論は高速ですが、数百万人のユーザーにリアルタイムでサービスを提供すると、レイテンシと費用が増加するため、最適化されたハードウェアが必要になります。AI 専用の画像処理装置(GPU)とGoogle の Tensor Processing Unit は、Google Kubernetes Engine によるオーケストレーションとともに、これらのタスクを効率的に処理するように設計されており、スループットの向上とレイテンシの短縮に役立ちます。

AI 推論の種類

クラウド推論: 高い処理能力とスケーラビリティに最適

これは最も一般的なアプローチであり、データセンターの強力なリモートサーバーで推論を実行します。クラウドは、膨大なスケーラビリティとコンピューティング リソースを提供するため、大規模なデータセットや複雑なモデルの処理に最適です。クラウドでは、通常、主な推論のモードが 2 つあります。

  • リアルタイム(オンライン)推論: 個々のリクエストが到着すると、多くの場合ミリ秒単位ですぐに処理します。これは、即時のフィードバックが求められるインタラクティブなアプリケーションにとって非常に重要です。
  • バッチ(オフライン)推論: 大量のデータを一度に処理します。通常は、即時のレスポンスが不要な場合に使用します。定期的な分析やスケジュールされたタスクに非常に費用対効果の高い方法です。

エッジ推論: 高速性とプライバシーを重視

このアプローチでは、データが生成されるデバイス(スマートフォンや業務用センサーなど)で推論を直接行います。エッジ推論は、クラウドへのラウンドトリップを回避することで、次のような独自の利点を提供します。

  • レイテンシの短縮: 応答がほぼ瞬時に行われるため、自動運転車やリアルタイムの製造チェックなどのアプリケーションに不可欠です。
  • プライバシーの強化: 機密データ(医療スキャン、個人の写真、動画フィードなど)をクラウドに送信することなく、デバイス上で処理できます。
  • 帯域幅コストの削減: データをローカルで処理することで、アップロードとダウンロードが必要なデータ量が大幅に削減されます。
  • オフライン機能: アプリケーションはインターネットに接続していなくても動作し続けるため、リモート環境や接続が切断された環境でも継続的に運用できます。

Google Cloud でビジネスの課題を解決する

新規のお客様には、Google Cloud で使用できる無料クレジット $300 分を差し上げます。

AI 推論の比較

特定のニーズに最適なアプローチを選択できるように、各タイプの AI 推論の主な特徴とユースケースを簡単に比較してみましょう。

機能

バッチ推論

リアルタイムの推論

エッジ推論

プライマリ ロケーション

Cloud(データセンター)

Cloud(データセンター)

ローカル デバイス(スマートフォン、IoT センサー、ロボットなど)

レイテンシ / 応答性

高(バッチ処理後に予測が返される)


非常に低い(リクエストあたりミリ秒~秒)

非常に低い(ほぼ瞬時、ネットワーク ホップなし)

データ容量

大規模なデータセット(テラバイトなど)

個々のイベント / リクエスト

個々のイベント / リクエスト(デバイス上)

データフロー

データがクラウドに送信され、処理されて結果が返されます

各リクエストはクラウドに送信され、処理され、返されます

データはデバイス上で処理され、結果はデバイス上で使用されます

一般的なユースケース

大規模なドキュメントの分類、夜間の財務分析、定期的な予測メンテナンス

プロダクトのレコメンデーション、chatbot、リアルタイム翻訳、リアルタイムの不正行為アラート

自動運転、スマートカメラ、オフライン音声アシスタント、産業用品質管理

主な利点

大規模で緊急性のないタスクに費用対効果が高い

ユーザー向けアプリの即時応答性

最小限のレイテンシ、プライバシーの強化、オフライン機能、帯域幅コストの削減

機能

バッチ推論

リアルタイムの推論

エッジ推論

プライマリ ロケーション

Cloud(データセンター)

Cloud(データセンター)

ローカル デバイス(スマートフォン、IoT センサー、ロボットなど)

レイテンシ / 応答性

高(バッチ処理後に予測が返される)


非常に低い(リクエストあたりミリ秒~秒)

非常に低い(ほぼ瞬時、ネットワーク ホップなし)

データ容量

大規模なデータセット(テラバイトなど)

個々のイベント / リクエスト

個々のイベント / リクエスト(デバイス上)

データフロー

データがクラウドに送信され、処理されて結果が返されます

各リクエストはクラウドに送信され、処理され、返されます

データはデバイス上で処理され、結果はデバイス上で使用されます

一般的なユースケース

大規模なドキュメントの分類、夜間の財務分析、定期的な予測メンテナンス

プロダクトのレコメンデーション、chatbot、リアルタイム翻訳、リアルタイムの不正行為アラート

自動運転、スマートカメラ、オフライン音声アシスタント、産業用品質管理

主な利点

大規模で緊急性のないタスクに費用対効果が高い

ユーザー向けアプリの即時応答性

最小限のレイテンシ、プライバシーの強化、オフライン機能、帯域幅コストの削減

デベロッパー向けのユースケース

AI 推論は、新たなレベルの自動化、よりスマートな意思決定、革新的なアプリケーションを可能にすることで、業界を変革しています。企業デベロッパーにとって、推論が具体的なビジネス価値をもたらす重要な分野は次のとおりです。

  • 金融取引、ユーザーの行動、システムログを即座に分析して、不審なアクティビティを特定し、フラグを立てます。これにより、不正行為、マネーロンダリング、セキュリティ侵害を防止するための事前介入が可能になります。
  • 例: クレジット カード会社は、推論を使用してトランザクションをミリ秒単位で承認し、不正の可能性がある購入を即座にブロックします。


  • 過去のやり取りやリアルタイムのコンテキストに基づいてユーザーの好みを予測することで、高度にカスタマイズされたエクスペリエンスを提供します。
  • 例: e コマース プラットフォームでは、推論を使用して買い物客に商品をおすすめします。また、ストリーミング サービスでは、視聴習慣に基づいて映画をおすすめし、エンゲージメントと販売を促進します。


  • AI モデルをデプロイして、ルーチンタスクの自動化、インテリジェントな支援の提供、ユーザーとの大規模なやり取りを実現します。
  • 例: カスタマー サービス組織では、AI エージェントを使用して一般的な問い合わせを処理することで、人間のエージェントが複雑な問題に対応できるようになります。また、工場では、組み立てラインでの品質検査を自動化するために AI を使用しています。


  •  機械、インフラストラクチャ、IT システムのセンサーデータを分析して、問題が発生する前に障害を予測したり、需要を予測したり、リソースの割り当てを最適化したりできます。
  • 例: メーカーは推論を使用して、機器のメンテナンスが必要になる時期を予測し、ダウンタイムを最小限に抑えて資産の寿命を延ばします。また、物流会社はリアルタイムの交通予測に基づいてルートを最適化します。


  • AI を活用して新しいコンテンツ(テキスト、コード、画像、音声)を作成したり、既存の非構造化データを深く理解したりできます。
  • 例: デベロッパーはコード生成モデルを使用してソフトウェア開発を加速させ、マーケティング チームは AI を使用して大量のドキュメントを要約し、広告コピーをパーソナライズします。

Google Cloud が AI 推論にどのように役立つか

AI 推論には、レイテンシの管理、費用の管理、スケーラビリティの確保など、独自の技術的な課題が存在します。Google Cloud では推論のための柔軟なパスを提供しており、モデルの複雑さ、パフォーマンスのニーズ、運用能力に基づいて適切なツールを選択できます。フルマネージド ソリューションから始め、要件の変化に応じてカスタマイズしたインフラストラクチャを段階的に導入していくことが可能です。

事前トレーニング済み AI API と事前構築済みモデルを使用して迅速にデプロイする

このアプローチは、強力な AI 機能を迅速に統合することを検討している、AI 初心者を含むあらゆるスキルレベルのデベロッパーに最適です。モデルやインフラストラクチャを管理する必要はなく、簡単な API 呼び出しを行うだけで済みます。

Google の Gemini モデルと、厳選されたオープンソース モデルをシンプルな API エンドポイントで使用できます。ホスティングやスケーリングの複雑な処理を代行するため、ユーザーはアプリケーションに集中して、生成 AI タスクで優れた成果を得ることができます。

Google の Gemini モデルと、厳選されたオープンソース モデルをシンプルな API エンドポイントで使用できます。ホスティングやスケーリングの複雑な処理を代行するため、ユーザーはアプリケーションに集中して、生成 AI タスクで優れた成果を得ることができます。

マネージド インフラストラクチャにカスタムモデルをデプロイする

このオプションは、すでにカスタムモデルを構築しているデベロッパー向けです。Google Cloud のマネージド サービスにデプロイできるため、複雑なサーバー設定やオーケストレーションをユーザーが行う必要はありません。インフラストラクチャの管理ではなく、モデルに集中できます。

Vertex AI Prediction は、ML モデルをスケーラブルなエンドポイントとしてデプロイするマネージド サービスです。GPU などのハードウェア アクセラレータを使用して、リアルタイム データと大規模なバッチデータの両方を高速に処理します。

コンテナ化されたモデルをデプロイし、ゼロへの自動スケーリングとリクエストごとの料金設定を活用します。変動が激しい断続的なワークロードや、シンプルなウェブサービスに最適です。

Vertex AI Prediction は、ML モデルをスケーラブルなエンドポイントとしてデプロイするマネージド サービスです。GPU などのハードウェア アクセラレータを使用して、リアルタイム データと大規模なバッチデータの両方を高速に処理します。

コンテナ化されたモデルをデプロイし、ゼロへの自動スケーリングとリクエストごとの料金設定を活用します。変動が激しい断続的なワークロードや、シンプルなウェブサービスに最適です。

最大限の制御を実現するカスタム サービング プラットフォームを構築する

デベロッパーや MLOps に、カスタムのコンテナ化された推論サービスをデプロイ、管理、スケーリングするためのきめ細かい制御と柔軟性を提供します。多くの場合、専用ハードウェアを活用し、クラウド環境やハイブリッド環境全体に対応します。

GKE は、CPU、GPU、TPU などのハードウェアをきめ細かく制御できるため、非常に大規模または複雑な ML モデルのパフォーマンスやサービング費用をカスタマイズして最適化する場合に最適です。

GKE は、CPU、GPU、TPU などのハードウェアをきめ細かく制御できるため、非常に大規模または複雑な ML モデルのパフォーマンスやサービング費用をカスタマイズして最適化する場合に最適です。

SQL を使用してデータ ウェアハウスで推論を直接実行する

SQL を使用している場合は、データがすでに存在している場所で AI モデルから予測を取得できます。これにより、データを別のプラットフォームに移動する必要がなくなり、ワークフローを簡素化できます。

BigQuery を使用した推論により、シンプルな SQL コマンドでデータに対して直接 ML モデルを実行できるため、データの移動が不要になり、複雑さとレイテンシが軽減されます。特に、データがすでに BigQuery に保存されている場合、顧客セグメンテーションや需要予測といったバッチ処理タスクにおいて非常に効率的な方法です。

BigQuery を使用した推論により、シンプルな SQL コマンドでデータに対して直接 ML モデルを実行できるため、データの移動が不要になり、複雑さとレイテンシが軽減されます。特に、データがすでに BigQuery に保存されている場合、顧客セグメンテーションや需要予測といったバッチ処理タスクにおいて非常に効率的な方法です。

AI 推論のリソース

AI 推論スキルを次のレベルに引き上げる準備は準備はお済みでしょうか?ここでは、学習を深め、すぐに始められるおすすめのリソースをいくつかご紹介します。

次のステップ

$300 分の無料クレジットと 20 以上の Always Free プロダクトを活用して、Google Cloud で構築を開始しましょう。

  • Google Cloud プロダクト
  • 100 種類を超えるプロダクトをご用意しています。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。また、すべてのお客様に 25 以上のプロダクトを無料でご利用いただけます(毎月の使用量上限があります)。
Google Cloud