AI 推論とは

AI 推論は、AI の「実行」段階です。トレーニングされたモデルが学習を終え、知識を活用して現実の成果を生み出し始める瞬間、それが推論です。

トレーニングが AI に新しいスキルを教えることだとしたら、推論は AI がそのスキルを使って実際に仕事をすることです。新しいデータ（写真やテキストなど）をインプットすると、予測を返したり、写真を生成したり、意思決定を行ったりと、即座にアウトプットを出します。AI がビジネス価値を生み出す瞬間です。AI を活用してソリューションを構築する際には、推論を高速、スケーラブル、かつ費用対効果の高いものにすることが、成功の鍵となります。たとえば、企業のデベロッパーは Google Kubernetes Engine（GKE）で AI 推論を活用して、顧客の購入をリアルタイムで分析し、購入手続き時にパーソナライズされた割引を提供するシステムを構築すれば、売り上げと顧客満足度を向上させることができます。

ブログ

専門家に聞く: 推論とは

「AI トレーニング」、「ファインチューニング」、「推論」、「サービング」の違い

AI のライフサイクル全体には、データの収集から長期的なモニタリングまでが含まれますが、モデルの作成から実行までの中心的なプロセスは、3 つの主要なステージに分けられます。最初の 2 つは学習に関するもので、最後の 1 つは学習したことを実践するものです。

AI トレーニングは、基盤となる学習フェーズです。モデルが膨大なデータセットを分析し、パターンや関係性を学習する、計算負荷の高いプロセスです。このフェーズの目的は、正確で知識豊富なモデルを構築することにあります。そのためには、GPU や TPU などの高性能なハードウェアアクセラレータが必要で、完了までに数時間から数週間かかることがあります。
AI ファインチューニングは、トレーニングの近道です。強力な事前トレーニング済みモデルをベースに、より小規模で専門的なデータセットを使って、特定のタスクに適応させます。これにより、モデルをゼロからトレーニングする場合と比べて、時間とリソースを大幅に節約できます。
AI 推論は実行フェーズです。トレーニングとファインチューニングが完了したモデルを使って、新しい「未知の」データに対して高速に予測を行います。個々の予測はトレーニングよりも計算負荷がはるかに低いですが、数百万件の予測をリアルタイムで提供するには、高度に最適化されたスケーラブルなインフラストラクチャが必要です。
AI サービングは、推論のためにモデルをデプロイして管理するプロセスです。通常は、モデルのパッケージ化、API エンドポイントの設定、リクエスト処理のためのインフラストラクチャの管理などが含まれます。

次の表は、主な違いをまとめたものです。

	AI トレーニング	AI ファインチューニング	AI 推論	AI サービング
目的	新しいモデルをゼロから構築する。	事前トレーニング済みモデルを特定のタスクに適応させる。	トレーニング済みモデルを使用して予測を行う。	推論リクエストを処理するためにモデルをデプロイして管理する。
プロセス	大規模なデータセットから繰り返し学習する。	既存のモデルを小規模なデータセットで改良する。	新しいデータに対して行われる、1 回の高速な「フォワードパス」。	モデルをパッケージ化して API として公開する。
データ	ラベルの付いた大規模な過去のデータセット。	タスク固有の小規模なデータセット。	ライブの実環境におけるラベルなしデータ。	なし
ビジネスの着目点	モデルの精度と能力。	効率性とカスタマイズ。	スピード（レイテンシ）、規模、費用対効果。	推論エンドポイントの信頼性、スケーラビリティ、管理性。

AI トレーニング

AI ファインチューニング

AI 推論

AI サービング

目的

新しいモデルをゼロから構築する。

事前トレーニング済みモデルを特定のタスクに適応させる。

トレーニング済みモデルを使用して予測を行う。

推論リクエストを処理するためにモデルをデプロイして管理する。

プロセス

大規模なデータセットから繰り返し学習する。

既存のモデルを小規模なデータセットで改良する。

新しいデータに対して行われる、1 回の高速な「フォワードパス」。

モデルをパッケージ化して API として公開する。

データ

ラベルの付いた大規模な過去のデータセット。

タスク固有の小規模なデータセット。

ライブの実環境におけるラベルなしデータ。

なし

ビジネスの着目点

モデルの精度と能力。

効率性とカスタマイズ。

スピード（レイテンシ）、規模、費用対効果。

推論エンドポイントの信頼性、スケーラビリティ、管理性。

AI 推論の仕組み

基本的には、AI 推論は、新しいデータを有用な出力に変換する 3 つのステップで構成されています。

写真内のオブジェクトを識別するために構築された AI モデルという簡単な例を使用して、このプロセスを説明します。

入力データの準備: まず、新しいデータが提供されます。たとえば、ユーザーが送信したばかりの写真などです。この写真は、モデル用に即座に準備されます。これは、モデルのトレーニングに使用された正確な寸法にサイズ変更するだけの場合もあります。
モデルの実行: 次に、AI モデルが準備された写真を分析します。トレーニング中に学習した内容と一致するパターン（色、形、質感など）を探します。この迅速な分析は「フォワードパス」と呼ばれ、モデルが新しいことを学習せずに知識を適用する読み取り専用のステップです。
出力の生成: モデルが実用的な結果を生成します。写真分析の場合、これは確率スコア（画像に「犬」が含まれている可能性が 95% など）になります。この出力はアプリケーションに送信され、ユーザーに表示されます。

1 回の推論は高速ですが、数百万人のユーザーにリアルタイムでサービスを提供すると、レイテンシと費用が増加し、最適化されたハードウェアが必要になります。AI 専用の画像処理装置（GPU）とGoogle の Tensor Processing Unit は、Google Kubernetes Engine によるオーケストレーションとともに、これらのタスクを効率的に処理するように設計されており、スループットの向上とレイテンシの短縮に役立ちます。

AI 推論の種類

クラウド推論: 高い処理能力とスケーラビリティに最適

これは最も一般的なアプローチで、データセンターの強力なリモートサーバーで推論を実行します。クラウドは、膨大なスケーラビリティと計算リソースを提供するため、大規模なデータセットや複雑なモデルの処理に最適です。クラウド内では、通常、推論の主なモードが 2 つあります。

リアルタイム（オンライン）推論: 個々のリクエストが到着すると、多くの場合ミリ秒単位ですぐに処理します。これは、即時のフィードバックが求められるインタラクティブなアプリケーションにとって非常に重要です。
バッチ（オフライン）推論: 大量のデータを一度に処理します。通常は、即時のレスポンスが不要な場合に使用します。定期的な分析やスケジュールされたタスクに非常に費用対効果の高い方法です。

エッジ推論: 高速性とプライバシーを重視

このアプローチでは、データが生成されるデバイス（スマートフォンや産業用センサーなど）で直接推論を行います。エッジ推論は、クラウドへのラウンドトリップを回避することで、次のような独自の利点を提供します。

レイテンシの短縮: 応答がほぼ瞬時に行われるため、自動運転車やリアルタイムの製造チェックなどのアプリケーションに不可欠です。
プライバシーの強化: 機密データ（医療スキャン、個人の写真、動画フィードなど）をクラウドに送信することなく、デバイス上で処理できます。
帯域幅コストの削減: データをローカルで処理することで、アップロードとダウンロードが必要なデータ量が大幅に削減されます。
オフライン機能: アプリケーションはインターネットに接続していなくても動作し続けるため、リモート環境や接続が切断された環境でも継続的に運用できます。

Google Cloud でビジネスの課題を解決する

新規のお客様には、Google Cloud で使用できる無料クレジット $300 分を差し上げます。

AI 推論の比較

特定のニーズに最適なアプローチを選択できるように、各タイプの AI 推論の主な特徴とユースケースを簡単に比較してみましょう。

機能	バッチ推論	リアルタイムの推論	エッジ推論
プライマリロケーション	Cloud（データセンター）	Cloud（データセンター）	ローカルデバイス（スマートフォン、IoT センサー、ロボットなど）
レイテンシ / 応答性	高（バッチ処理後に予測が返される）	非常に低い（リクエストあたりミリ秒～秒）	非常に低い（ほぼ瞬時、ネットワークホップなし）
データ容量	大規模なデータセット（テラバイトなど）	個々のイベント / リクエスト	個々のイベント / リクエスト（デバイス上）
データフロー	データがクラウドに送信され、処理されて結果が返されます	各リクエストはクラウドに送信され、処理され、返されます	データはデバイス上で処理され、結果はデバイス上で使用されます
一般的なユースケース	大規模なドキュメントの分類、夜間の財務分析、定期的な予測メンテナンス	プロダクトのレコメンデーション、chatbot、リアルタイム翻訳、リアルタイムの不正行為アラート	自動運転、スマートカメラ、オフライン音声アシスタント、産業用品質管理
主な利点	大規模で緊急性のないタスクに費用対効果が高い	ユーザー向けアプリの即時応答性	最小限のレイテンシ、プライバシーの強化、オフライン機能、帯域幅コストの削減

機能

バッチ推論

リアルタイムの推論

エッジ推論

プライマリロケーション

Cloud（データセンター）

ローカルデバイス（スマートフォン、IoT センサー、ロボットなど）

レイテンシ / 応答性

高（バッチ処理後に予測が返される）

非常に低い（リクエストあたりミリ秒～秒）

非常に低い（ほぼ瞬時、ネットワークホップなし）

データ容量

大規模なデータセット（テラバイトなど）

個々のイベント / リクエスト

個々のイベント / リクエスト（デバイス上）

データフロー

データがクラウドに送信され、処理されて結果が返されます

各リクエストはクラウドに送信され、処理され、返されます

データはデバイス上で処理され、結果はデバイス上で使用されます

一般的なユースケース

大規模なドキュメントの分類、夜間の財務分析、定期的な予測メンテナンス

プロダクトのレコメンデーション、chatbot、リアルタイム翻訳、リアルタイムの不正行為アラート

自動運転、スマートカメラ、オフライン音声アシスタント、産業用品質管理

主な利点

大規模で緊急性のないタスクに費用対効果が高い

ユーザー向けアプリの即時応答性

最小限のレイテンシ、プライバシーの強化、オフライン機能、帯域幅コストの削減

デベロッパー向けのユースケース

AI 推論は、新たなレベルの自動化、よりスマートな意思決定、革新的なアプリケーションを可能にすることで、業界を変革しています。企業デベロッパーにとって、推論が具体的なビジネス価値をもたらす重要な分野は次のとおりです。

リスクと不正行為をリアルタイムで検出

金融取引、ユーザーの行動、システムログを即座に分析して、不審なアクティビティを特定し、フラグを立てます。これにより、不正行為、マネーロンダリング、セキュリティ侵害を防止するための事前介入が可能になります。
例: クレジットカード会社は、推論を使用してトランザクションをミリ秒単位で承認し、不正の可能性がある購入を即座にブロックします。

高度なパーソナライズとレコメンデーションエンジン

過去のやり取りやリアルタイムのコンテキストに基づいてユーザーの好みを予測することで、高度にカスタマイズされたエクスペリエンスを提供します。
例: e コマースプラットフォームでは、推論を使用して買い物客に商品をおすすめします。また、ストリーミングサービスでは、視聴習慣に基づいて映画をおすすめし、エンゲージメントと販売を促進します。

AI を活用した自動化とエージェント

AI モデルをデプロイして、ルーチンタスクの自動化、インテリジェントな支援の提供、ユーザーとの大規模なやり取りを実現します。
例: カスタマーサービス組織では、AI エージェントを使用して一般的な問い合わせを処理することで、人間のエージェントが複雑な問題に対応できるようになります。また、工場では、組み立てラインでの品質検査を自動化するために AI を使用しています。

予測メンテナンスと運用

機械、インフラストラクチャ、IT システムのセンサーデータを分析して、問題が発生する前に障害を予測したり、需要を予測したり、リソースの割り当てを最適化したりできます。
例: メーカーは推論を使用して、機器のメンテナンスが必要になる時期を予測し、ダウンタイムを最小限に抑えて資産の寿命を延ばします。また、物流会社はリアルタイムの交通予測に基づいてルートを最適化します。

高度なコンテンツの生成と理解

AI を活用して新しいコンテンツ（テキスト、コード、画像、音声）を作成したり、既存の非構造化データを深く理解したりできます。
例: デベロッパーはコード生成モデルを使用してソフトウェア開発を加速させ、マーケティングチームは AI を使用して大量のドキュメントを要約し、広告コピーをパーソナライズします。

解決したい問題は何ですか？

What you'll get:

手順ガイド

リファレンスアーキテクチャ

利用可能な事前構築済みソリューション

このサービスは Vertex AI を使用して構築されました。ご利用いただけるのは 18 歳以上のユーザーのみです。機密情報や個人情報は入力しないでください。

Google Cloud でできること

Google Cloud は、デベロッパーや組織が AI 推論ワークロードを効率的に大規模に構築、デプロイ、管理するのに役立つ、包括的なツールスイートやサービスを提供します。推論機能は、多くのサービスに深く統合されています。

関連プロダクトとソリューション

Google Cloud プロダクト	サポートされている推論アプローチ	以下のような場合に最適	推論のユースケースの例
Google Kubernetes Engine（GKE）	すべての推論タイプ（クラウドとハイブリッド）	クラウド環境またはハイブリッド環境全体で、多くの場合専用のハードウェアを使用して、カスタムコンテナ化推論サービスをデプロイ、管理、スケーリングするための究極の制御と柔軟性を実現します。	複雑な産業システムでリアルタイムの異常検出を行うためのカスタム AI モデルをデプロイ、スケーリングする。
Cloud Run	リアルタイムクラウド推論（サーバーレス）	コンテナ化されたモデルをデプロイし、ゼロへの自動スケーリングとリクエストごとの料金設定を活用する。変動が激しい断続的なワークロードや、シンプルなウェブサービスに最適。	トラフィックの変動が大きいウェブアプリケーション向けに、中小規模のモデルを提供し、費用対効果を確保する。
Google Cloud の NVIDIA GPU	リアルタイムクラウド推論とバッチクラウド推論	幅広い AI モデルやフレームワークに対応する、柔軟で高性能なアクセラレーションを実現する。	医療診断用の高解像度画像の迅速な処理や、複雑な財務モデリングの高速実行を実現する。
BigQuery ML	バッチクラウド推論（データウェアハウス）	データを移動することなく、データウェアハウスにすでに保存されているデータに対して SQL で直接推論を実行する。	BigQuery 内の CRM データを活用して、顧客離脱を直接予測する。
事前トレーニング済み AI API	リアルタイムクラウド推論（特定のタスク）	ビジョン、言語、音声などの高度な AI 機能を、モデルの構築やトレーニングなしでアプリケーションに簡単に統合する。	顧客とのチャットメッセージをリアルタイムで自動翻訳したり、ソーシャルメディアの投稿から感情を分析したりする。
Cloud TPU	リアルタイムクラウド推論とバッチクラウド推論（大規模モデル）	特に大規模言語モデル（LLM）などの非常に大規模で複雑なディープラーニングモデルを提供する際に、パフォーマンスと費用対効果を最大限に高める。	最先端の生成 AI chatbot によるリアルタイム応答を強化する。
エッジソリューション（Coral、GDC Edge など）	エッジ推論	モデルをデバイス上で直接実行することで、超低レイテンシ、プライバシーの強化、オフライン機能を実現する。	動画をクラウドに送信せずに、スマートカメラ上で即座に物体認識を実行する。
Dataproc	バッチクラウド推論のためのデータ準備	大規模なバッチ推論ジョブのために、大量のデータを効率的に処理して準備する。	ペタバイト単位のセンサーデータを予測メンテナンスモデルにフィードする前に前処理する。

Google Cloud プロダクト

サポートされている推論アプローチ

以下のような場合に最適

推論のユースケースの例

Google Kubernetes Engine（GKE）

すべての推論タイプ（クラウドとハイブリッド）

クラウド環境またはハイブリッド環境全体で、多くの場合専用のハードウェアを使用して、カスタムコンテナ化推論サービスをデプロイ、管理、スケーリングするための究極の制御と柔軟性を実現します。

複雑な産業システムでリアルタイムの異常検出を行うためのカスタム AI モデルをデプロイ、スケーリングする。

Cloud Run

リアルタイムクラウド推論（サーバーレス）

コンテナ化されたモデルをデプロイし、ゼロへの自動スケーリングとリクエストごとの料金設定を活用する。変動が激しい断続的なワークロードや、シンプルなウェブサービスに最適。

トラフィックの変動が大きいウェブアプリケーション向けに、中小規模のモデルを提供し、費用対効果を確保する。

Google Cloud の NVIDIA GPU

リアルタイムクラウド推論とバッチクラウド推論

幅広い AI モデルやフレームワークに対応する、柔軟で高性能なアクセラレーションを実現する。

医療診断用の高解像度画像の迅速な処理や、複雑な財務モデリングの高速実行を実現する。

BigQuery ML

バッチクラウド推論（データウェアハウス）

データを移動することなく、データウェアハウスにすでに保存されているデータに対して SQL で直接推論を実行する。

BigQuery 内の CRM データを活用して、顧客離脱を直接予測する。

事前トレーニング済み AI API

リアルタイムクラウド推論（特定のタスク）

ビジョン、言語、音声などの高度な AI 機能を、モデルの構築やトレーニングなしでアプリケーションに簡単に統合する。

顧客とのチャットメッセージをリアルタイムで自動翻訳したり、ソーシャルメディアの投稿から感情を分析したりする。

Cloud TPU

リアルタイムクラウド推論とバッチクラウド推論（大規模モデル）

特に大規模言語モデル（LLM）などの非常に大規模で複雑なディープラーニングモデルを提供する際に、パフォーマンスと費用対効果を最大限に高める。

最先端の生成 AI chatbot によるリアルタイム応答を強化する。

エッジソリューション（Coral、GDC Edge など）

エッジ推論

モデルをデバイス上で直接実行することで、超低レイテンシ、プライバシーの強化、オフライン機能を実現する。

動画をクラウドに送信せずに、スマートカメラ上で即座に物体認識を実行する。

Dataproc

バッチクラウド推論のためのデータ準備

大規模なバッチ推論ジョブのために、大量のデータを効率的に処理して準備する。

ペタバイト単位のセンサーデータを予測メンテナンスモデルにフィードする前に前処理する。

Vertex AI

Vertex AI は Google Cloud の統合 AI プラットフォームです。ML モデルの構築、デプロイ、管理のための包括的なツールが用意されているため、クラウドベースの推論のほぼすべてのニーズに対応できます。

Vertex AI の機能	推論アプローチ	以下のような場合に最適	推論のユースケースの例
オンライン予測	リアルタイムクラウド推論	カスタムモデルをデプロイし、マネージドエンドポイントからリアルタイムかつ低レイテンシの予測を取得する。	ウェブサイトを閲覧しているユーザーに商品を即座にレコメンドする。
バッチ予測	バッチクラウド推論	リアルタイムの結果を必要とせずに、大規模なデータセットを費用対効果の高い方法で処理する。	昨日の顧客トランザクションをすべて分析して、不正行為のパターンを検出する。
Model Garden と基盤モデル	リアルタイムクラウド推論とバッチクラウド推論（生成 AI）	強力な事前トレーニング済みモデルをゼロからトレーニングすることなく、一般的なタスクや生成 AI タスクにすぐに活用する。	マーケティングコピーの生成、長文ドキュメントの要約、コードスニペットの作成などを行う。

Vertex AI の機能

推論アプローチ

以下のような場合に最適

推論のユースケースの例

オンライン予測

リアルタイムクラウド推論

カスタムモデルをデプロイし、マネージドエンドポイントからリアルタイムかつ低レイテンシの予測を取得する。

ウェブサイトを閲覧しているユーザーに商品を即座にレコメンドする。

バッチ予測

バッチクラウド推論

リアルタイムの結果を必要とせずに、大規模なデータセットを費用対効果の高い方法で処理する。

昨日の顧客トランザクションをすべて分析して、不正行為のパターンを検出する。

Model Garden と基盤モデル

リアルタイムクラウド推論とバッチクラウド推論（生成 AI）

強力な事前トレーニング済みモデルをゼロからトレーニングすることなく、一般的なタスクや生成 AI タスクにすぐに活用する。

マーケティングコピーの生成、長文ドキュメントの要約、コードスニペットの作成などを行う。

AI 推論のリソース

AI 推論スキルを次のレベルに引き上げる準備は準備はお済みでしょうか？ここでは、学習を深め、すぐに始められるおすすめのリソースをいくつかご紹介します。

Cloud Run での AI 推論に関するコースを受講する
費用効率に優れた AI 推論の秘訣に関する動画を見る
AI 推論に Cloud Run を使用する方法を学習する
AI 推論ワークロードを高速化する方法を確認する

次のステップ

$300 分の無料クレジットと 20 以上の Always Free プロダクトを活用して、Google Cloud で構築を開始しましょう。

開始にあたりサポートが必要な場合
お問い合わせ
信頼できるパートナーと連携する
パートナーを探す
もっと見る
すべてのプロダクトを見る