什麼是 AI 推論？

AI 推論是人工智慧的「執行」階段。訓練好的模型會在此時停止學習並開始運作，將所學內容轉化為實際成果。

訓練就像是在教導 AI 新技能，而推論則是 AI 實際運用這項技能來完成工作。AI 會接收新資料 (如相片或文字) 並立即產生輸出內容，例如預測結果、生成相片或做出決定。這就是 AI 的商業價值所在。對於使用 AI 建構解決方案的人來說，如何以快速、可擴充且符合成本效益的方式進行推論，將是打造成功解決方案的關鍵。

網誌

技術專家來解答：什麼是推論？

「AI 訓練」、「微調」、「推論」和「提供」的差異

完整的 AI 生命週期涵蓋資料收集，到長期監控等所有環節，而模型從建立到執行的核心歷程，則有三個主要階段。前兩個階段的重點在於學習，最後一個階段是發揮所學。

AI 訓練是基礎學習階段。這項程序需要大量運算資源，模型會分析龐大的資料集，從中學習模式和關係。這個階段的目標是建立準確且知識豐富的模型，需要強大的硬體加速器 (例如 GPU 和 TPU)，且可能耗費數小時到數週的時間。
AI 微調是快速訓練模型的方式，以較小的專用資料集，調整強大的預先訓練模型，以便運用於特定工作。相較於從頭開始訓練模型，微調方式可大幅節省時間和資源。
AI 推論為執行階段，這個程序會使用經過訓練和微調的模型，針對新的「未知」資料快速做出預測。雖然一項預測的運算需求遠低於訓練程序，但要即時提供數百萬則預測，仍需要經全面最佳化且可擴充的基礎架構。
AI 提供是指部署及管理模型，以便用於推論的程序。這個程序通常需要封裝模型、設定 API 端點，以及管理基礎架構來處理要求。

下表概略說明主要差異：

	AI 訓練	AI 微調	AI 推論	AI 提供
目標	從頭開始建構新模型。	根據特定工作調整預先訓練模型。	使用訓練好的模型進行預測。	部署及管理模型，以便處理推論要求。
流程	從大型資料集中反覆學習。	以較小的資料集微調現有模型。	對新資料執行一次快速的「前向傳播」。	封裝模型並以 API 形式公開
資料	已加上標籤的大型歷來資料集。	較小的特定工作資料集。	即時且未加標籤的實際資料。	不適用
業務重點	模型準確率和功能。	效率與自訂功能。	速度 (延遲時間)、規模和成本效益。	推論端點的可靠性、擴充性和易管理性。

AI 訓練

AI 微調

AI 推論

AI 提供

目標

從頭開始建構新模型。

根據特定工作調整預先訓練模型。

使用訓練好的模型進行預測。

部署及管理模型，以便處理推論要求。

流程

從大型資料集中反覆學習。

以較小的資料集微調現有模型。

對新資料執行一次快速的「前向傳播」。

封裝模型並以 API 形式公開

資料

已加上標籤的大型歷來資料集。

較小的特定工作資料集。

即時且未加標籤的實際資料。

不適用

業務重點

模型準確率和功能。

效率與自訂功能。

速度 (延遲時間)、規模和成本效益。

推論端點的可靠性、擴充性和易管理性。

AI 推論如何運作？

AI 推論的核心，是將新資料轉換為實用的輸出內容，過程包含三個步驟。

以下用「AI 模型辨識相片中的物件」來簡單說明。

準備輸入資料：首先，使用者會提供新資料，例如您剛才提交的相片。這張相片會立即經過預先處理，以利模型使用，例如將相片尺寸調整為模型訓練時使用的確切尺寸。
執行模型：接著，AI 模型會分析準備好的相片，尋找訓練期間學到的模式，例如顏色、形狀和紋理。這項快速分析作業稱為「前向傳播」，並且是唯讀步驟，模型會應用所學知識，但不會學習任何新內容。
生成輸出內容：模型會生成實用的結果；在相片分析中，這可能是機率分數 (例如圖片有 95% 的機率包含「狗」)。接著，系統會將輸出內容傳送至應用程式，供使用者查看。

雖然單次推論速度很快，但模型可能要即時服務數百萬名使用者，這時延遲時間和成本就會增加，因此需要使用最佳化硬體。AI 專用的圖形處理器 (GPU) 和 Google 的 Tensor Processing Unit 專門用來高效處理這些工作，並由 Google Kubernetes Engine 自動調度管理，可提高處理量及降低延遲。

AI 推論類型

雲端推論：結合強大功能與規模

這是最常見的做法，即在資料中心的強大遠端伺服器上執行推論。雲端具備極佳的擴充性和運算資源，非常適合處理龐大的資料集和複雜模型。雲端推論通常有兩種主要模式：

即時 (線上) 推論：在收到個別要求的數毫秒內立即處理。對於需要即時回饋的互動式應用程式而言，這點至關重要。
批次 (離線) 推論：可同時處理大量資料，通常用於不需要立即回應的情況。對於定期分析或排程工作來說，這是極具成本效益的做法。

邊緣推論：兼顧速度與隱私

這是指在生成資料的裝置上直接執行推論，例如智慧型手機或工業感應器。邊緣推論可避免資料往返雲端，因此具備獨特優勢：

降低延遲：回應速度近乎即時，對於自動駕駛或即時製造檢查等應用程式至關重要。
強化隱私：敏感資料 (例如醫療掃描結果、個人相片、視訊畫面) 可在裝置上處理，完全不必傳送至雲端。
降低頻寬成本：在本地處理資料可大幅減少上傳和下載的資料量。
離線功能：即使沒有網路連線，應用程式仍可繼續運作，確保在偏遠或斷線環境中也能持續作業。

透過 Google Cloud 解決業務難題

新客戶可以獲得價值 $300 美元的免費抵免額，盡情試用各項 Google Cloud 功能。

AI 推論比較

為協助您根據自身需求選擇最佳做法，以下簡要比較各類 AI 推論技術的主要特色和用途：

功能	批次推論	即時推論	在邊緣位置執行推論
主要位置	雲端 (資料中心)	雲端 (資料中心)	本機裝置 (例如手機、IoT 感應器、機器人)
延遲/回應速度	高 (處理批次後傳回預測結果)	極低 (每項要求延遲數毫秒至數秒)	極低 (近乎即時，無網路躍點)
資料量	大型資料集 (例如 TB 級資料)	個別事件/要求	個別事件/要求 (裝置端)
資料流程	資料傳送至雲端、處理並傳回結果	每項要求傳送至雲端，並在處理後傳回	在裝置上處理資料及運用結果
典型應用實例	大規模文件分類、隔夜金融分析、定期預測性維護	產品推薦、聊天機器人、即時翻譯、即時詐欺警告	自動駕駛、智慧型相機、離線語音助理、工業品質控管
主要優點	適合處理大量非緊急工作，成本效益高	讓面向使用者的應用程式能立即回應	延遲時間極短、隱私權防護更佳、離線功能、頻寬費用降低

功能

批次推論

即時推論

在邊緣位置執行推論

主要位置

雲端 (資料中心)

本機裝置 (例如手機、IoT 感應器、機器人)

延遲/回應速度

高 (處理批次後傳回預測結果)

極低 (每項要求延遲數毫秒至數秒)

極低 (近乎即時，無網路躍點)

資料量

大型資料集 (例如 TB 級資料)

個別事件/要求

個別事件/要求 (裝置端)

資料流程

資料傳送至雲端、處理並傳回結果

每項要求傳送至雲端，並在處理後傳回

在裝置上處理資料及運用結果

典型應用實例

大規模文件分類、隔夜金融分析、定期預測性維護

產品推薦、聊天機器人、即時翻譯、即時詐欺警告

自動駕駛、智慧型相機、離線語音助理、工業品質控管

主要優點

適合處理大量非緊急工作，成本效益高

讓面向使用者的應用程式能立即回應

延遲時間極短、隱私權防護更佳、離線功能、頻寬費用降低

開發人員應用實例

AI 推論可實現更高程度的自動化、更明智的決策和創新應用，這項技術正徹底改變各行各業。企業開發人員可以在以下幾個重要領域，透過 AI 推論創造實際商業價值：

即時風險與詐欺偵測

立即分析金融交易、使用者行為或系統記錄，找出並標記可疑活動，協助業者主動介入並防範詐欺、洗錢或安全漏洞。
範例：信用卡公司使用推論技術，在幾毫秒內授權交易，迅速封鎖潛在的詐欺購物行為。

超個人化體驗和推薦引擎

根據使用者過去的互動記錄和即時情境預測偏好，提供高度個人化的體驗。
範例：電子商務平台可使用推論功能向購物者推薦產品；串流服務也能根據觀看習慣推薦電影，進而提高互動度和銷售量。

AI 輔助自動化作業與代理

部署 AI 模型來自動執行例行事務、提供智慧輔助功能，或大規模與使用者互動。
範例：客服機構使用 AI 服務專員處理常見問題，讓真人專員能專心處理複雜問題；工廠使用 AI 自動檢查生產線上的產品品質。

預測性維護與相關作業

分析機器、基礎架構或 IT 系統的感應器資料，在問題發生前預測故障和需求，以及最佳化資源配置。
範例：製造商可運用推論技術預測設備何時需要維修，盡量縮短停機時間及延長資產壽命；物流公司則可根據即時交通預測資料，找出最佳運送路線。

進階內容生成與理解

運用 AI 產生新內容 (文字、程式碼、圖片、音訊)，或深入瞭解現有的非結構化資料。
範例：開發人員使用程式碼生成模型加速軟體開發；行銷團隊使用 AI 彙整大量文件的重點，撰寫出個人化廣告文案。

Google Cloud 如何簡化您的 AI 推論作業

AI 推論涉及一系列特有的技術難題，包括管理延遲、控制成本和確保擴充性。Google Cloud 提供彈性的推論作業選項，讓您根據模型的複雜度、效能需求和作業能力，挑選合適的工具。您可以從全代管解決方案著手，並隨著需求變化，逐步採用更客製化的基礎架構。

使用預先訓練的 AI API 和預先建構的模型，快速進行部署作業

無論開發人員的 AI 經驗多寡，都透過這個做法快速整合強大的 AI 功能，只需發出簡單的 API 呼叫，不必管理任何模型或基礎架構。

Vertex AI Model Garden

透過簡單的 API 端點，使用 Google 的 Gemini 模型和多種開放原始碼模型。這項服務會處理複雜的代管和擴充作業，您只需要專注於應用程式，即可在生成式 AI 工作中收穫優質成果。

Vertex AI Model Garden

在代管基礎架構上部署自訂模型

這個選項適用於已建構自訂模型的開發人員。將模型部署至 Google Cloud 的代管服務後，您就不必自行處理複雜的伺服器設定或自動化調度作業，只需專注於模型，不必煩惱基礎架構。

Vertex AI Prediction	Vertex AI Prediction 是一項代管服務，可將機器學習模型部署為可擴充的端點，並使用 GPU 等硬體加速器，快速處理即時和大批次資料。
Cloud Run	部署容器化模型時，可將資源調度率降至零，並依要求次數付費，適合用於變化程度高的間歇性工作負載，或是簡單的 Web 服務。

Vertex AI Prediction

Vertex AI Prediction 是一項代管服務，可將機器學習模型部署為可擴充的端點，並使用 GPU 等硬體加速器，快速處理即時和大批次資料。

Cloud Run

部署容器化模型時，可將資源調度率降至零，並依要求次數付費，適合用於變化程度高的間歇性工作負載，或是簡單的 Web 服務。

建構自訂供應平台，充分掌握控制權

開發人員和 MLOps 團隊可在雲端或混合式環境中，精細控管及靈活部署、管理和擴充自訂容器化推論服務，且通常可使用專屬硬體。

Google Kubernetes Engine (GKE)

GKE 可精細控管硬體，包括 CPU、GPU 和 TPU。如果您需要提供大型或複雜機器學習模型，就非常適合透過 GKE 自訂及最佳化服務效能和成本。

Google Kubernetes Engine (GKE)

GKE 可精細控管硬體，包括 CPU、GPU 和 TPU。如果您需要提供大型或複雜機器學習模型，就非常適合透過 GKE 自訂及最佳化服務效能和成本。

直接在資料倉儲中使用 SQL 執行推論

如果您使用 SQL，現在起可以在資料儲存位置，直接取得 AI 模型的預測結果，不必將資料移至其他平台，工作流程因而簡化。

BigQuery ML (BigQuery 機器學習)

透過 BigQuery 進行推論時，您只需要輸入簡單的 SQL 指令，就能直接根據資料執行機器學習模型，無需移動資料，因此能降低複雜度和延遲時間。這個做法非常適合批次處理顧客區隔或需求預測等工作，尤其是資料已儲存在 BigQuery 時。