AI 推論是人工智慧的「執行」階段。訓練好的模型會在此時停止學習並開始運作,將所學內容轉化為實際成果。
訓練就像是在教導 AI 新技能,而推論則是 AI 實際運用這項技能來完成工作。AI 會接收新資料 (如相片或文字) 並立即產生輸出內容,例如預測結果、生成相片或做出決定。這就是 AI 的商業價值所在。對於使用 AI 建構解決方案的人來說,如何以快速、可擴充且符合成本效益的方式進行推論,將是打造成功解決方案的關鍵。
完整的 AI 生命週期涵蓋資料收集,到長期監控等所有環節,而模型從建立到執行的核心歷程,則有三個主要階段。前兩個階段的重點在於學習,最後一個階段是發揮所學。
下表概略說明主要差異:
AI 訓練 | AI 微調 | AI 推論 | AI 提供 | |
目標 | 從頭開始建構新模型。 | 根據特定工作調整預先訓練模型。 | 使用訓練好的模型進行預測。 | 部署及管理模型,以便處理推論要求。 |
流程 | 從大型資料集中反覆學習。 | 以較小的資料集微調現有模型。 | 對新資料執行一次快速的「前向傳播」。 | 封裝模型並以 API 形式公開 |
資料 | 已加上標籤的大型歷來資料集。 | 較小的特定工作資料集。 | 即時且未加標籤的實際資料。 | 不適用 |
業務重點 | 模型準確率和功能。 | 效率與自訂功能。 | 速度 (延遲時間)、規模和成本效益。 | 推論端點的可靠性、擴充性和易管理性。 |
AI 訓練
AI 微調
AI 推論
AI 提供
目標
從頭開始建構新模型。
根據特定工作調整預先訓練模型。
使用訓練好的模型進行預測。
部署及管理模型,以便處理推論要求。
流程
從大型資料集中反覆學習。
以較小的資料集微調現有模型。
對新資料執行一次快速的「前向傳播」。
封裝模型並以 API 形式公開
資料
已加上標籤的大型歷來資料集。
較小的特定工作資料集。
即時且未加標籤的實際資料。
不適用
業務重點
模型準確率和功能。
效率與自訂功能。
速度 (延遲時間)、規模和成本效益。
推論端點的可靠性、擴充性和易管理性。
AI 推論的核心,是將新資料轉換為實用的輸出內容,過程包含三個步驟。
以下用「AI 模型辨識相片中的物件」來簡單說明。
雖然單次推論速度很快,但模型可能要即時服務數百萬名使用者,這時延遲時間和成本就會增加,因此需要使用最佳化硬體。AI 專用的圖形處理器 (GPU) 和 Google 的 Tensor Processing Unit 專門用來高效處理這些工作,並由 Google Kubernetes Engine 自動調度管理,可提高處理量及降低延遲。
這是最常見的做法,即在資料中心的強大遠端伺服器上執行推論。雲端具備極佳的擴充性和運算資源,非常適合處理龐大的資料集和複雜模型。雲端推論通常有兩種主要模式:
這是指在生成資料的裝置上直接執行推論,例如智慧型手機或工業感應器。邊緣推論可避免資料往返雲端,因此具備獨特優勢:
為協助您根據自身需求選擇最佳做法,以下簡要比較各類 AI 推論技術的主要特色和用途:
功能 | 批次推論 | 即時推論 | 在邊緣位置執行推論 |
主要位置 | 雲端 (資料中心) | 雲端 (資料中心) | 本機裝置 (例如手機、IoT 感應器、機器人) |
延遲/回應速度 | 高 (處理批次後傳回預測結果) | 極低 (每項要求延遲數毫秒至數秒) | 極低 (近乎即時,無網路躍點) |
資料量 | 大型資料集 (例如 TB 級資料) | 個別事件/要求 | 個別事件/要求 (裝置端) |
資料流程 | 資料傳送至雲端、處理並傳回結果 | 每項要求傳送至雲端,並在處理後傳回 | 在裝置上處理資料及運用結果 |
典型應用實例 | 大規模文件分類、隔夜金融分析、定期預測性維護 | 產品推薦、聊天機器人、即時翻譯、即時詐欺警告 | 自動駕駛、智慧型相機、離線語音助理、工業品質控管 |
主要優點 | 適合處理大量非緊急工作,成本效益高 | 讓面向使用者的應用程式能立即回應 | 延遲時間極短、隱私權防護更佳、離線功能、頻寬費用降低 |
功能
批次推論
即時推論
在邊緣位置執行推論
主要位置
雲端 (資料中心)
雲端 (資料中心)
本機裝置 (例如手機、IoT 感應器、機器人)
延遲/回應速度
高 (處理批次後傳回預測結果)
極低 (每項要求延遲數毫秒至數秒)
極低 (近乎即時,無網路躍點)
資料量
大型資料集 (例如 TB 級資料)
個別事件/要求
個別事件/要求 (裝置端)
資料流程
資料傳送至雲端、處理並傳回結果
每項要求傳送至雲端,並在處理後傳回
在裝置上處理資料及運用結果
典型應用實例
大規模文件分類、隔夜金融分析、定期預測性維護
產品推薦、聊天機器人、即時翻譯、即時詐欺警告
自動駕駛、智慧型相機、離線語音助理、工業品質控管
主要優點
適合處理大量非緊急工作,成本效益高
讓面向使用者的應用程式能立即回應
延遲時間極短、隱私權防護更佳、離線功能、頻寬費用降低
AI 推論可實現更高程度的自動化、更明智的決策和創新應用,這項技術正徹底改變各行各業。企業開發人員可以在以下幾個重要領域,透過 AI 推論創造實際商業價值:
AI 推論涉及一系列特有的技術難題,包括管理延遲、控制成本和確保擴充性。Google Cloud 提供彈性的推論作業選項,讓您根據模型的複雜度、效能需求和作業能力,挑選合適的工具。您可以從全代管解決方案著手,並隨著需求變化,逐步採用更客製化的基礎架構。
無論開發人員的 AI 經驗多寡,都透過這個做法快速整合強大的 AI 功能,只需發出簡單的 API 呼叫,不必管理任何模型或基礎架構。
透過簡單的 API 端點,使用 Google 的 Gemini 模型和多種開放原始碼模型。這項服務會處理複雜的代管和擴充作業,您只需要專注於應用程式,即可在生成式 AI 工作中收穫優質成果。 |
透過簡單的 API 端點,使用 Google 的 Gemini 模型和多種開放原始碼模型。這項服務會處理複雜的代管和擴充作業,您只需要專注於應用程式,即可在生成式 AI 工作中收穫優質成果。
這個選項適用於已建構自訂模型的開發人員。將模型部署至 Google Cloud 的代管服務後,您就不必自行處理複雜的伺服器設定或自動化調度作業,只需專注於模型,不必煩惱基礎架構。
Vertex AI Prediction 是一項代管服務,可將機器學習模型部署為可擴充的端點,並使用 GPU 等硬體加速器,快速處理即時和大批次資料。 | |
部署容器化模型時,可將資源調度率降至零,並依要求次數付費,適合用於變化程度高的間歇性工作負載,或是簡單的 Web 服務。 |
Vertex AI Prediction 是一項代管服務,可將機器學習模型部署為可擴充的端點,並使用 GPU 等硬體加速器,快速處理即時和大批次資料。
部署容器化模型時,可將資源調度率降至零,並依要求次數付費,適合用於變化程度高的間歇性工作負載,或是簡單的 Web 服務。
開發人員和 MLOps 團隊可在雲端或混合式環境中,精細控管及靈活部署、管理和擴充自訂容器化推論服務,且通常可使用專屬硬體。
GKE 可精細控管硬體,包括 CPU、GPU 和 TPU。如果您需要提供大型或複雜機器學習模型,就非常適合透過 GKE 自訂及最佳化服務效能和成本。 |
GKE 可精細控管硬體,包括 CPU、GPU 和 TPU。如果您需要提供大型或複雜機器學習模型,就非常適合透過 GKE 自訂及最佳化服務效能和成本。
如果您使用 SQL,現在起可以在資料儲存位置,直接取得 AI 模型的預測結果,不必將資料移至其他平台,工作流程因而簡化。
透過 BigQuery 進行推論時,您只需要輸入簡單的 SQL 指令,就能直接根據資料執行機器學習模型,無需移動資料,因此能降低複雜度和延遲時間。這個做法非常適合批次處理顧客區隔或需求預測等工作,尤其是資料已儲存在 BigQuery 時。 |
透過 BigQuery 進行推論時,您只需要輸入簡單的 SQL 指令,就能直接根據資料執行機器學習模型,無需移動資料,因此能降低複雜度和延遲時間。這個做法非常適合批次處理顧客區隔或需求預測等工作,尤其是資料已儲存在 BigQuery 時。
準備好精進 AI 推論技能了嗎?歡迎參考下列實用資源,進一步瞭解相關資訊並開始使用: