AI 推論是人工智慧的「執行」階段。訓練好的模型會在此時停止學習並開始運作,將所學內容轉化為實際成果。
訓練就像是在教導 AI 新技能,而推論則是 AI 實際運用這項技能來完成工作。AI 會接收新資料 (如相片或文字) 並立即產生輸出內容,例如預測結果、生成相片或做出決定。這就是 AI 的商業價值所在。對於使用 AI 建構解決方案的人來說,瞭解如何以快速、可擴充且符合成本效益的方式進行推論,是打造成功解決方案的關鍵。舉例來說,企業開發人員可以在 Google Kubernetes Engine (GKE) 上使用 AI 推論,建構可即時分析顧客購買行為的系統,並在結帳時提供專屬折扣,進而提高銷售量和顧客滿意度。
完整的 AI 生命週期涵蓋資料收集,到長期監控等所有環節,而模型從建立到執行的核心歷程,則有三個主要階段。前兩個階段的重點在於學習,最後一個階段是發揮所學。
下表概略說明主要差異:
AI 訓練 | AI 微調 | AI 推論 | AI 提供 | |
目標 | 從頭開始建構新模型。 | 根據特定工作調整預先訓練模型。 | 使用訓練好的模型進行預測。 | 部署及管理模型,以便處理推論要求。 |
流程 | 從大型資料集中反覆學習。 | 以較小的資料集微調現有模型。 | 對新資料執行一次快速的「前向傳播」。 | 封裝模型並以 API 形式公開 |
資料 | 已加上標籤的大型歷來資料集。 | 較小的特定工作資料集。 | 即時且未加標籤的實際資料。 | 不適用 |
業務重點 | 模型準確率和功能。 | 效率與自訂功能。 | 速度 (延遲時間)、規模和成本效益。 | 推論端點的可靠性、擴充性和易管理性。 |
AI 訓練
AI 微調
AI 推論
AI 提供
目標
從頭開始建構新模型。
根據特定工作調整預先訓練模型。
使用訓練好的模型進行預測。
部署及管理模型,以便處理推論要求。
流程
從大型資料集中反覆學習。
以較小的資料集微調現有模型。
對新資料執行一次快速的「前向傳播」。
封裝模型並以 API 形式公開
資料
已加上標籤的大型歷來資料集。
較小的特定工作資料集。
即時且未加標籤的實際資料。
不適用
業務重點
模型準確率和功能。
效率與自訂功能。
速度 (延遲時間)、規模和成本效益。
推論端點的可靠性、擴充性和易管理性。
AI 推論的核心,是將新資料轉換為實用的輸出內容,過程包含三個步驟。
以下用「AI 模型辨識相片中的物件」來簡單說明。
雖然單次推論速度很快,但模型可能要即時服務數百萬名使用者,這時延遲時間和成本就會增加,且需要經過最佳化的硬體。AI 專用的圖形處理器 (GPU) 和 Google 的 Tensor Processing Unit 專門用來高效處理這些工作,並由 Google Kubernetes Engine 自動調度管理,可提高處理量及降低延遲。
這是最常見的做法,即在資料中心的強大遠端伺服器上執行推論。雲端具備極佳的擴充性和運算資源,非常適合處理龐大的資料集和複雜模型。雲端推論通常有兩種主要模式:
這指的是在生成資料的裝置上直接執行推論,例如智慧型手機或工業感應器。邊緣推論可避免資料往返雲端,因此具備獨特優勢:
為協助您根據自身需求選擇最佳做法,以下簡要比較各類 AI 推論技術的主要特色和用途:
功能 | 批次推論 | 即時推論 | 在邊緣位置執行推論 |
主要位置 | 雲端 (資料中心) | 雲端 (資料中心) | 本機裝置 (例如手機、IoT 感應器、機器人) |
延遲/回應速度 | 高 (處理批次後傳回預測結果) | 極低 (每項要求延遲數毫秒至數秒) | 極低 (近乎即時,無網路躍點) |
資料量 | 大型資料集 (例如 TB 級資料) | 個別事件/要求 | 個別事件/要求 (裝置端) |
資料流程 | 資料傳送至雲端、處理並傳回結果 | 每項要求傳送至雲端,並在處理後傳回 | 在裝置上處理資料及運用結果 |
典型應用實例 | 大規模文件分類、隔夜金融分析、定期預測性維護 | 產品推薦、聊天機器人、即時翻譯、即時詐欺警告 | 自動駕駛、智慧型相機、離線語音助理、工業品質控管 |
主要優點 | 適合處理大量非緊急工作,成本效益高 | 讓面向使用者的應用程式能立即回應 | 延遲時間極短、隱私權防護更佳、離線功能、頻寬費用降低 |
功能
批次推論
即時推論
在邊緣位置執行推論
主要位置
雲端 (資料中心)
雲端 (資料中心)
本機裝置 (例如手機、IoT 感應器、機器人)
延遲/回應速度
高 (處理批次後傳回預測結果)
極低 (每項要求延遲數毫秒至數秒)
極低 (近乎即時,無網路躍點)
資料量
大型資料集 (例如 TB 級資料)
個別事件/要求
個別事件/要求 (裝置端)
資料流程
資料傳送至雲端、處理並傳回結果
每項要求傳送至雲端,並在處理後傳回
在裝置上處理資料及運用結果
典型應用實例
大規模文件分類、隔夜金融分析、定期預測性維護
產品推薦、聊天機器人、即時翻譯、即時詐欺警告
自動駕駛、智慧型相機、離線語音助理、工業品質控管
主要優點
適合處理大量非緊急工作,成本效益高
讓面向使用者的應用程式能立即回應
延遲時間極短、隱私權防護更佳、離線功能、頻寬費用降低
AI 推論可實現更高程度的自動化、更明智的決策和創新應用,這項技術正徹底改變各行各業。企業開發人員可以在以下幾個重要領域,透過 AI 推論創造實際商業價值:
Google Cloud 提供全套工具和服務,協助開發人員和組織有效率地大規模建構、部署及管理 AI 推論工作負載。推論功能已深度整合至多項服務:
Google Cloud 產品 | 支援的推論方法 | 適用於下列情況 | 推論用途範例 |
所有推論類型 (雲端和混合式) | 可以在雲端或混合式環境中,完全掌控及靈活部署、管理和擴充自訂容器化推論服務,且通常可使用專屬硬體。 | 在複雜的工業系統部署專屬 AI 模型並調度資源,即時偵測異常情況。 | |
在雲端執行即時推論 (無伺服器) | 部署容器化模型時,可將資源調度率降至零,並依要求次數付費,適合用於變化程度高的間歇性工作負載,或是簡單的 Web 服務。 | 為網頁應用程式提供中小型模型,以因應流量大幅變動的情況,確保符合成本效益。 | |
在雲端執行即時和批次推論 | 提供靈活且效能出色的加速功能,適合用於各種 AI 模型和架構。 | 迅速處理高解析度圖像來輔助醫療診斷,或是加快建構複雜財務模型的速度。 | |
在雲端執行批次推論 (資料倉儲) | 直接使用 SQL 對資料倉儲中的現有資料執行推論,完全不需要移動資料。 | 直接在 BigQuery 根據顧客關係管理資料預測顧客流失率。 | |
在雲端執行即時推論 (特定工作) | 輕鬆將視覺、語言和語音等方面的進階 AI 功能嵌入應用程式,不必另外建構或訓練任何模型。 | 即時自動翻譯與顧客的即時通訊訊息,或是剖析社群媒體貼文的情緒。 | |
在雲端執行即時和批次推論 (大型模型) | 提供複雜的超大型深度學習模型 (尤其是大型語言模型 (LLM)) 時,能達成最佳的執行效能和成本效益。 | 引導先進的生成式 AI 聊天機器人即時提供回覆。 | |
邊緣解決方案 (例如 Coral、GDC Edge) | 在邊緣位置執行推論 | 直接在裝置上執行模型,延遲時間極短、隱私權防護更佳,甚至還能使用離線功能。 | 即時識別智慧型攝影機拍到的物體,不必將影片傳送到雲端。 |
準備資料並在雲端執行批次推論 | 有效處理及準備大量資料,大規模執行批次推論工作。 | 預先處理 PB 規模的感應器資料,再提供給模型來執行預測性維護作業。 |
Google Cloud 產品
支援的推論方法
適用於下列情況
推論用途範例
所有推論類型 (雲端和混合式)
可以在雲端或混合式環境中,完全掌控及靈活部署、管理和擴充自訂容器化推論服務,且通常可使用專屬硬體。
在複雜的工業系統部署專屬 AI 模型並調度資源,即時偵測異常情況。
在雲端執行即時推論 (無伺服器)
部署容器化模型時,可將資源調度率降至零,並依要求次數付費,適合用於變化程度高的間歇性工作負載,或是簡單的 Web 服務。
為網頁應用程式提供中小型模型,以因應流量大幅變動的情況,確保符合成本效益。
在雲端執行即時和批次推論
提供靈活且效能出色的加速功能,適合用於各種 AI 模型和架構。
迅速處理高解析度圖像來輔助醫療診斷,或是加快建構複雜財務模型的速度。
在雲端執行批次推論 (資料倉儲)
直接使用 SQL 對資料倉儲中的現有資料執行推論,完全不需要移動資料。
直接在 BigQuery 根據顧客關係管理資料預測顧客流失率。
在雲端執行即時推論 (特定工作)
輕鬆將視覺、語言和語音等方面的進階 AI 功能嵌入應用程式,不必另外建構或訓練任何模型。
即時自動翻譯與顧客的即時通訊訊息,或是剖析社群媒體貼文的情緒。
在雲端執行即時和批次推論 (大型模型)
提供複雜的超大型深度學習模型 (尤其是大型語言模型 (LLM)) 時,能達成最佳的執行效能和成本效益。
引導先進的生成式 AI 聊天機器人即時提供回覆。
Google Cloud 推出統合式 AI 平台 Vertex AI,集結一系列完善工具,幫助使用者建構、部署及管理機器學習模型,是滿足大部分雲端式推論需求的首選服務。
Vertex AI 功能 | 推論方法 | 適用於下列情況 | 推論用途範例 |
在雲端執行即時推論 | 部署自訂模型,以低延遲的方式從代管端點取得即時預測結果。 | 立即向瀏覽網站的使用者推薦產品。 | |
在雲端執行批次推論 | 以符合成本效益的方式處理大型資料集,無須取得即時結果。 | 分析昨天所有的顧客交易資料,從中偵測詐欺模式。 | |
在雲端執行即時和批次推論 (生成式 AI) | 迅速使用強大的預先訓練模型,處理常見工作或生成式 AI 工作,無須從頭開始訓練。 | 生成行銷文案、歸納長篇文件重點,或建立程式碼片段。 |
Vertex AI 功能
推論方法
適用於下列情況
推論用途範例
在雲端執行即時和批次推論 (生成式 AI)
迅速使用強大的預先訓練模型,處理常見工作或生成式 AI 工作,無須從頭開始訓練。
生成行銷文案、歸納長篇文件重點,或建立程式碼片段。
準備好精進 AI 推論技能了嗎?歡迎參考下列實用資源,進一步瞭解相關資訊並開始使用: