什麼是 AI 推論?

AI 推論是人工智慧的「執行」階段。訓練好的模型會在此時停止學習並開始運作,將所學內容轉化為實際成果。

訓練就像是在教導 AI 新技能,而推論則是 AI 實際運用這項技能來完成工作。AI 會接收新資料 (如相片或文字) 並立即產生輸出內容,例如預測結果、生成相片或做出決定。這就是 AI 的商業價值所在。對於使用 AI 建構解決方案的人來說,瞭解如何以快速、可擴充且符合成本效益的方式進行推論,是打造成功解決方案的關鍵。舉例來說,企業開發人員可以在 Google Kubernetes Engine (GKE) 上使用 AI 推論,建構可即時分析顧客購買行為的系統,並在結帳時提供專屬折扣,進而提高銷售量和顧客滿意度。

「AI 訓練」、「微調」、「推論」和「提供」的差異

完整的 AI 生命週期涵蓋資料收集,到長期監控等所有環節,而模型從建立到執行的核心歷程,則有三個主要階段。前兩個階段的重點在於學習,最後一個階段是發揮所學。

  • AI 訓練是基礎學習階段。這項程序需要大量運算資源,模型會分析龐大的資料集,從中學習模式和關係。這個階段的目標是建立準確且知識豐富的模型,需要強大的硬體加速器 (例如 GPU 和 TPU),且可能耗費數小時到數週的時間。
  • AI 微調是快速訓練模型的方式,以較小的專用資料集,調整強大的預先訓練模型,以便運用於特定工作。相較於從頭開始訓練模型,微調方式可大幅節省時間和資源。
  • AI 推論為執行階段,這個程序會使用經過訓練和微調的模型,針對新的「未知」資料快速做出預測。雖然一項預測的運算需求遠低於訓練程序,但要即時提供數百萬則預測,仍需要經全面最佳化且可擴充的基礎架構。
  • AI 提供是指部署及管理模型,以便用於推論的程序。這個程序通常需要封裝模型、設定 API 端點,以及管理基礎架構來處理要求。

下表概略說明主要差異:

AI 訓練

AI 微調

AI 推論

AI 提供

目標

從頭開始建構新模型。

根據特定工作調整預先訓練模型。

使用訓練好的模型進行預測。

部署及管理模型,以便處理推論要求。

流程

從大型資料集中反覆學習。

以較小的資料集微調現有模型。

對新資料執行一次快速的「前向傳播」。


封裝模型並以 API 形式公開

資料

已加上標籤的大型歷來資料集。

較小的特定工作資料集。

即時且未加標籤的實際資料。

不適用


業務重點

模型準確率和功能。

效率與自訂功能。

速度 (延遲時間)、規模和成本效益。

推論端點的可靠性、擴充性和易管理性。

AI 訓練

AI 微調

AI 推論

AI 提供

目標

從頭開始建構新模型。

根據特定工作調整預先訓練模型。

使用訓練好的模型進行預測。

部署及管理模型,以便處理推論要求。

流程

從大型資料集中反覆學習。

以較小的資料集微調現有模型。

對新資料執行一次快速的「前向傳播」。


封裝模型並以 API 形式公開

資料

已加上標籤的大型歷來資料集。

較小的特定工作資料集。

即時且未加標籤的實際資料。

不適用


業務重點

模型準確率和功能。

效率與自訂功能。

速度 (延遲時間)、規模和成本效益。

推論端點的可靠性、擴充性和易管理性。

AI 推論如何運作?

AI 推論的核心,是將新資料轉換為實用的輸出內容,過程包含三個步驟。

以下用「AI 模型辨識相片中的物件」來簡單說明。

  1. 準備輸入資料:首先,使用者會提供新資料,例如您剛才提交的相片。這張相片會立即經過預先處理,以利模型使用,例如將相片尺寸調整為模型訓練時使用的確切尺寸。
  2. 執行模型:接著,AI 模型會分析準備好的相片,尋找訓練期間學到的模式,例如顏色、形狀和紋理。這項快速分析作業稱為「前向傳播」,並且是唯讀步驟,模型會應用所學知識,但不會學習任何新內容。
  3. 生成輸出內容:模型會生成實用的結果;在相片分析中,這可能是機率分數 (例如圖片有 95% 的機率包含「狗」)。接著,系統會將輸出內容傳送至應用程式,供使用者查看。

雖然單次推論速度很快,但模型可能要即時服務數百萬名使用者,這時延遲時間和成本就會增加,且需要經過最佳化的硬體。AI 專用的圖形處理器 (GPU) 和 Google 的 Tensor Processing Unit 專門用來高效處理這些工作,並由 Google Kubernetes Engine 自動調度管理,可提高處理量及降低延遲。

AI 推論類型

雲端推論:結合強大功能與規模

這是最常見的做法,即在資料中心的強大遠端伺服器上執行推論。雲端具備極佳的擴充性和運算資源,非常適合處理龐大的資料集和複雜模型。雲端推論通常有兩種主要模式:

  • 即時 (線上) 推論:在收到個別要求的數毫秒內立即處理。對於需要即時回饋的互動式應用程式而言,這點至關重要。
  • 批次 (離線) 推論:可同時處理大量資料,通常用於不需要立即回應的情況。對於定期分析或排程工作來說,這是極具成本效益的做法。

邊緣推論:兼顧速度與隱私

這指的是在生成資料的裝置上直接執行推論,例如智慧型手機或工業感應器。邊緣推論可避免資料往返雲端,因此具備獨特優勢:

  • 降低延遲:回應速度近乎即時,對於自動駕駛或即時製造檢查等應用程式至關重要。
  • 強化隱私:敏感資料 (例如醫療掃描結果、個人相片、視訊畫面) 可在裝置上處理,完全不必傳送至雲端。
  • 降低頻寬成本:在本地處理資料可大幅減少上傳和下載的資料量。
  • 離線功能:即使沒有網路連線,應用程式仍可繼續運作,確保在偏遠或斷線環境中也能持續作業。

透過 Google Cloud 解決業務難題

新客戶可以獲得價值 $300 美元的免費抵免額,盡情試用各項 Google Cloud 功能。

AI 推論比較

為協助您根據自身需求選擇最佳做法,以下簡要比較各類 AI 推論技術的主要特色和用途:

功能

批次推論

即時推論

在邊緣位置執行推論

主要位置

雲端 (資料中心)

雲端 (資料中心)

本機裝置 (例如手機、IoT 感應器、機器人)

延遲/回應速度

高 (處理批次後傳回預測結果)


極低 (每項要求延遲數毫秒至數秒)

極低 (近乎即時,無網路躍點)

資料量

大型資料集 (例如 TB 級資料)

個別事件/要求

個別事件/要求 (裝置端)

資料流程

資料傳送至雲端、處理並傳回結果

每項要求傳送至雲端,並在處理後傳回

在裝置上處理資料及運用結果

典型應用實例

大規模文件分類、隔夜金融分析、定期預測性維護

產品推薦、聊天機器人、即時翻譯、即時詐欺警告

自動駕駛、智慧型相機、離線語音助理、工業品質控管

主要優點

適合處理大量非緊急工作,成本效益高

讓面向使用者的應用程式能立即回應

延遲時間極短、隱私權防護更佳、離線功能、頻寬費用降低

功能

批次推論

即時推論

在邊緣位置執行推論

主要位置

雲端 (資料中心)

雲端 (資料中心)

本機裝置 (例如手機、IoT 感應器、機器人)

延遲/回應速度

高 (處理批次後傳回預測結果)


極低 (每項要求延遲數毫秒至數秒)

極低 (近乎即時,無網路躍點)

資料量

大型資料集 (例如 TB 級資料)

個別事件/要求

個別事件/要求 (裝置端)

資料流程

資料傳送至雲端、處理並傳回結果

每項要求傳送至雲端,並在處理後傳回

在裝置上處理資料及運用結果

典型應用實例

大規模文件分類、隔夜金融分析、定期預測性維護

產品推薦、聊天機器人、即時翻譯、即時詐欺警告

自動駕駛、智慧型相機、離線語音助理、工業品質控管

主要優點

適合處理大量非緊急工作,成本效益高

讓面向使用者的應用程式能立即回應

延遲時間極短、隱私權防護更佳、離線功能、頻寬費用降低

開發人員應用實例

AI 推論可實現更高程度的自動化、更明智的決策和創新應用,這項技術正徹底改變各行各業。企業開發人員可以在以下幾個重要領域,透過 AI 推論創造實際商業價值:

  • 立即分析金融交易、使用者行為或系統記錄,找出並標記可疑活動,協助業者主動介入並防範詐欺、洗錢或安全漏洞。
  • 範例:信用卡公司使用推論技術,在幾毫秒內授權交易,迅速封鎖潛在的詐欺購物行為。


  • 根據使用者過去的互動記錄和即時情境預測偏好,提供高度個人化的體驗。
  • 範例:電子商務平台可使用推論功能向購物者推薦產品;串流服務也能根據觀看習慣推薦電影,進而提高互動度和銷售量。


  • 部署 AI 模型來自動執行例行事務、提供智慧輔助功能,或大規模與使用者互動。
  • 範例:客服機構使用 AI 服務專員處理常見問題,讓真人專員能專心處理複雜問題;工廠使用 AI 自動檢查生產線上的產品品質。


  • 分析機器、基礎架構或 IT 系統的感應器資料,在問題發生前預測故障和需求,以及最佳化資源配置。
  • 範例:製造商可運用推論技術預測設備何時需要維修,盡量縮短停機時間及延長資產壽命;物流公司則可根據即時交通預測資料,找出最佳運送路線。


  • 運用 AI 產生新內容 (文字、程式碼、圖片、音訊),或深入瞭解現有的非結構化資料。
  • 範例:開發人員使用程式碼生成模型加速軟體開發;行銷團隊使用 AI 彙整大量文件的重點,撰寫出個人化廣告文案。
您希望解決什麼問題?
What you'll get:
逐步指南
參考架構
可用的預先建構解決方案
這項服務以 Vertex AI 建構,必須年滿 18 歲才能使用。請勿輸入個人資訊,或是敏感、機密的內容。

Google Cloud 可提供哪些協助

Google Cloud 提供全套工具和服務,協助開發人員和組織有效率地大規模建構、部署及管理 AI 推論工作負載。推論功能已深度整合至多項服務:

相關產品和解決方案

Google Cloud 產品

支援的推論方法

適用於下列情況

推論用途範例

所有推論類型 (雲端和混合式)

可以在雲端或混合式環境中,完全掌控及靈活部署、管理和擴充自訂容器化推論服務,且通常可使用專屬硬體。

在複雜的工業系統部署專屬 AI 模型並調度資源,即時偵測異常情況。

在雲端執行即時推論 (無伺服器)

部署容器化模型時,可將資源調度率降至零,並依要求次數付費,適合用於變化程度高的間歇性工作負載,或是簡單的 Web 服務。


為網頁應用程式提供中小型模型,以因應流量大幅變動的情況,確保符合成本效益。


在雲端執行即時和批次推論

提供靈活且效能出色的加速功能,適合用於各種 AI 模型和架構。

迅速處理高解析度圖像來輔助醫療診斷,或是加快建構複雜財務模型的速度。


在雲端執行批次推論 (資料倉儲)

直接使用 SQL 對資料倉儲中的現有資料執行推論,完全不需要移動資料。


直接在 BigQuery 根據顧客關係管理資料預測顧客流失率。


在雲端執行即時推論 (特定工作)

輕鬆將視覺、語言和語音等方面的進階 AI 功能嵌入應用程式,不必另外建構或訓練任何模型。

即時自動翻譯與顧客的即時通訊訊息,或是剖析社群媒體貼文的情緒。


在雲端執行即時和批次推論 (大型模型)

提供複雜的超大型深度學習模型 (尤其是大型語言模型 (LLM)) 時,能達成最佳的執行效能和成本效益。

引導先進的生成式 AI 聊天機器人即時提供回覆。


邊緣解決方案 (例如 Coral、GDC Edge)


在邊緣位置執行推論

直接在裝置上執行模型,延遲時間極短、隱私權防護更佳,甚至還能使用離線功能。


即時識別智慧型攝影機拍到的物體,不必將影片傳送到雲端。


準備資料並在雲端執行批次推論

有效處理及準備大量資料,大規模執行批次推論工作。


預先處理 PB 規模的感應器資料,再提供給模型來執行預測性維護作業。

Google Cloud 產品

支援的推論方法

適用於下列情況

推論用途範例

所有推論類型 (雲端和混合式)

可以在雲端或混合式環境中,完全掌控及靈活部署、管理和擴充自訂容器化推論服務,且通常可使用專屬硬體。

在複雜的工業系統部署專屬 AI 模型並調度資源,即時偵測異常情況。

在雲端執行即時推論 (無伺服器)

部署容器化模型時,可將資源調度率降至零,並依要求次數付費,適合用於變化程度高的間歇性工作負載,或是簡單的 Web 服務。


為網頁應用程式提供中小型模型,以因應流量大幅變動的情況,確保符合成本效益。


在雲端執行即時和批次推論

提供靈活且效能出色的加速功能,適合用於各種 AI 模型和架構。

迅速處理高解析度圖像來輔助醫療診斷,或是加快建構複雜財務模型的速度。


在雲端執行批次推論 (資料倉儲)

直接使用 SQL 對資料倉儲中的現有資料執行推論,完全不需要移動資料。


直接在 BigQuery 根據顧客關係管理資料預測顧客流失率。


在雲端執行即時推論 (特定工作)

輕鬆將視覺、語言和語音等方面的進階 AI 功能嵌入應用程式,不必另外建構或訓練任何模型。

即時自動翻譯與顧客的即時通訊訊息,或是剖析社群媒體貼文的情緒。


在雲端執行即時和批次推論 (大型模型)

提供複雜的超大型深度學習模型 (尤其是大型語言模型 (LLM)) 時,能達成最佳的執行效能和成本效益。

引導先進的生成式 AI 聊天機器人即時提供回覆。


邊緣解決方案 (例如 Coral、GDC Edge)


在邊緣位置執行推論

直接在裝置上執行模型,延遲時間極短、隱私權防護更佳,甚至還能使用離線功能。


即時識別智慧型攝影機拍到的物體,不必將影片傳送到雲端。


準備資料並在雲端執行批次推論

有效處理及準備大量資料,大規模執行批次推論工作。


預先處理 PB 規模的感應器資料,再提供給模型來執行預測性維護作業。

Vertex AI

Google Cloud 推出統合式 AI 平台 Vertex AI,集結一系列完善工具,幫助使用者建構、部署及管理機器學習模型,是滿足大部分雲端式推論需求的首選服務。

Vertex AI 功能

推論方法

適用於下列情況

推論用途範例

在雲端執行即時推論

部署自訂模型,以低延遲的方式從代管端點取得即時預測結果。

立即向瀏覽網站的使用者推薦產品。



在雲端執行批次推論

以符合成本效益的方式處理大型資料集,無須取得即時結果。

分析昨天所有的顧客交易資料,從中偵測詐欺模式。

在雲端執行即時和批次推論 (生成式 AI)

迅速使用強大的預先訓練模型,處理常見工作或生成式 AI 工作,無須從頭開始訓練。

生成行銷文案、歸納長篇文件重點,或建立程式碼片段。


Vertex AI 功能

推論方法

適用於下列情況

推論用途範例

在雲端執行即時推論

部署自訂模型,以低延遲的方式從代管端點取得即時預測結果。

立即向瀏覽網站的使用者推薦產品。



在雲端執行批次推論

以符合成本效益的方式處理大型資料集,無須取得即時結果。

分析昨天所有的顧客交易資料,從中偵測詐欺模式。

在雲端執行即時和批次推論 (生成式 AI)

迅速使用強大的預先訓練模型,處理常見工作或生成式 AI 工作,無須從頭開始訓練。

生成行銷文案、歸納長篇文件重點,或建立程式碼片段。


瀏覽 AI 推論資源

準備好精進 AI 推論技能了嗎?歡迎參考下列實用資源,進一步瞭解相關資訊並開始使用:

展開下一步行動

運用價值 $300 美元的免費抵免額和超過 20 項一律免費的產品,開始在 Google Cloud 中建構產品與服務。