本頁面由 Cloud Translation API 翻譯而成。

AI 和機器學習觀點：效能最佳化

Last reviewed 2024-10-11 UTC

這份文件位於架構完善架構：AI 和機器學習觀點，概述了相關原則和建議，可協助您在 Google Cloud上提升 AI 和機器學習工作負載的效能。本文中的建議與 Google Cloud 架構完善架構的效能最佳化支柱一致。

AI 和機器學習系統可為貴機構提供全新的自動化和決策功能。這些系統的成效會直接影響收益、成本和顧客滿意度等業務驅動因素。如要充分發揮 AI 和機器學習系統的潛力，您需要根據業務目標和技術需求，盡可能提升系統效能。效能最佳化程序通常需要進行取捨。舉例來說，如果設計選擇能提供所需效能，但會導致成本增加，本文中的最佳化建議以成效為優先考量，而非費用等其他因素。

如要提升 AI 和 ML 效能，您需要針對模型架構、參數和訓練策略等因素做出決策。做出這些決策時，請考量 AI 和機器學習系統的整個生命週期，以及部署環境。舉例來說，大型 LLM 在巨量訓練基礎架構中可能效能極佳，但在容量受限的環境 (例如行動裝置) 中，大型模型可能無法發揮良好效能。

將業務目標轉換為成效目標

如要做出可提升效能的架構決策，請先明確設定業務目標。設計 AI 和機器學習系統時，請確保技術效能符合業務目標和優先事項的需求。技術團隊必須瞭解成效目標與業務目標之間的對應關係。

請參考下列建議：

將業務目標轉化為技術需求：將 AI 和機器學習系統的業務目標轉化為具體的技術效能需求，並評估未達到這些需求所造成的影響。舉例來說，如果應用程式會預測客戶流失，機器學習模型應在準確率和喚回率等標準指標方面表現良好，且應用程式應符合低延遲等運算需求。
在模型生命週期的所有階段監控成效：在模型部署後的實驗和訓練期間，監控主要成效指標 (KPI)，並觀察與業務目標的任何偏差。
自動評估，確保可重現且標準化：有了標準化且可比較的實驗評估平台和方法，工程師就能加快提升成效的速度。

執行並追蹤頻繁的實驗

如要將創新和創意轉化為成效提升，您需要支援實驗的文化和平台。AI 和機器學習技術不斷快速發展，因此效能提升是持續進行的過程。為維持快速的疊代程序，您需要將實驗空間與訓練和服務平台分開。標準化且完善的實驗程序非常重要。

請參考下列建議：

建構實驗環境：如要提升效能，需要專用、功能強大且具互動性的環境，支援機器學習管道的實驗和協作開發。
將實驗融入文化：在任何正式部署前執行實驗。反覆發布新版本，並持續收集效能資料。嘗試不同的資料類型、特徵轉換、演算法和超參數。

建構及自動化訓練和服務服務

訓練及提供 AI 模型是 AI 服務的核心元件。您需要穩固的平台和做法，才能快速可靠地建立、部署及提供 AI 模型。投入時間和精力，為核心 AI 訓練和服務工作建立基礎平台。這些基礎平台有助於減少團隊的時間和精力，並從中長期來看提升輸出內容的品質。

請參考下列建議：

使用訓練服務的 AI 專用元件：這類元件包括高效能運算和 MLOps 元件，例如特徵儲存庫、模型登錄、中繼資料儲存庫和模型效能評估服務。
使用預測服務的 AI 專用元件：這類元件提供高效能且可擴充的資源、支援特徵監控，並可監控模型成效。如要避免及管理效能下降問題，請實作可靠的部署和回溯策略。

根據效能需求選擇設計

選擇改善效能的設計時，請仔細評估這些選擇是否符合業務需求，或是否會造成浪費和適得其反。如要選擇合適的基礎架構、模型或設定，請找出效能瓶頸，並評估這些瓶頸與效能指標的關聯。舉例來說，即使使用效能極高的 GPU 加速器，訓練工作仍可能因儲存層的資料 I/O 問題，或模型本身的效能限制而出現效能瓶頸。

請參考下列建議：

根據效能目標調整硬體用量：如要訓練及提供符合效能需求的機器學習模型，您必須在運算、儲存空間和網路層級調整基礎架構。您必須評估並瞭解影響成效目標的變數。訓練和推論的變數不同。
著重於工作負載的特定需求：將效能最佳化工作重點放在 AI 和機器學習工作負載的獨特需求。仰賴代管服務的底層基礎架構效能。
選擇合適的訓練策略：我們提供多種預先訓練和基礎模型，且經常發布更多這類模型。選擇可為工作提供最佳成效的訓練策略。決定是否要建構自己的模型、根據資料調整預先訓練的模型，或是使用預先訓練的模型 API。
瞭解成效最佳化策略可能會出現邊際效益遞減的情況：如果特定成效最佳化策略無法提供可評估的業務價值增幅，請停止採用該策略。

將連結成效指標與設計和設定選項建立關聯

如要創新、排解問題及調查效能問題，請建立設計選擇與效能結果之間的明確連結。除了實驗之外，您還必須可靠地記錄資產、部署作業、模型輸出內容，以及產生輸出內容的設定和輸入內容的沿革。

請參考下列建議：

建立資料和模型沿襲系統：所有已部署的資產及其成效指標，都必須連結回資料、設定、程式碼，以及導致部署系統的選擇。此外，模型輸出內容必須連結至特定模型版本，以及輸出內容的產生方式。
使用可解釋性工具提升模型成效：採用並標準化模型探索和可解釋性工具與基準。這些工具可協助機器學習工程師瞭解模型行為、提升效能或移除偏誤。

貢獻者

作者：

Benjamin Sadik | AI 和機器學習專員客戶工程師
Filipe Gracio 博士 | 客戶工程師、AI/機器學習專家

其他貢獻者：

Kumar Dhanagopal | 跨產品解決方案開發人員
Marwan Al Shawi | 合作夥伴客戶工程師
Zach Seils | 網路專員

成本最佳化