聯合學習可徹底改變 AI 模型的建構方式。聯合學習並非將大量機密資料收集到單一中心位置,而是直接在資料來源處進行訓練。這種去中心化做法不僅能提供完善的隱私權保護,還能協助各行各業開創新的合作機會,並改善模型。
聯合學習 (FL) 是一種機器學習方法,可使用多個分散式邊緣裝置或伺服器的資料,訓練共用的 AI 模型。這個過程不需要交換本機資料樣本。這就像是協同學習的程序,個別參與者在不透露私人資訊的情況下,共同為達成目標努力。
這與傳統機器學習的做法截然不同,後者通常需要將所有資料彙整至中央存放區,才能訓練模型。集中式做法雖然大幅推動 AI 進展,但也可能引發資料隱私權、安全性和 GDPR 等法規遵循方面的疑慮。聯合學習技術則提供另一種隱私權保護的選擇,將機密資料保留在使用者裝置或組織的安全環境中。
如上所述,聯合學習與傳統集中式機器學習的主要差異,在於訓練期間資料的存放位置。
集中式機器學習技術已相當成熟,且通常較容易實作,但聯合學習技術也越來越受歡迎,因為這項技術能從根本解決資料隱私權疑慮、降低頻寬需求,並可使用受法規或保密協議限制而無法存取的資料訓練模型。
聯合學習可因應各種需求。主要差異通常在於資料分布方式或參與者協作方式。以下詳細說明常見的類型:
聯合學習類型 | 資料重疊 | 主要差異 | 應用範例 |
水平聯合學習 | 特徵空間相同,但資料執行個體不同。 | 參與者共用相同的資料結構定義,但具備不同的樣本集。訓練作業會分散至這些樣本。 | 行動裝置鍵盤預測、智慧型裝置個人化,以及協作式垃圾訊息偵測。 |
垂直聯合學習 | 資料實例相同,特徵不同。 | 參與者共用相同的樣本 (例如:使用者、顧客),但這些樣本的特徵不同。 | 使用互補的資料來源同執行詐欺偵測 (結合金融和電子商務資料)、信用評分,以及提供個人化推薦。 |
聯合遷移學習 | 不同的特徵和樣本。 | 運用來源工作/領域的知識,提升相關但不同的目標工作/領域成效。通常是參與者在聯合環境中,根據自己的本機資料調整或微調預先訓練的模型。 | 根據特定醫院的病患資料調整一般醫療模型,或是將以大型資料集訓練的模型應用於特定產業。 |
聯合學習類型
資料重疊
主要差異
應用範例
水平聯合學習
特徵空間相同,但資料執行個體不同。
參與者共用相同的資料結構定義,但具備不同的樣本集。訓練作業會分散至這些樣本。
行動裝置鍵盤預測、智慧型裝置個人化,以及協作式垃圾訊息偵測。
垂直聯合學習
資料實例相同,特徵不同。
參與者共用相同的樣本 (例如:使用者、顧客),但這些樣本的特徵不同。
使用互補的資料來源同執行詐欺偵測 (結合金融和電子商務資料)、信用評分,以及提供個人化推薦。
聯合遷移學習
不同的特徵和樣本。
運用來源工作/領域的知識,提升相關但不同的目標工作/領域成效。通常是參與者在聯合環境中,根據自己的本機資料調整或微調預先訓練的模型。
根據特定醫院的病患資料調整一般醫療模型,或是將以大型資料集訓練的模型應用於特定產業。
聯合學習透過反覆運算程序運作,其中包含一個中央協調單元 (通常是伺服器) 和多個參與的用戶端 (裝置或機構)。一般工作流程可分為以下幾個主要步驟:
中央伺服器會先初始化全域機器學習模型,這個模型是協作式訓練的起點。接著,伺服器會將此全域模型分配給所選的一組參與用戶端裝置。
每個所選用戶端裝置都會收到全域模型。用戶端會使用自己的本機資料訓練模型,並根據本機資料集中的模式和資訊更新模型參數。最重要的是,原始資料在整個步驟中都會保留在用戶端裝置上,絕不會傳送至伺服器。
完成本機訓練後,各用戶端會將更新的模型參數 (例如梯度或權重) 傳回至中央伺服器。這些更新項目代表模型從本機資料學到的內容,但不會公開資料本身。
中央伺服器會接收多個用戶端傳送的模型更新內容。系統接著會匯總這些更新,做法通常為取平均值 (常見方法是聯合平均),以便建立經改良的新版全球模型。這個匯總的模型,能夠從所有參與用戶端的集體學習成果中獲得優勢。
接著,伺服器會將新更新的全域模型傳回給一組新的 (或相同的) 用戶端,執行另一輪本機訓練。這個循環會重複多次,持續精進全域模型,直到達到所需的準確率或收斂程度為止。
典型的聯合學習系統包含多個緊密互連的要素:
這些是持有資料並執行本機模型訓練的個別裝置或機構。用戶端種類多元,包括行動電話、物聯網裝置、醫院及金融機構等,負責在本機執行模型並生成參數更新。
中央伺服器會負責協調聯合學習程序,包括初始化並分配全域模型、收集用戶端模型更新、匯總更新來調整全域模型,然後重新分配更新的模型。中央伺服器不會直接存取客戶的原始資料。
這項通訊協定定義用戶端和伺服器交換資訊的方式,資訊主要包括模型參數和更新內容。有效率且安全的通訊協定至關重要,尤其是在用戶端數量龐大且網路狀況不一的情境。
中央伺服器會使用這種方法,合併從各個用戶端收到的模型更新內容。聯合平均等演算法通常用於計算權重或梯度平均值,以建立一個改良版全域模型。
聯合學習可帶來許多優勢,尤其是主要考量為資料隱私權、安全性和分散式資料的情境。
強化資料隱私權和安全性
這可以說是最大的優點。聯合學習可將資料保留於用戶端裝置,大幅降低私密資訊在傳輸或儲存期間外洩的風險。這項技術可強化使用者隱私,協助機構遵守嚴格的資料保護法規。
存取多種資料
聯合學習可讓模型從各種實際資料來源學習,這些資料來源原本可能各自獨立或無法存取。與使用單一集中式資料集訓練的模型相比,這類模型能以更多樣的使用者行為、條件或環境訓練,因此更加穩健、可一般化且準確。
降低通訊成本
相較於傳輸大量原始資料至中央伺服器,傳輸模型更新 (通常比原始資料集小) 更有效率,成本也較低,尤其是在涉及許多邊緣裝置,或裝置分散於不同地理位置的情境。
協作模型改良
聯合學習讓機構或個人能共同建構及改良 AI 模型,不必分享專屬或機密資料。這種做法有助於打造更具包容性的 AI 開發生態系統,並匯集不同來源的情報。
簡化法規遵循工作
聯合學習技術的設計本質是將資料保留在本機,能有效協助企業遵守複雜的資料隱私權法規,例如 GDPR、CCPA 和 HIPAA 等。這種設計會盡量減少資料移動和集中化,有助於機構確保符合資料落地要求,並減輕處理私密個人或健康資訊時的法規遵循負擔。
維護資料主權
這種做法尊重資料擁有和控管權,參與的機構或個人保有資料資產完整權限。即使向集體模型提供原始資料,這些資料仍會安全地留在原始環境中,進而維持資料治理及協作者之間的信任。
雖然聯合學習有許多優點,但也有一些獨特的潛在難題,需要謹慎考量:
聯合學習技術可讓使用者在各領域中,建構複雜且能保護隱私權的應用程式。聯合學習的用途包括:
使用者可運用聯合學習技術,打造能從使用者資料中學習的行動應用程式,同時兼顧隱私權。這對鍵盤預測文字 (例如 Gboard)、建議下一個字詞、個人化推薦內容,以及裝置端語音辨識等功能至關重要。開發人員可直接在使用者裝置上訓練模型,根據個人互動模式調整應用程式功能和使用者體驗,同時確保機密個人資料留在裝置中且受到保護,並遵循 GDPR 和 HIPAA 等法規。
對於使用物聯網 (IoT) 和工業物聯網 (IIoT) 裝置的企業,聯合學習是在邊緣位置嵌入情報的絕佳方式。這項技術可應用於多種領域,例如工業設備的預測性維護、感應器網路的異常偵測,以及智慧城市的資源使用最佳化。模型可直接於邊緣裝置上,使用分散式感應器和機器產生的資料進行訓練。這種做法可減少溝通負擔、取得即時洞察資訊,並將機密營運資料保留在安全的工廠或裝置範圍內,確保專屬資訊不外洩。
使用者可以運用聯合學習技術,為需要從分散式機密資料集取得洞察資訊的企業,建構穩健的資料分析平台。這項技術可確保分析模型在訓練和執行時不必集中資料,大幅提升 GDPR、CCPA 和 HIPAA 等法規的遵循成效。此機制讓機構能跨部門或實體取得寶貴的商業智慧、找出趨勢或建構預測模型,同時維持嚴格的資料治理與安全協定。
聯合學習可用於建構更具韌性且有效的網路安全解決方案。模型可透過多個端點 (例如電腦、伺服器和行動裝置) 訓練,以便偵測惡意軟體、找出網路入侵行為,或標記可疑活動,且不會從個別系統竊取機密資料。這種分散式訓練方法,可從更多元的網路行為和本機安全事件中學習,進而更全面地偵測威脅,同時保護個別使用者或系統的隱私權。
為了簡化聯合學習的使用方式,市面上出現了許多開放原始碼和商業框架。這些工具可協助開發人員處理不同裝置的訓練作業、裝置間的通訊,以及保護資料的私密性。
聯合學習領域正迅速發展。目前,研究重點在於解決該領域面臨的難題,例如提高對資料和系統異質性的強健性、開發更精密的隱私保護技術、建立更有效率的通訊協定,以及實現真正個人化的聯合學習體驗。隨著 AI 與敏感領域更加緊密互連,聯合學習將扮演更重要的角色,實現安全且私密的協作式情報作業。雖然目前許多聯合學習系統均由中央伺服器協調,但未來可能會開發出更去中心化,或點對點的聯合學習方法,進而提升穩健性、擴充性,並消除單點故障。
Google Cloud 提供穩健的環境和專用工具,有效支援聯合學習計畫,包括建構聯合學習系統,以及在自家產品中運用這項技術。