聯合學習：定義與運作方式指南

聯合學習可徹底改變 AI 模型的建構方式。聯合學習並非將大量機密資料收集到單一中心位置，而是直接在資料來源處進行訓練。這種去中心化做法不僅能提供完善的隱私權保護，還能協助各行各業開創新的合作機會，並改善模型。

什麼是聯合學習？

聯合學習 (FL) 是一種機器學習方法，可使用多個分散式邊緣裝置或伺服器的資料，訓練共用的 AI 模型。這個過程不需要交換本機資料樣本。這就像是協同學習的程序，個別參與者在不透露私人資訊的情況下，共同為達成目標努力。

這與傳統機器學習的做法截然不同，後者通常需要將所有資料彙整至中央存放區，才能訓練模型。集中式做法雖然大幅推動 AI 進展，但也可能引發資料隱私權、安全性和 GDPR 等法規遵循方面的疑慮。聯合學習技術則提供另一種隱私權保護的選擇，將機密資料保留在使用者裝置或組織的安全環境中。

聯合學習與機器學習的比較

如上所述，聯合學習與傳統集中式機器學習的主要差異，在於訓練期間資料的存放位置。

傳統機器學習 (集中式)：從各種來源收集資料，並匯集到雲端伺服器或資料中心等單一位置。接著，機器學習模型會直接使用這個彙整資料集進行訓練。這種做法的優點包括資料存取方式簡單、開發作業較容易，但如果中央資料存放區遭到入侵，可能會造成嚴重的隱私權風險和安全漏洞。
聯合學習 (分散式)：會將機器學習模型傳送至資料，參與者 (用戶端) 則使用本機資料訓練模型，不必移動資料。接著，只有模型更新 (例如學得的權重或梯度) 會傳回中央伺服器進行匯總。這個程序可讓全域模型從多元的資料集學習，同時不會存取任何單一參與者的原始機密資訊。

集中式機器學習技術已相當成熟，且通常較容易實作，但聯合學習技術也越來越受歡迎，因為這項技術能從根本解決資料隱私權疑慮、降低頻寬需求，並可使用受法規或保密協議限制而無法存取的資料訓練模型。

不同類型的聯合學習

聯合學習可因應各種需求。主要差異通常在於資料分布方式或參與者協作方式。以下詳細說明常見的類型：

聯合學習類型	資料重疊	主要差異	應用範例
水平聯合學習	特徵空間相同，但資料執行個體不同。	參與者共用相同的資料結構定義，但具備不同的樣本集。訓練作業會分散至這些樣本。	行動裝置鍵盤預測、智慧型裝置個人化，以及協作式垃圾訊息偵測。
垂直聯合學習	資料實例相同，特徵不同。	參與者共用相同的樣本 (例如：使用者、顧客)，但這些樣本的特徵不同。	使用互補的資料來源同執行詐欺偵測　（結合金融和電子商務資料）、信用評分，以及提供個人化推薦。
聯合遷移學習	不同的特徵和樣本。	運用來源工作/領域的知識，提升相關但不同的目標工作/領域成效。通常是參與者在聯合環境中，根據自己的本機資料調整或微調預先訓練的模型。	根據特定醫院的病患資料調整一般醫療模型，或是將以大型資料集訓練的模型應用於特定產業。

聯合學習類型

資料重疊

主要差異

應用範例

水平聯合學習

特徵空間相同，但資料執行個體不同。

參與者共用相同的資料結構定義，但具備不同的樣本集。訓練作業會分散至這些樣本。

行動裝置鍵盤預測、智慧型裝置個人化，以及協作式垃圾訊息偵測。

垂直聯合學習

資料實例相同，特徵不同。

參與者共用相同的樣本 (例如：使用者、顧客)，但這些樣本的特徵不同。

使用互補的資料來源同執行詐欺偵測　（結合金融和電子商務資料）、信用評分，以及提供個人化推薦。

聯合遷移學習

不同的特徵和樣本。

運用來源工作/領域的知識，提升相關但不同的目標工作/領域成效。通常是參與者在聯合環境中，根據自己的本機資料調整或微調預先訓練的模型。

根據特定醫院的病患資料調整一般醫療模型，或是將以大型資料集訓練的模型應用於特定產業。

聯合學習如何運作？

聯合學習透過反覆運算程序運作，其中包含一個中央協調單元 (通常是伺服器) 和多個參與的用戶端 (裝置或機構)。一般工作流程可分為以下幾個主要步驟：

1. 初始模型分布

中央伺服器會先初始化全域機器學習模型，這個模型是協作式訓練的起點。接著，伺服器會將此全域模型分配給所選的一組參與用戶端裝置。

2. 在本機訓練模型

每個所選用戶端裝置都會收到全域模型。用戶端會使用自己的本機資料訓練模型，並根據本機資料集中的模式和資訊更新模型參數。最重要的是，原始資料在整個步驟中都會保留在用戶端裝置上，絕不會傳送至伺服器。

3. 模型更新匯總

完成本機訓練後，各用戶端會將更新的模型參數 (例如梯度或權重) 傳回至中央伺服器。這些更新項目代表模型從本機資料學到的內容，但不會公開資料本身。

4. 全域模型更新

中央伺服器會接收多個用戶端傳送的模型更新內容。系統接著會匯總這些更新，做法通常為取平均值 (常見方法是聯合平均)，以便建立經改良的新版全球模型。這個匯總的模型，能夠從所有參與用戶端的集體學習成果中獲得優勢。

5. 反覆修正

接著，伺服器會將新更新的全域模型傳回給一組新的 (或相同的) 用戶端，執行另一輪本機訓練。這個循環會重複多次，持續精進全域模型，直到達到所需的準確率或收斂程度為止。

聯合學習系統的要素

典型的聯合學習系統包含多個緊密互連的要素：

用戶端 (資料擁有者)

這些是持有資料並執行本機模型訓練的個別裝置或機構。用戶端種類多元，包括行動電話、物聯網裝置、醫院及金融機構等，負責在本機執行模型並生成參數更新。

中央伺服器 (匯總器)

中央伺服器會負責協調聯合學習程序，包括初始化並分配全域模型、收集用戶端模型更新、匯總更新來調整全域模型，然後重新分配更新的模型。中央伺服器不會直接存取客戶的原始資料。

通訊協定

這項通訊協定定義用戶端和伺服器交換資訊的方式，資訊主要包括模型參數和更新內容。有效率且安全的通訊協定至關重要，尤其是在用戶端數量龐大且網路狀況不一的情境。

模型匯總演算法

中央伺服器會使用這種方法，合併從各個用戶端收到的模型更新內容。聯合平均等演算法通常用於計算權重或梯度平均值，以建立一個改良版全域模型。

聯合學習的優點

聯合學習可帶來許多優勢，尤其是主要考量為資料隱私權、安全性和分散式資料的情境。

強化資料隱私權和安全性

這可以說是最大的優點。聯合學習可將資料保留於用戶端裝置，大幅降低私密資訊在傳輸或儲存期間外洩的風險。這項技術可強化使用者隱私，協助機構遵守嚴格的資料保護法規。

存取多種資料

聯合學習可讓模型從各種實際資料來源學習，這些資料來源原本可能各自獨立或無法存取。與使用單一集中式資料集訓練的模型相比，這類模型能以更多樣的使用者行為、條件或環境訓練，因此更加穩健、可一般化且準確。

降低通訊成本

相較於傳輸大量原始資料至中央伺服器，傳輸模型更新 (通常比原始資料集小) 更有效率，成本也較低，尤其是在涉及許多邊緣裝置，或裝置分散於不同地理位置的情境。

協作模型改良

聯合學習讓機構或個人能共同建構及改良 AI 模型，不必分享專屬或機密資料。這種做法有助於打造更具包容性的 AI 開發生態系統，並匯集不同來源的情報。

簡化法規遵循工作

聯合學習技術的設計本質是將資料保留在本機，能有效協助企業遵守複雜的資料隱私權法規，例如 GDPR、CCPA 和 HIPAA 等。這種設計會盡量減少資料移動和集中化，有助於機構確保符合資料落地要求，並減輕處理私密個人或健康資訊時的法規遵循負擔。

維護資料主權

這種做法尊重資料擁有和控管權，參與的機構或個人保有資料資產完整權限。即使向集體模型提供原始資料，這些資料仍會安全地留在原始環境中，進而維持資料治理及協作者之間的信任。

聯合學習的挑戰與考量

雖然聯合學習有許多優點，但也有一些獨特的潛在難題，需要謹慎考量：

資料和裝置的異質性：在聯合學習網路中，用戶端的資料分布 (非獨立同分布資料) 和運算能力 (裝置硬體、網路連線能力) 可能差異極大。這種多樣性可能會影響模型收斂和整體成效。
通訊負擔：雖然與集中式資料傳輸相比，聯合學習的通訊量較少，但用戶端和伺服器仍需頻繁通訊。如果客戶數量龐大或網路不穩定，有效管理這類通訊仍可能是技術難題。
安全性和隱私權漏洞：雖然聯合學習的設計宗旨是保護隱私，但仍可能面臨安全威脅。模型更新作業本身也可能透過推論攻擊或資料中毒等進階技術，洩漏本機資料的相關資訊。雖然差異化隱私和安全匯總等強大安全措施通常能降低上述風險，但可能會犧牲準確度或增加運算成本。
模型偏移：個別用戶端裝置上的資料分布可能會隨時間發生變化，導致「模型偏移」情況，也就是本機模型與全域模型出現差異。為解決這個問題，我們需要建立持續調整的機制，或採用個人化聯合學習方法。

聯合學習應用

聯合學習技術可讓使用者在各領域中，建構複雜且能保護隱私權的應用程式。聯合學習的用途包括：

開發以隱私權為優先考量的行動應用程式

使用者可運用聯合學習技術，打造能從使用者資料中學習的行動應用程式，同時兼顧隱私權。這對鍵盤預測文字 (例如 Gboard)、建議下一個字詞、個人化推薦內容，以及裝置端語音辨識等功能至關重要。開發人員可直接在使用者裝置上訓練模型，根據個人互動模式調整應用程式功能和使用者體驗，同時確保機密個人資料留在裝置中且受到保護，並遵循 GDPR 和 HIPAA 等法規。

打造跨組織的 AI 解決方案

聯合學習可讓使用者為企業打造協作式 AI 系統，即使資料分散於不同機構，也能順利運作。這對醫療照護和金融等產業來說非常重要，因為這些產業的資料共用會因隱私權法規，或專屬資訊方面的顧慮而受到限制。使用者可以建構平台，讓多個機構 (例如讓醫院進行醫學研究、讓銀行偵測詐欺) 運用整合資料訓練共用模型，同時保護原始資訊，有助於促進協作、透過各種資料集提高模型準確度，並達成嚴格的法規遵循要求。

在 IoT 和工業 IoT (IIoT) 中啟用智慧型邊緣裝置

對於使用物聯網 (IoT) 和工業物聯網 (IIoT) 裝置的企業，聯合學習是在邊緣位置嵌入情報的絕佳方式。這項技術可應用於多種領域，例如工業設備的預測性維護、感應器網路的異常偵測，以及智慧城市的資源使用最佳化。模型可直接於邊緣裝置上，使用分散式感應器和機器產生的資料進行訓練。這種做法可減少溝通負擔、取得即時洞察資訊，並將機密營運資料保留在安全的工廠或裝置範圍內，確保專屬資訊不外洩。

打造安全且符合法規的資料分析平台

使用者可以運用聯合學習技術，為需要從分散式機密資料集取得洞察資訊的企業，建構穩健的資料分析平台。這項技術可確保分析模型在訓練和執行時不必集中資料，大幅提升 GDPR、CCPA 和 HIPAA 等法規的遵循成效。此機制讓機構能跨部門或實體取得寶貴的商業智慧、找出趨勢或建構預測模型，同時維持嚴格的資料治理與安全協定。

運用分散式學習技術強化網路安全

聯合學習可用於建構更具韌性且有效的網路安全解決方案。模型可透過多個端點 (例如電腦、伺服器和行動裝置) 訓練，以便偵測惡意軟體、找出網路入侵行為，或標記可疑活動，且不會從個別系統竊取機密資料。這種分散式訓練方法，可從更多元的網路行為和本機安全事件中學習，進而更全面地偵測威脅，同時保護個別使用者或系統的隱私權。

聯合學習框架

為了簡化聯合學習的使用方式，市面上出現了許多開放原始碼和商業框架。這些工具可協助開發人員處理不同裝置的訓練作業、裝置間的通訊，以及保護資料的私密性。

TensorFlow Federated (TFF)：TFF 是由 Google 開發的開放原始碼架構，適用於機器學習和其他去中心化資料運算。這個架構能與 TensorFlow 完美整合，非常適合模擬聯合訓練，以及建構新的聯合學習演算法。
PySyft：PySyft 屬於 OpenMined 生態系統的一部分，是專注於保護隱私的 AI Python 程式庫。這個程式庫支援聯合學習，並可搭配 PyTorch 和 TensorFlow 等熱門深度學習架構，還能運用差異化隱私和安全多方運算等技術。
Flower：Flower 是不受架構限制的聯合學習框架，自訂程度非常高。這個框架適用於任何機器學習程式庫，包括 PyTorch、TensorFlow 和 scikit-learn，讓團隊靈活運用各種機器學習堆疊。
NVIDIA FLARE：這個框架專為醫學影像和基因體學設計，可讓醫療照護機構合作開發 AI。此框架也可應用於自駕車等領域。
FATE (Federated AI Technology Enabler)：由 WeBank 開發，是專為企業打造的平台，支援聯合學習並採用同態加密等進階隱私權技術。該平台提供網頁式介面，方便管理工作流程。
Substra：Substra 最初是為多方合作的醫學研究專案開發，現由 Linux 基金會代管。Substra 特別適合醫療領域，重視資料所有權、隱私權和可追溯性。

聯合學習的未來

聯合學習領域正迅速發展。目前，研究重點在於解決該領域面臨的難題，例如提高對資料和系統異質性的強健性、開發更精密的隱私保護技術、建立更有效率的通訊協定，以及實現真正個人化的聯合學習體驗。隨著 AI 與敏感領域更加緊密互連，聯合學習將扮演更重要的角色，實現安全且私密的協作式情報作業。雖然目前許多聯合學習系統均由中央伺服器協調，但未來可能會開發出更去中心化，或點對點的聯合學習方法，進而提升穩健性、擴充性，並消除單點故障。

運用 Google Cloud 建構及使用聯合學習系統

Google Cloud 提供穩健的環境和專用工具，有效支援聯合學習計畫，包括建構聯合學習系統，以及在自家產品中運用這項技術。

展開下一步行動

運用價值 $300 美元的免費抵免額和超過 20 項一律免費的產品，開始在 Google Cloud 中建構產品與服務。

需要入門協助嗎？
聯絡銷售人員
與值得信賴的夥伴合作
尋找合作夥伴
繼續瀏覽
查看所有產品