監督式和非監督式機器學習技術最大的差異在於使用的資料類型。監督式學習會使用已加上標籤的訓練資料,非監督式學習則不會。
簡單來說,監督式學習模型需要對正確的輸出值「擁有」基本瞭解。
使用監督式學習模型時,演算法會使用範例資料集來訓練並進行預測,然後反覆調整盡可能減少錯誤。這些資料集會加上內容標籤,並提供所需的輸出值,讓模型產生「正確」的答案。
相較之下,非監督式學習演算法則會獨立運作,在沒有特定指引或指示的情況下學習資料的固有結構。您只需要提供未加上標籤的輸入資料,讓演算法找出資料集中自然產生的模式即可。
儘管不同資料類型是區分這兩種模型的最簡單方法,但兩種模型具有不同的目標和應用程式,也各有特色。
監督式學習模型更著重於學習輸入和輸出資料之間的關係。舉例來說,監督式模型可根據特定參數 (例如天氣狀況、機場路況、航班尖峰時段等) 預測航班時間。
另一方面,非監督式學習則較適合在未加上標籤的原始資料中,發掘新的模式和關係。舉例來說,非監督式學習模型可用於辨識同時購買相關產品的買家族群,以便提供其他產品建議給類似客戶的。
因此,監督式和非監督式機器學習可以解決的問題類型不同。監督式機器學習適合用於分類和迴歸工作,例如天氣預測、價格變更、情緒分析和垃圾郵件偵測。而非監督式學習較常用於探索性資料分析和任務分群,例如異常偵測、大數據視覺化或客戶區隔。
現在您已瞭解監督式和非監督式學習的差異,哪種做法適合您呢?
選擇合適的做法時,需視整體目標和需求、希望解決的問題,以及貴團隊分析、處理及管理資料的整體做法而定。
一般來說,在選擇最適合貴機構的做法時,需要考量下列事項。
選擇監督式與非監督式學習的重點在於您要解決的問題、您能取得的資料,以及您是否擁有建立和管理模型所需的工具和經驗。
不確定這兩個選項是否適合嗎?您也可以考慮採用第三種做法:半監督式學習。
半監督式學習結合了監督式學習和非監督式學習的各個層面。這個類別的機器學習技術會同時使用已加上標籤和未加上標籤的資料來訓練預測模型。
半監督式學習會使用少量已加上標籤的資料來訓練初始模型,這種模型可用來預測大量未加上標籤的資料標籤,然後將模型反覆套用至原先加上標籤的資料與含有預測標籤的資料 (虛擬標籤)。之後,您需要將最準確的預測新增至已加上標籤的資料集,並重複執行該程序,持續改善模型效能。