什麼是機器學習 (ML)?

當今企業手握大量資料,若能充分理解及運用這些資料,將有助於做出更明智的決策。然而,傳統工具通常難以分析龐大的資料量,也無法執行複雜的處理作業。員工必須花費大量時間建構、測試、疊代和部署分析模型,才能找出資料中的模式和洞察資訊。機器學習技術可讓機構在資料規模擴大時,迅速取得相關洞察。

新客戶最多可獲得價值 $300 美元的免費抵免額,盡情體驗 Vertex AI 和其他 Google Cloud 產品。

Google Cloud 機器學習服務簡介影片。

機器學習的定義

機器學習是人工智慧的一部分,採用類神經網路和深度學習技術,讓系統透過大量資料自主學習並改善成效,完全無須特別編寫程式。

機器學習可讓電腦系統在累積更多「體驗」時,不斷進行調整和強化。因此,只要提供較大且更多要處理的資料集,就能提高這些系統的效能。

機器學習的重要性

資料生成速度不斷加快,人類手握的資料量也遠超以往,機器學習技術能協助分析這些龐大資料,從中發掘價值。這項技術正在為人類使用電腦及其他機器的方式,開展一個嶄新領域。機器學習技術可協助企業實現重要功能,例如詐欺偵測、辨識安全性威脅、提供個人化建議和推薦內容、透過聊天機器人自動完成客戶服務、語音轉錄和翻譯、資料分析等。機器學習技術也推動了未來的創新發展,例如自動駕駛車、無人機和飛機、擴增實境與虛擬實境,以及機器人技術。

機器學習、人工智慧和深度學習有何差異?

雖然人工智慧 (AI) 和機器學習 (ML) 經常視為同義詞,但兩個字詞並無法互換使用

人工智慧是電腦科學的一個分支,探討如何建構能以類似人類智慧的方式推理、學習並採取行動的電腦和機器,或是建構資料分析規模超出人類可及的系統。這個領域包含許多不同的學科,包括資料分析、統計資料、軟硬體工程、神經科學,甚至是哲學。

人工智慧是電腦科學底下的一個廣泛類別,但機器學習是 AI 的一種應用方式,指的是不用編寫程式就能讓機器執行工作。機器學習的使用更加明確,是透過如類神經網路、監督式與非監督式學習、決策樹和線性迴歸等技術,從資料中提取知識的方法。

就像機器學習是人工智慧的分支一樣,深度學習也是機器學習的分支。深度學習技術是透過在資料集上訓練類神經網路。類神經網路是一種使用人工神經元系統的模型,這些神經元是運算節點,用於分類及分析資料。資料會匯入類神經網路的第一層,且每個節點都會做出決定,然後將這些資訊傳遞至下一層的多個節點。超過三層的訓練模型被稱為「深層類神經網路」或「深度學習」。一些現代類神經網路有成千上百層。

機器學習如何運作?

機器學習運作時,會使用資料集訓練演算法來達到預期結果,例如識別模式或辨識物件。機器學習是指將模型最佳化的過程,讓模型能根據訓練資料樣本預測正確的回應。

假設訓練資料的品質越高,機器學習演算法收到的訓練樣本越多,模型就會越準確。演算法會在訓練期間比對模型與資料,即所謂的「校正程序」。這個程序會使用損失函式來評估模型的錯誤,並採用梯度下降法等最佳化技術,調整模型參數來盡可能減少錯誤。如果結果不符合預期,系統就會重新訓練演算法,直到輸出準確的回應為止。基本上,演算法會從資料中學習,並根據輸入和回應是否符合線性、叢集或其他統計資料相關性來得出結果。

機器學習類型

談論不同類型的機器學習技術,其實就是在談論所用的訓練模型。廣義來說,機器學習技術採用四種模型。

監督式學習是一種機器學習模型,會採用已加上標籤的訓練資料 (結構化資料),並將特定特徵對應至特定標籤。在監督式學習中,輸出結果是已知的 (例如,辨識一張蘋果圖片),模型是根據已知的輸出結果資料進行訓練。簡單來說,要訓練演算法準確辨識出蘋果圖片,只要餵給它已標記為蘋果的圖片就可以了。目前最常用的監督式學習演算法包括:

  • 線性迴歸
  • 多項式迴歸演算法
  • K-近鄰演算法
  • 單純貝氏分類
  • 決策樹

非監督式學習是一種使用未標註的資料 (非結構化資料) 來進行資料模式學習的機器學習模式。有別於監督式學習,輸出內容的「正確性」無法事先得知。相反地,演算法會在沒有人為輸入內容的情況下從資料中學習 (因此稱為「非監督式」學習),並根據屬性分類資料。舉例來說,如果將蘋果和香蕉的圖片餵給演算法,演算法會自行辨識並將圖片分類為蘋果和香蕉。非監督式學習適合用於建構描述性模型和模式比對。現今最常用的非監督式學習演算法包括:

  • 模糊平均數
  • k-means 分群法
  • 階層叢集
  • 偏最小平方迴歸

另外還有一種混合式的機器學習方法,稱為半監督式學習,其中只有部分資料加上標籤。在半監督式學習中,演算法必須設法整理及建構資料,才能獲得已知結果。舉例來說,機器學習模型會被告知結果是梨子,但只有部分訓練資料標示為梨子。

增強學習是指藉由一連串嘗試錯誤 (trial and error) 的反覆試驗過程來「從做中學」的機器學習模式。「智能體」(agent) 會透過一種回饋循環的過程學習執行指定工作,直至學習成果達到目標範圍為止。代理程式執行工作的情況良好時會獲得正面強化,並在表現不佳時得到負面強化。舉例來說,Google 研究人員訓練了強化學習演算法來玩圍棋遊戲。模型事先不瞭解圍棋規則,只是隨機移動棋子並「學習」最佳走法。演算法是透過正面增強與負面增強訓練,讓機器學習模型在四子棋遊戲中擊敗人類玩家。

機器學習技術的優點

模式識別

機器學習演算法耗用的資料量越多,就越能找出資料的趨勢和模式。舉例來說,電子商務網站可能會運用機器學習技術來瞭解使用者在網站上的購物方式,並使用這項資訊為使用者提供更符合需求的推薦內容,或是找出有助於開發新產品商機的趨勢資料。

自動化

機器學習和人工智慧可取代人類勞工大部分枯燥乏味的工作。一些繁瑣的業務工作使得員工無法執行更有意義的工作,機器人程序自動化等公用程式可執行這些工作。電腦視覺和物體偵測演算法則可協助機器人從組裝線上挑選和包裝物品。全天候運作的詐騙偵測和威脅評估機器學習技術,可及早找出安全漏洞,避免造成問題。

持續改善

有了合適的資料類型,機器學習演算法就會持續改善,變得更快、更準確。我們可以透過多種方式達成這項目標,包括用新資料重新訓練,以及參考使用者的實際回饋。

機器學習的潛在難題

潛在偏誤

機器學習的成效通常取決於訓練所用的資料。如果將帶有偏誤的資料集提供給機器學習演算法,結果就會出現偏誤。

資料擷取

機器學習需要大量資料才能派上用場。由於許多機器學習用途都以監督式學習為基礎,因此一開始開發演算法時,請務必取得並清理結構化資料,如果資料位在組織內的各個孤立位置,這可能並不容易。

需要技術人才

雖然機器學習、人工智慧和雲端供應商試圖簡化設定及執行機器學習演算法的程序,但機構通常需要程式設計人員和數據資料學家,才能瞭解及運用訓練演算法及其結果。

需要大量資源

機器學習可能相當耗時,需要大量的運算資源和員工時間才能開始處理資料並提升成效。

透過 Google Cloud 解決業務難題

新客戶可以獲得價值 $300 美元的免費抵免額,盡情試用各項 Google Cloud 功能。
與 Google Cloud 銷售專員聯絡,深入探討貴公司面臨的獨特挑戰。

機器學習技術會使用

機器學習的常見用途包括:

機器人程序自動化 (RPA)

結合 RPA 和機器學習技術,可打造能夠自動處理複雜工作的智慧型自動化解決方案,例如處理貸款的應用程式。Google Cloud 提供多種可搭配 RPA 使用的產品,包括用於管理 API 的 Apigee、用於低程式碼開發的 AppSheet,以及用於機器學習工作流程的 Vertex AI。

銷售最佳化

客戶資料可以訓練機器學習演算法進行客戶情緒分析、銷售預測分析和客戶流失預測。BigQuery (資料倉儲技術)、Looker (資料視覺化) 和 Vertex AI (建構及部署機器學習模型) 等工具,可協助您將銷售流程最佳化。

客戶服務

機器學習應用程式包括聊天機器人和自動化虛擬助理,可自動執行例行的客戶服務工作,以及加快問題解決速度。Dialogflow 可協助建構網站、行動應用程式和裝置的對話式介面。Contact Center AI 也能增進客戶服務作業效率。

安全性

機器學習技術可協助企業提升威脅分析能力,瞭解如何更妥善因應網路攻擊者、駭客和惡意軟體。Google Cloud Security Command Center (SCC) 能讓您在同一處掌握 Google Cloud 資源的安全性與風險。Google Cloud Armor 可協助保護網頁應用程式免受威脅,Chronicle SIEM 則有助於偵測及調查威脅。

數位行銷

機器學習技術可協助行銷人員找出新客戶,適時向合適的目標對象提供適當的行銷資料。行銷分析解決方案 (例如 BigQuery ML 和 Vertex AI) 可與 Google Ads 和 Google Analytics 360 整合,用來建構自訂機器學習模型,創造個人化行銷體驗。

防範詐欺行為

機器學習技術可協助信用卡公司和銀行審查大量交易資料,即時識別可疑活動。reCAPTCHA Enterprise 能避免網站和行動應用程式發生詐欺活動。Google Cloud 也與 Swift 合作,運用先進的 AI 和聯合學習技術開發反詐欺技術。

展開下一步行動

運用價值 $300 美元的免費抵免額和超過 20 項一律免費的產品,開始在 Google Cloud 中建構產品與服務。