降低維度總覽
降低維度是指一組數學技巧的常用術語,用於擷取高維度空間中資料的形狀和關係,並將這項資訊轉換為低維度空間。
處理可能包含數千個特徵的大型資料集時,降低維度十分重要。在如此龐大的資料空間中,資料點之間的距離範圍越廣,模型輸出內容就越難解讀。舉例來說,您可能會難以瞭解哪些資料點較為相近,因此可代表較相似的資料。降低維度有助於減少特徵數量,同時保留資料集最重要的特徵。減少特徵數量也有助於縮短使用資料做為輸入內容的任何模型訓練時間。
BigQuery ML 提供下列模型來降低維度:
您可以使用 PCA 和自動編碼器模型搭配 ML.PREDICT
或 ML.GENERATE_EMBEDDING
函式,將資料嵌入較低維度的空間,並搭配 ML.DETECT_ANOMALIES
函式執行異常偵測。
您可以將維度縮減模型的輸出內容用於下列工作:
- 相似度搜尋:根據嵌入資料,找出相似的資料點。這項功能非常適合用來尋找相關產品、推薦類似內容,或找出重複或異常項目。
- 分群:將嵌入值做為 k-means 模型的輸入特徵,根據資料點的相似性將資料點分組。這有助於您發掘資料中的隱藏模式和洞察資料。
- 機器學習:將嵌入值用作分類或迴歸模型的輸入特徵。
建議的知識
只要使用 CREATE MODEL
陳述式和推論函式中的預設設定,即使沒有太多機器學習知識,也能建立及使用降維模型。不過,瞭解機器學習開發的基本知識,有助您最佳化資料和模型,進而獲得更優異的結果。建議您參考下列資源,熟悉機器學習技術和程序: