降维概览

降维是一组数学技术的通用术语,用于捕获高维空间中数据的形状和关系,并将这些信息转换为低维空间。

在处理可能包含数千个特征的大型数据集时,降维至关重要。在如此庞大的数据空间中,数据点之间的距离范围更大,这可能会使模型输出更难解读。例如,很难了解哪些数据点更接近,因此代表更相似的数据。降维有助于减少特征数量,同时保留数据集最重要的特征。减少特征数量还有助于缩短使用这些数据作为输入的任何模型的训练时间。

BigQuery ML 提供以下降维模型:

您可以将 PCA 和自动编码器模型与 ML.PREDICTML.GENERATE_EMBEDDING 函数搭配使用,将数据嵌入到较低维度的空间中,并与 ML.DETECT_ANOMALIES 函数搭配使用以执行异常值检测

您可以将降维模型的输出用于以下任务:

  • 相似搜索:根据数据点的嵌入,查找彼此相似的数据点。这对于查找相关商品、推荐类似内容或识别重复或异常项非常有用。
  • 聚类:将嵌入作为 k-means 模型的输入特征,以便根据数据点的相似性将其分组。这有助于您发现数据中的隐藏模式和数据洞见。
  • 机器学习:将嵌入作为分类或回归模型的输入特征。