什么是 Vertex Feature Store?

Vertex Feature Store (Feature Store) 提供了一个用于整理、存储和应用机器学习特征的集中式代码库。借助集中式的特征存储区,组织可以大规模并高效地地共享、发现和重复使用机器学习特征,从而加快组织开发和部署新机器学习应用的速度。Feature Store 是一个全代管式解决方案,它可以为您管理和扩缩底层基础架构,例如存储和计算资源。此解决方案意味着,数据科学家可以专注于特征计算逻辑,而无需操心如何将特征部署到生产环境中。

Feature Store 已集成到 Vertex AI 中。您可以单独使用 Feature Store,也可以将其用作 Vertex AI 工作流的一部分。例如,您可以从 Feature Store 提取数据,以在 Vertex AI 中训练自定义或 AutoML 模型。

概览

您可以使用 Feature Store 创建和管理资源,例如特征存储区。特征存储区是特征及其值的顶级容器。您设置特征存储区后,获得许可的用户无需额外的工程支持即可添加和共享其特征。用户可以定义特征,然后从各种数据源中提取(导入)特征值。

任何获得许可的用户均可从特征存储区搜索和检索值。例如,用户可以找到特征,然后进行批量导出,以获得用于创建机器学习模型的训练数据。用户还可以实时检索特征值,以执行快速在线预测。

优势

在使用 Feature Store 之前,您可能计算特征值并保存在不同的位置,例如 BigQuery 中的表或 Cloud Storage 中的文件。此外,您可能为特征值的存储和使用分别构建并管理解决方案。相比之下,Feature Store 提供了一种统一的解决方案,可进行批量存储和在线存储,以及应用机器学习特征。以下部分详细介绍了 Feature Store 的优势。

在组织内共享特征

如果您在特征存储区中生成特征,则可以快速与其他人分享这些特征以用于训练或服务任务。团队无需为不同项目或使用场景重新构建特征。此外,由于可以通过中央代码库管理和应用特征,您可以确保特征(尤其是高价值的特征)在组织内的一致性并减少重复工作。

Feature Store 提供搜索和过滤功能,使其他用户可以轻松发现和重复使用现有特征。对于每个特征,用户可以查看相关元数据以确定特征的质量和使用模式。例如,用户可以查看具有有效特征值的实体比例(也称为特征覆盖率)、特征值的统计分布以及特征更新的频率

大规模在线服务的代管式解决方案

Feature Store 提供在线特征服务(低延迟服务)的代管式解决方案,这对于执行及时的在线预测至关重要。您无需构建和操作低延迟数据传送基础架构。特征存储区会为您执行此操作,并根据需要扩缩。您只需编写生成特征的逻辑,应用特征的任务则无需您费心。由于管理工作由 Feature Store 代劳,新特征的构建将更为顺畅,这使数据科学家能够专注于自己的工作,无需操心如何部署。

缓解训练-应用偏差

如果生产环境中使用的特征数据分布与训练模型时使用的特征数据分布不同,会出现训练-应用偏差。这种偏差通常会导致训练中的模型性能与生产环境中的模型性能有差异。以下示例介绍了 Feature Store 如何消除导致训练-应用偏差的潜在原因:

  • Feature Store 可确保一个特征值提取到特征存储区一次,然后该值重复用于训练和应用。如果没有特征存储区,训练和应用的生成特征的代码路径可能会不同,这导致用于训练和应用的特征值可能不同。
  • Feature Store 提供时间点查找来为训练提取历史数据。通过这些查找,您可以仅提取预测之前(而不是之后)可用的特征值,从而减少潜在的数据泄露。

后续步骤