Vertex AI 术语表

  • 注释集
    • 注释集包含与数据集中上传的源文件关联的标签。注释集与数据类型和目标(例如视频/分类)相关联。
  • API 端点
    • API 端点是一个服务配置层面,用于指定网络地址(也称为服务端点)。(例如 aiplatform.googleapis.com)。
  • 近似最邻近 (ANN)
    • 近似最邻近 (ANN) 服务是一项大规模、低延迟的解决方案,可用于针对大型语料库查找类似向量(更具体地说,是“嵌入”)。
  • 工件
    • 工件是机器学习工作流生成和使用的离散实体或数据块。工件的示例包括数据集、模型、输入文件和训练日志。
  • Artifact Registry
    • Artifact Registry 是通用的工件管理服务。它是在 Google Cloud 上管理容器和其他工件时推荐使用的服务。如需了解详情,请参阅 Artifact Registry
  • 批量预测
    • 批量预测会接受一组预测请求,并将结果输出到一个文件中。如需了解详情,请参阅获取批量预测结果
  • 边界框
    • 视频帧中对象的边界框可通过以下两种方式之一指定:(i) 使用 2 个包含一组 x、y 坐标的顶点(如果这些点与矩形的对角线相对)。例如:x_relative_min、y_relative_min 以及 x_relative_max、y_relative_max (ii) 使用全部 4 个顶点。如需了解详情,请参阅准备视频数据
  • 分类指标
    • Python 版 Vertex AI SDK 中支持的分类指标是混淆矩阵和 ROC 曲线。
  • 上下文
    • 上下文用于将工件和执行分组到单个可查询的类型化类别下。上下文可用于表示元数据集。例如,上下文可以是机器学习流水线的运行。
  • 客户管理的加密密钥 (CMEK)
    • 客户管理的加密密钥 (CMEK) 是一项集成功能,可让客户使用其在 Cloud KMS 中管理的密钥(也称为 Storky)加密现有 Google 服务中的数据。Cloud KMS 中的密钥是用于保护其数据的密钥加密密钥。
  • 数据集
    • 数据集被广泛定义为结构化或非结构化数据记录的集合。有关详情,请参阅创建数据集
  • embedding
    • 嵌入是一种向量类型,用于通过捕获数据的语义含义来表示数据。嵌入通常是使用机器学习技术创建的,通常用于自然语言处理 (NLP) 和其他机器学习应用。
  • 事件
    • 事件描述了工件和执行之间的关系。每个工件可以由执行生成,并可供其他执行使用。事件将工件和执行链接在一起,以帮助您确定机器学习工作流中工件的来源。
  • 执行
    • 执行是单个机器学习工作流步骤的记录,通常带有其运行时参数注释。例如,执行可以是数据注入、数据验证、模型训练、模型评估和模型部署。
  • 实验
    • 实验是一个上下文,其中包含流水线运行作业以及一组 n 个实验运行作业,用户可以在其中集中调查不同的配置,如输入工件或超参数。
  • 实验运行作业
    • 实验运行作业可以包含用户定义的指标、参数、执行、工件和 Vertex 资源(例如 PipelineJob)。
  • 探索性数据分析
    • 在统计学中,探索性数据分析 (EDA) 是一种分析数据集的方法,用于汇总其主要特征(通常使用可视化方法)。并非必须使用统计模型,但 EDA 主要用于了解数据在正式建模或假设测试任务之外还可以告诉我们什么。
  • 特征
    • 在机器学习 (ML) 中,特征是指实例或实体(用作训练机器学习模型或进行预测的输入)的特点或属性。
  • 特征工程
    • 特征工程是指将原始机器学习 (ML) 数据转换为可用于训练机器学习模型或进行预测的特征的过程。
  • 特征值
    • 特征值对应于实例或实体的特征(属性)的实际可衡量值。唯一实体的特征值集合表示与该实体对应的特征记录。
  • 特征传送
    • 特征传送是导出或提取存储特征值以用于训练或推理的过程。在 Vertex AI 中,有两种类型的特征传送:在线传送和离线传送。在线传送检索部分特征数据源的最新特征值来进行在线预测。离线或批量传送则是导出大量特征数据进行离线处理,例如机器学习模型训练。
  • 特征时间戳
    • 特征时间戳指示实体的特定特征记录中一组特征值的生成时间。
  • 特征记录
    • 特征记录是所有特征值的聚合,用于描述特定时间点的唯一实体属性。
  • 特征注册表
    • 特征注册表是一个中央界面,用于记录您要用于在线预测的特征数据源。
  • 特征组
    • 特征组是指与包含特征数据的 BigQuery 源表或视图对应的特征注册表资源。特征视图可能包含特征,可视作数据源中特征列的逻辑分组。
  • 特征视图
    • 特征视图是从 BigQuery 数据源具体化为在线存储区实例的特征的逻辑集合。特征视图会存储并定期刷新客户的特征数据,这些数据会定期从 BigQuery 源刷新。特征视图通过与特征注册表资源关联来与特征数据存储空间关联或直接与其关联。
  • Google Cloud 流水线组件 SDK
    • Google Cloud 流水线组件 (GCPC) SDK 提供了一组预构建的 Kubeflow Pipelines 组件,它们达到生产质量、具备高性能且易于使用。您可以使用 Google Cloud 流水线组件在 Vertex AI Pipelines 和其他符合 Kubeflow Pipelines 的机器学习流水线执行后端中定义和运行机器学习流水线。如需了解详情,请参阅
  • 直方图
    • 使用柱状图以图形方式显示一组数据中的变化。直方图直观呈现了在简单数字表中难以检测到的模式。
  • 索引
    • 为相似度搜索而部署的一组向量。可以在索引中添加或移除向量。相似度搜索查询会被发送到特定索引,并将搜索该索引中的向量。
  • 标准答案
    • 该术语是指根据真实世界(例如标准答案数据集)验证机器学习的准确率。
  • 机器学习元数据
    • ML Metadata (MLMD) 是一个库,用于记录和检索与机器学习开发者和数据科学家工作流相关的元数据。虽然 MLMD 是 TensorFlow Extended (TFX) 不可或缺的一部分,但它也可以独立使用。作为更为广泛的 TFX 平台的一部分,大多数用户仅在检查流水线组件的结果时与 MLMD 交互,例如在笔记本中或 TensorBoard 中。
  • 代管式数据集
    • 由 Vertex AI 创建和托管的数据集对象。
  • 元数据资源
    • Vertex ML Metadata 提供了一个图状数据模型来表示从机器学习工作流生成和使用的元数据。涉及的主要概念包括工件、执行、事件和上下文。
  • MetadataSchema
    • MetadataSchema 描述特定类型的工件、执行或上下文的架构。MetadataSchema 用于在创建元数据资源期间验证相应的键值对。系统仅对资源和 MetadataSchema 之间的匹配字段执行架构验证。类型架构使用 OpenAPI 架构对象来表示,该对象使用 YAML 进行描述。
  • MetadataStore
    • MetadataStore 是元数据资源的顶级容器。MetadataStore 分区域并与特定 Google Cloud 项目关联。通常,组织会为每个项目中的元数据资源使用一个共享 MetadataStore。
  • 机器学习流水线
    • 机器学习流水线是基于容器的便携式和可扩缩的机器学习工作流。
  • 模型
    • 任何模型,无论是否经过预训练。
  • 模型资源名称
    • model 的资源名称,如下所示:projects/<PROJECT_ID>/locations/<LOCATION_ID>/models/<MODEL_ID>。您可以在 Cloud 控制台中的“Model Registry”页面中找到模型的 ID。
  • 离线存储区
    • 离线存储区是存储近期和历史特征数据的存储设施,通常用于训练机器学习模型。离线存储区还包含最新的特征值,可用于在线预测。
  • 在线存储区
    • 在特征管理中,在线存储区是存储用于在线预测的最新特征值的存储设施。
  • 参数
    • 参数是键入的输入值,它们可配置运行作业,控制运行作业的行为,并影响运行作业的结果。例如学习速率、漏失率和训练步数。
  • 管道
    • 机器学习流水线是基于容器的便携式和可扩缩的机器学习工作流。
  • 流水线组件
    • 一组独立的代码,用于在流水线工作流中执行一个步骤,例如数据预处理、数据转换和模型训练。
  • 流水线作业
    • Vertex AI API 中与 Vertex 流水线作业相对应的资源。用户想要在 Vertex AI 上运行机器学习流水线时创建 PipelineJob。
  • 流水线运行作业
    • 一个实验可以关联一个或多个 Vertex PipelineJob,其中每个 PipelineJob 均表示为一个单独的运行作业。在此上下文中,运行作业的参数由 PipelineJob 的参数推断。指标从该 PipelineJob 生成的 system.Metric 工件推断。运行作业的工件从该 PipelineJob 生成的工件推断。
  • 流水线模板
    • 单个或多个用户可以重复使用机器学习工作流定义来创建多个流水线运行。
  • recall
    • 索引返回的真正最近邻的百分比。 例如,如果一个对 20 个最近邻的最近邻查询返回 19 个“标准答案”最近项,则召回率为 19/20x100 = 95%。
  • 限制
    • 使用布尔值规则将搜索“限制”为一部分索引的功能。限制也称为“过滤”。借助 Vector Search,您可以使用数字过滤和文本属性过滤。
  • 服务账号
    • 在 Google Cloud 中,服务账号是由应用或虚拟机 (VM) 实例(而非真人)使用的特殊账号。应用使用服务账号来执行已获授权的 API 调用。
  • 摘要指标
    • 摘要指标是实验运行作业中每个指标键的单一值。例如,实验的测试准确率是在训练结束时根据测试数据集计算得出的,可以作为单一值摘要指标捕获。
  • TensorBoard
    • TensorBoard 是一套用于直观呈现和解读 TensorFlow 运行作业和模型的 Web 应用。如需了解详情,请参阅 TensorBoard
  • TensorBoard 资源名称
    • TensorBoard 资源名称用于完全标识 Vertex AI TensorBoard 实例。格式如下:projects/PROJECT_ID_OR_NUMBER/locations/REGION/tensorboards/TENSORBOARD_INSTANCE_ID。
  • TensorBoard 实例
    • TensorBoard 实例是区域化资源,用于存储与项目关联的 Vertex AI TensorBoard 实验。例如,如果您需要多个启用 CMEK 的实例,则可以在项目中创建多个 TensorBoard 实例。这与 API 中的 TensorBoard 资源相同。
  • TensorFlow Extended (TFX)
    • TensorFlow Extended (TFX) 是一个基于 TensorFlow 平台部署生产机器学习流水线的端到端平台。
  • 时间偏移值
    • 时间偏移值是相对于视频开头进行计算的。
  • 时间段
    • 时间段由开始时间和结束时间偏移值来标识。
  • 时序指标
    • 时序指标是纵向指标值,其中每个值表示运行作业的训练例程部分中的一步。时序指标存储在 Vertex AI TensorBoard 中。Vertex AI Experiments 存储对 Vertex TensorBoard 资源的引用。
  • token
    • 语言模型中的词元是模型训练和进行预测的原子单元,即字词、语素和字符。在语言模型之外的网域中,词元可以表示其他类型的原子单元。例如,在计算机视觉中,词元可能是图片的一部分。
  • 非代管式工件
    • 位于 Vertex AI 上下文之外的工件。
  • vector
    • 向量是包含幅度和方向的浮点值列表。它可用于表示任何类型的数据,例如数字、空间中的点或方向。
  • Vertex AI Experiments
    • 借助 Vertex AI Experiments,用户可以跟踪 (i) 实验运行作业的各个步骤,例如预处理、训练等;(ii) 输入,例如算法、参数、数据集等;(III) 这些步骤的输出,例如模型、检查点、指标等。
  • Vertex AI TensorBoard 实验
    • 您可以在 TensorBoard Web 应用中查看与实验关联的数据(标量、直方图、分布等)。可在 Google Cloud 控制台中查看时序标量。如需了解详情,请参阅比较和分析运行作业
  • Vertex 数据类型
    • Vertex AI 数据类型有“图片”“文本”“表格”和“视频”。
  • 视频片段
    • 视频片段由视频的开始时间和结束时间偏移值来标识。
  • Virtual Private Cloud (VPC)
    • Virtual Private Cloud 是一个按需且可配置的共享计算资源池,可在公有云环境中分配,并可利用这些资源在不同组织之间实现隔离。