-
应用默认凭据 (ADC)
- 应用默认凭据 (ADC) 提供了一种简单的方法来获取用于调用 Google API 的授权凭据。如果在调用时,应用需要与用户无关的一致身份和授权级别,则最适合使用应用默认凭据。这是向 Google Cloud API 调用授权的推荐方法,尤其适合在构建部署于 Google App Engine (GAE) 或 Compute Engine 虚拟机的应用时使用。如需了解详情,请参阅应用默认凭据的工作原理。
-
人工智能 (AI)
- 人工智能(或 AI)是指研究和设计看似智能的机器,也就是模仿机械运动、推理或解决问题等人类或智力功能的机器。AI 最热门的子领域之一是机器学习,它使用统计和数据驱动的方法来创建 AI。不过,有些人会将这两个术语互换使用。
-
增强现实 (AR)
- 将渲染的数字内容与现实世界内容相融合,可通过手机等显示屏实现,也可以作为叠加层显示在通过眼镜等光学设备看到的世界中。数字内容应跟踪相机或眼镜的移动(具体取决于场景的渲染方式),以使其看起来像是现实世界的一部分。
-
自动语音识别 (ASR,Speech to Text)
- 将口语(语音)自动转写为文本。
-
身份验证
- 此过程验证客户端(可能是用户或其他进程)的身份,以便获得对受保护系统的访问权限。已证明其身份的客户端即被认定为已通过身份验证。如需了解详情,请参阅 Google 的身份验证方法。
-
AutoML
- 通过黑盒优化“学会学习”的机器学习算法。如需了解详情,请参阅机器学习术语表。
-
基准
- 一种模型,用作比较另一个模型(通常是更复杂的模型)效果时的参考点。例如,逻辑回归模型可以作为深度模型的良好基准。对于特定问题,基准有助于模型开发者量化新模型必须达到的最低预期性能,以便新模型发挥作用。如需了解详情,请参阅基准数据集和目标数据集。
-
批处理
- 在一次训练迭代中使用的一组示例。批次大小决定了批处理中的示例数量。
-
批次大小
- 一个批次中的样本数。例如,Stochastic Gradient Descent(随机梯度下降)的批次大小为 1,而小批次的批次大小通常介于 10 到 1000 之间。批次大小在训练和推理期间通常是固定的;不过,TensorFlow 允许使用动态批次大小。
-
偏差
- 1. 对某些事物、人或群体有刻板印象、偏见或偏袒。这些偏差会影响数据的收集和解读、系统设计以及用户与系统的互动方式。2. 采样或报告过程中引入的系统错误。
-
双向
- 用于描述一种系统,该系统会评估目标文本部分前后文本。与之相反,单向系统仅评估目标文本部分之前的文本。
-
基于 Transformer 的双向编码器表示法 (BERT)
- BERT 是预训练语言表示法的一种方法,这意味着我们会使用大型文本语料库(例如维基百科)训练通用语言理解模型,然后将该模型用于我们关注的下游 NLP 任务(例如问答)。BERT 的表现优于之前的方法,因为它是第一个用于预训练 NLP 的无监督深度双向系统。
-
双语替换评测 (BLEU)
- 一种常用的评估机器翻译算法质量的指标,方法是将其输出与一个或多个人工译文进行比较。
-
边界框
- 视频帧中对象的边界框可通过以下两种方式之一指定:(i) 使用 2 个包含一组 x、y 坐标的顶点(如果这些点与矩形的对角线相对)。例如:x_relative_min、y_relative_min 以及 x_relative_max、y_relative_max (ii) 使用全部 4 个顶点。如需了解详情,请参阅准备视频数据。
-
聊天
- 与机器学习系统(通常是大语言模型)进行的来回对话的内容。对话中的前一次互动(您输入的内容以及大语言模型的回复方式)会成为对话后续部分的上下文。聊天机器人是大语言模型的一种应用。
-
检查点
- 捕获模型参数在训练期间或训练完成后的状态的数据。例如,在训练期间,您可以:停止训练,可能是有意为之,也可能是由于某些错误。2. 捕获检查点。3. 稍后,重新加载检查点(可能在其他硬件上)。4. 重新开始训练。在 Gemini 中,检查点是指基于特定数据集训练的 Gemini 模型的特定版本。
-
分类模型
- 预测结果为类的模型。例如,以下所有模型都是分类模型:用于预测输入句子的语言(法语?西班牙语?意大利语?一个用于预测树种(枫树?Oak?Baobab?)。用于预测特定疾病的正类别或负类别的模型。
-
Cloud TPU
- 一种专门的硬件加速器,旨在加速 Google Cloud 上的机器学习工作负载。
-
情境窗口
- 模型在给定问题中可以处理的词元数。上下文时段越长,模型可以使用的信息就越多,从而为问题提供连贯一致的回答。
-
数据分析
- 根据样本、测量结果和可视化内容理解数据。数据分析在首次收到数据集时且构建第一个模型之前特别有用。此外,数据分析在理解实验和调试系统问题方面也至关重要。
-
数据增强
- 通过转换现有样本创建其他样本,人为地增加训练样本的范围和数量。例如,假设图像是其中一个特征,但数据集包含的图像样本不足以供模型学习有用的关系。理想情况下,您需要向数据集添加足够的有标签图像,才能使模型正常训练。如果不可行,则可以通过数据增强旋转、拉伸和翻转每张图像,以生成原始照片的多个变体,这样可能会生成足够的有标签数据来实现很好的训练效果。
-
DataFrame
- 一种热门的 Pandas 数据类型,用于表示内存中的数据集。DataFrame 类似于表格或电子表格。DataFrame 的每一列都有一个名称(标题),每一行都由一个唯一的数字标识。DataFrame 中的每一列都像二维数组一样进行结构化,但每列可以分配自己的数据类型。
-
数据并行处理
-
dataset(数据集)
- 数据集被广泛定义为结构化或非结构化数据记录的集合。一组原始数据,通常(但不限于)采用以下格式之一进行整理:电子表格、CSV(逗号分隔值)格式的文件。有关详情,请参阅创建数据集
-
标准答案
- 该术语是指根据真实世界(例如标准答案数据集)验证机器学习的准确率。
-
损失(费用)
- 在监督式模型训练期间,用于衡量模型预测结果与标签之间的差距。损失函数用于计算损失。
-
模型
- 任何模型,无论是否经过预训练。一般来说,任何处理输入数据并返回输出的数学结构。换句话说,模型是系统进行预测所需的一组参数和结构。
-
流水线作业
- 流水线作业或流水线运行对应于 Vertex AI API 中的 PipelineJob 资源。它是机器学习流水线定义的执行实例,该定义为由输入/输出依赖项相互关联的一组机器学习任务。