监控和分析 A/B 实验

本页面介绍如何在 Retail 控制台中监控 A/B 实验流量并比较 Retail Search 的关键业务指标。

此功能目前处于非公开预览版阶段。如需使用 A/B 实验流量监控和比较关键业务指标,请与您的零售支持团队联系人联系。

概览

您可以运行 A/B 实验来比较 Retail API 和现有搜索实现的关键业务指标。

设置实验及其流量分配比例后,您可以使用 Retail 控制台中的实验页面来监控实验流量和查看业务指标。

如需在控制台中设置 A/B 实验监控,请输入有关 A/B 测试的信息,例如名称、时间范围和实验组信息。每个实验变体实验组都会映射到您为 A/B 实验创建的实验组,您在控制台中设置的第一个实验组将作为基准对照组。

每个实验都有一个“监控”标签页,其中显示流量分配指标,可帮助您确定 A/B 测试的设置是否正确。这对于验证是否已将偏差引入 A/B 测试非常重要。例如,需要注意的一个典型问题是,某些查询或类别是否由一个实验组提供,而另一个则不然。

每个实验还有一个 Analytics 标签页,您可以在其中查看关键业务指标的比较。本报告中包含两类业务指标:

  • 每次搜索或每次浏览指标,例如每次搜索的点击次数。
  • 每次搜索或每次浏览访问的指标,例如每次浏览访问的收入。

如需查看指标的完整列表,请参阅指标列表

每个业务指标都会提供原始值、与基准对照组的相对升幅以及 95% 的置信区间。您可以按日期查看汇总指标和指标。

“流量监控”标签页会显示是否发生了意外的流量分配以及发生这种流量的日期。通过将实际流量分配百分比与您在设置监控时输入的预期分配百分比进行比较,来确定意外的流量分配。如果相对差值等于或小于 10%,则流量分配会被视为正确。例如,如果流量拆分为两个实验组,则实际分配比例为 45% 到 55% 只是在预期范围内。

您可以使用控制台来同时监控多个实验。

按日期划分的实验日期和指标使用美国/洛杉矶作为时区,并在午夜/凌晨 12:00 作为开始日期和结束日期。

无论实验正在进行、已完成还是待处理,您都可以随时在控制台中更新实验详细信息,例如开始日期和结束日期、变体组数量、实验 ID 以及预期的流量分配百分比。数据可追溯更新。

监控和分析 A/B 实验具有以下要求/限制:

  • 您最多可以跟踪 180 天的实验数据。如果实验的开始时间是超过 180 天,则不会捕获超过该指标的指标。

  • 按查询或按类别的流量监控仅返回实验中所有变体实验组获得流量最多的前 100 个查询或类别。

须知事项

在 Retail 控制台中设置 A/B 实验的监控功能之前,请执行以下操作:

  • 为 Retail API 提供的事件和现有的搜索实现设置用户事件提取。
  • 查看 A/B 实验最佳实践
  • 使用第三方实验平台(例如 Google 优化工具优化工具)设置实验。
  • 设置并记下每个实验组的用户事件 experimentIds。设置实验监控时,您需要为每个变体实验组指定实验 ID。

在控制台中添加实验

请按照以下步骤在 Retail 控制台中添加要监控的新实验:

在此过程中,您需要在零售控制台中创建与您在第三方实验平台中创建的现有实验组对应的变体实验组。如需查看变体实验组如何映射到现有实验组的示例,请参阅实验设置示例

添加实验详细信息

在控制台中添加实验,然后输入实验详细信息。

  1. 转到 Google Cloud 控制台中的零售实验页面。

    转到“实验”页面

  2. 点击添加实验

    新建实验页面随即打开。

  3. 输入实验的名称。

  4. 选择实验的开始日期和结束日期。

    如果您将实验流量设置为逐渐增加,请将开始日期设置为完成磨合期且流量分配稳定下来。

  5. 选择此实验跟踪的活动类型:

    • 浏览:按页面类别在您的网站上导航。在 Retail API 中,搜索活动会在搜索响应中通过空查询来表示。

    • 搜索:在您的网站上进行文本查询搜索。

接下来,为您的实验创建变体实验组。

添加变体

在控制台中添加实验详细信息后,创建与每个实验组对应的变体实验组。

您设置的第一个变体实验组是基准变体。基准通常代表您现有的解决方案。

在开始之前,请确保您有每个实验组的用户事件 experimentIds

  1. 点击添加变体实验组

    Create Variant Arm 面板随即打开。

  2. 输入与此变体实验组将监控的实验设置关联的用户事件 experimentId

    • 如果您要设置第一个变体实验组:请输入与将作为基准组的基准组相关联的用户事件 experimentId

    • 如果您已设置基准变体实验组:请输入与下一个实验组关联的用户事件 experimentId

  3. 为此变体实验组输入直观易懂的名称。

    此名称会显示在控制台的监控信息中心内。

  4. (可选)提供此变体实验组的说明。

  5. 选择服务流量目的地:

    • Google Retail API:此变体实验组会监控 Retail API 结果的流量。

    • 外部:此变体实验组监控来自外部服务的结果流量。例如,如果实验将现有服务的流量与 Retail API 流量进行比较,基准组(或对照组)变体可能会代表一个外部目标。

  6. 点击创建以完成此变体实验组的创建。

    变体实验组会显示在新建实验页面上。

  7. 重复执行上述步骤,创建与您计划监控的每个实验组关联的变体实验组。

    您必须至少有一个外部实验组和一个 Google Retail API 实验组。

  8. (可选)默认情况下,预期流量百分比会平均分配给所有变体实验组。如需自定义预期流量百分比,请执行以下操作:

    1. 添加变体部分下,点击流量百分比列中的流量百分比值。

      流量百分比面板随即打开。

    2. 权重分配字段中,选择自定义百分比

    3. 在每个变体实验组的流量百分比列中,输入其预期流量百分比。

      所有变体实验组的总流量百分比之和必须等于 100%。

    4. 点击完成

      流量百分比面板将关闭。

  9. 点击新建实验页面上的创建,以完成实验的创建。

    实验会显示在新手入门实验页面上。

实验设置示例

本部分提供了两个实验设置示例。

示例 1 展示了一个基准控件和一个 Retail API 实验组。

示例 2 显示了将基准控制措施与两个 Retail API 实验组进行比较。

示例 1:两个变体实验组

在此示例中,假设您计划设置 A/B 实验:

  • 20% 的搜索请求作为基准对照组发送到内部搜索引擎
  • 20% 的搜索请求以实验组的形式发送到 Retail API
  • 60% 属于未参与 A/B 测试的留出组

请求和用户事件配置如下:

流量类型 发现引擎 event.experimentIds event.attributionToken 流量百分比
控制流量 内部 CONTROL 不适用 20%
实验流量 Retail API EXPERIMENT 来自搜索响应的归因令牌 20%
留出的流量 两者之一 不适用 取决于发现引擎 60%

留出的流量可能由内部搜索引擎和/或 Retail API 处理。因为它们不是 A/B 测试的一部分,所以没有实验 ID。为了指明哪些用户事件是 A/B 测试的一部分,请务必提供 experimentIdsattributionToken 信息。您的 experimentId 字符串可能与此示例中指定的字符串不同。请确保实验 ID 和用户事件使用的 ID 一致。

在控制台中创建相应的实验时,您只需创建两个变体实验组,因为留出组不属于该实验。这两个变体实验组之间的预期流量百分比分配是 50% / 50%。

如需为此示例实验设置监控功能,您需要在控制台中为每个实验组创建相应的变体实验组。下表显示了您将在此示例的变体实验组设置期间在控制台中输入的信息。

变体实验组名称 流量目的地 用户事件实验 ID 预期流量百分比
对照组示例 外部 对照组 50%
实验组示例 Retail API 实验 50%

示例 2:三个变体实验组

在此示例中,假设您计划对头部查询(高频查询)进行 A/B 实验,并且包含开启和关闭动态商品详情。请求和用户事件配置如下:

变体实验组名称 流量目的地 event.experimentIds event.attributionToken 流量百分比
头部查询控制 内部 对照组 不适用 50% 的头部查询
实验期间的头部查询动态商品详情 Retail API EXP_DF_ON 来自搜索响应的归因令牌 25% 的头部查询
头部查询动态商品详情关闭实验 Retail API EXP_DF_OFF 来自搜索响应的归因令牌 25% 的头部查询
非头部查询和其他留出 Retail API 不适用 取决于使用的引擎 不适用

如需为此示例实验设置监控功能,您需要在控制台中为每个实验组创建相应的变体实验组。下表显示了您将在此示例的变体实验组设置期间在控制台中输入的信息。

变体实验组名称 流量目的地 用户事件实验 ID 预期流量百分比
对照组示例 外部 对照组 50%
实验组 1 示例 Retail API EXP_DF_ON 25%
实验组 2 示例 Retail API EXP_DF_OFF 25%

流量指标

实验的 Monitoring 页面会显示以下指标是否存在意外的流量分配:

  • 按日期搜索/浏览事件数
  • 每个日期的搜索/浏览访问者数量
  • 每个类别的搜索/浏览事件数

当其中任一指标发生意外流量分配时,其 Monitoring 页面顶部的卡片会显示意外流量分配的日期。点击意外流量分配,以查看可过滤的表格,其中列出了该指标的意外流量分配。

实验监控页面上的下表按使用情况比较了各个变体实验组的流量指标。点击任意表标题旁边的查看更多,系统会显示一个可过滤表,其中列出了该指标的所有流量分配:

  • 搜索/浏览/事件数(按日期):变体组中在给定日期发生的搜索或浏览的总数。

  • 搜索/浏览访问者数量(按日期):在指定日期曾查询或浏览变体组的访问者数量。

  • 每个类别的搜索/浏览事件数:从实验组的开始日期到结束日期(如果实验正在进行,则一直持续到今天)的给定查询或类别的总搜索次数。此表格仅显示实验中所有变体实验组的总流量的前 100 个查询或类别。

监控实验

新手入门实验页面会显示一个近期实验表格。

如需监控实验,请执行以下操作:

  1. 转到 Google Cloud 控制台中的零售实验页面。

    转到“实验”页面

  2. 点击相应实验名称。

    系统会打开该实验的监控页面。

  3. 检查页面上是否存在意外的流量分配情况。

    每个指标都会显示所有意外流量分配发生的日期。

  4. 如果您看到意外的拆分,请点击意外的流量分配,以查看可过滤的表格,其中列出了该指标的意外流量分配。

解决意外的流量分配问题

通过 Retail 控制台监控实验有助于将注意力集中在实验中的潜在问题。

如果您遇到意外的流量分配,请确保为事件添加了正确的实验 ID。例如,属于对照组且标记有错误的实验 ID 的事件可能会导致该事件归因于错误的变体实验组。

如果事件代码正常工作,零售控制台报告的意外流量分配可能表明实验平台中存在流量分配问题。在这种情况下,请先暂停 A/B 测试,然后再解决问题,以免实验产生错误的结果。

用于分析的业务指标

系统提供了两组业务指标:

  • 每次搜索或每次浏览的指标
  • 每次搜索或每次浏览

每次搜索访问指标

每次搜索访问指标的定义如下。每次浏览访问指标的定义与每次搜索访问指标的定义类似,但搜索的所有实例都会替换为浏览。

在采购订单费率中,一个采购订单可以包含多个 SKU。每个 SKU 的数量可以大于或等于 1。

指标名称 定义
搜索访问次数 至少包含一次搜索的访问次数。
网页浏览量比率 点击次数(网页浏览量)/搜索访问次数
添加到购物车 (ATC) 率 搜索访问次数/搜索访问次数/添加到购物车的单元数
采购订单费率 搜索访问次数 / 搜索访问次数的采购订单数量
收入率 搜索访问次数 / 搜索访问次数的总和
平均订单价值 (AOV) 搜索广告带来的收入总和 / 搜索广告实体店光顾次数

每次搜索指标

下面列出了按搜索划分的指标定义。“每次浏览”指标的定义与“每次搜索”指标的定义类似,所有搜索实例均替换为“浏览”。

指标名称 定义
搜索量 搜索事件的数量
没有结果率 无结果的搜索次数 / 搜索次数
点击率 (CTR) 搜索驱动型点击次数(网页浏览量)/搜索次数
添加到购物车 (ATC) 率 搜索驱动型添加到购物车单元的数量 / 搜索次数
购买率 搜索驱动型购买单元数 / 搜索次数
收入率 搜索带来的收入 / 搜索次数总和
平均单位价值 (AUV) 搜索驱动型收入的总和 / 搜索驱动型购买单元数

分析实验业务效果

每个实验的分析标签页都会显示一个业务指标信息中心。此信息中心会显示变体组之间的比较结果。

指标分为两个部分:

  • 每次搜索访问和每次浏览访问指标
  • 每次搜索和每次浏览指标

搜索指标或浏览指标是根据实验的 ProductType 属性显示的。

每个部分都会显示一个摘要指标表,其中显示日期范围过滤条件中显示的日期范围内的指标汇总结果。默认日期值为实验开始日期和结束日期。

每个指标都显示为一个汇总结果表和一个每日值图表,提供更详细的信息。

汇总表格日期范围使用实验的开始日期和结束日期作为默认日期值。如果实验正在运行,结束日期会设置为当前日期。您可以修改日期范围过滤条件。如果为 userAgent 提供了已提取的用户事件,您还可以按设备类型细分指标。点击刷新图标,将修改后的过滤条件应用于指标。

当指标的相对升幅正好超出置信区间带宽时,会针对该变体显示绿色的背景颜色。同样,如果相对升幅为负数,则该变体会显示红色背景颜色。如果相对升幅小于置信区间宽度,则灰色背景颜色表示结果没有统计显著性。

例如,比较变体实验组与基准对照组时:

  • 如果指标每次搜索的点击率为 +3.0%,且以提升 CI 显示的置信区间为 [2.1%, 4.0%],则变体实验组会以绿色突出显示,以表明与基准对照组相比,该指标的变体效果更佳。
  • 如果指标每次浏览访问带来的收入为 -1.5%,置信区间为 [-2.6%, -0.4%],则变体实验组会以红色突出显示,以表明该指标在指标方面与基准组合相比表现较差。
  • 如果每次搜索的平均单位值为 +1.0%,而置信区间为 [-1.1%, 3.0%],则变体实验组以灰色突出显示,以表明效果差异尚未具有统计显著性。

通常,数据点越多,方差越小。几周内的累计指标的置信区间带宽低于每日指标,更有可能具有统计显著性。

修改实验详细信息

无论实验正在进行、已完成还是待处理,您都可以随时在控制台中更新实验详细信息,例如开始日期和结束日期、变体组数量、实验 ID 以及预期的流量分配百分比。数据可追溯更新。

要修改实验详情,请执行以下操作:

  1. 转到 Google Cloud 控制台中的零售实验页面。

    转到“实验”页面

  2. 在显示近期实验的表格中,找到您打算修改的实验。

  3. 点击表格行右侧的三点状操作图标,然后点击修改

    系统会打开修改实验页面。

  4. 修改您想要更新的实验字段。

  5. 点击更新以保存更改。

从控制台中删除实验

如需从 Retail 控制台删除实验,请执行以下操作:

  1. 转到 Google Cloud 控制台中的零售实验页面。

    转到“实验”页面

  2. 在显示近期实验的表格中,找到您打算删除的实验。

  3. 点击表格行右侧的三点状操作图标,然后点击删除

    系统会打开删除实验?确认窗口。

  4. 输入实验名称,然后点击确认以确认删除。

    删除完成后,控制台会显示一条消息,告知您实验已成功删除。