缓存查询

当先前的 SQL 查询有缓存结果可用,并且您的缓存政策允许使用此函数时,Looker 会使用这些结果,从而减少数据库的负载并提升性能。本页面介绍了 Looker 的默认缓存政策,以及可用于修改 Looker 实例上缓存结果时长的选项。

Looker 如何使用缓存的查询

对于 SQL 查询,Looker 中的缓存机制的运作方式如下:

  1. 从探索、Look 或信息中心运行 SQL 查询时,Looker 会检查缓存,以查看该查询是否已缓存结果。仅当查询的各个方面(包括字段、过滤条件、参数和行数上限)都相同时,才会使用缓存的结果。

  2. 如果找到缓存结果,Looker 会检查 LookML 模型中定义的缓存政策,以确定缓存结果是否已过期。如果缓存的结果尚未过期,Looker 会使用缓存的结果进行查询。

  3. 如果未找到查询的缓存结果,或者缓存结果已过期,Looker 将对数据库运行查询。然后,系统会缓存新的查询结果。

默认的缓存保留政策为 1 小时。下一部分(修改缓存保留政策)介绍了如何缩短或延长此时间,以及将缓存保留政策同步到数据库的 ETL(提取、转换和加载)进程的选项。

修改缓存保留政策

您可以在 LookML 探索级别和 LookML 模型级别指定缓存保留政策。

建议的缓存机制是在模型级别使用 datagroup 参数。借助数据组,您可以使用 sql_trigger 参数并使用 max_cache_age 参数设置缓存到期时间间隔,以便将模型的缓存保留政策与数据库的 ETL 时间表同步。如需了解详情,请参阅缓存查询和使用数据组重建 PDT 部分。

对于更简单的方法,您可以改用模型级别探索级别persist_for 参数。以这种方式使用 persist_for 参数,您可以设置缓存过期间隔时间,该间隔时间将替换 1 小时的默认间隔时间。但是,出于一些原因,使用 persist_for 不如使用数据组可靠,如使用 final_for 缓存查询部分所述。

如果探索或模型定义了数据组或 persist_for,则会按如下方式修改缓存政策:

  • persist_for 间隔或数据组的 max_cache_age 间隔之前:如果重新运行查询,Looker 会从缓存中提取数据。
  • persist_for 间隔或数据组的 max_cache_age 间隔到期时:Looker 会从缓存中删除数据。
  • persist_for 间隔时间或数据组的 max_cache_age 间隔时间之后:如果重新运行查询,Looker 会直接从数据库拉取数据并重置 persist_formax_cache_age 间隔时间。

这里的一个要点是,当 persist_formax_cache_age 间隔到期后,数据会从缓存中删除。

如果缓存达到存储空间上限,系统会根据最近最少使用 (LRU) 算法移除数据,但 persist_formax_cache_age 时间间隔到期的数据会一次性全部删除。

最大限度地减少数据在缓存中花费的时间

Looker 始终会将查询结果写入缓存。即使 persist_formax_cache_age 间隔设置为零,缓存的数据可能仍会存储长达 10 分钟。存储在磁盘缓存中的所有客户数据均经过高级加密标准 (AES) 加密。

要最大限度地缩短在缓存中存储的数据的时间,请执行以下操作:

  • 对于任何 persist_for 参数(对于模型或探索)或 max_cache_age 参数(对于数据组),请将值设置为 0 minutes。Looker 会在 persist_for 时间间隔到期,或数据达到其数据组中指定的 max_cache_age 时间间隔时删除缓存。(无需将 PDT 的 persist_for 参数设置为 0 minutes,即可最大限度地减少存储在缓存中的数据量。PDT 会写入数据库本身,而不是缓存。)
  • suggest_persist_for 参数设置为较小的时间间隔。suggest_persist_for 值指定 Looker 应在缓存中保留过滤器建议的时长。过滤器建议基于对要过滤的字段的值进行查询。这些查询结果保存在缓存中,以便 Looker 能够在用户在过滤条件文本字段输入内容时快速提供建议。过滤器建议默认缓存 6 小时。如需尽可能缩短数据在缓存中保存的时间,请将 suggest_persist_for 值设置为较小的值,例如 5 minutes

检查是否从缓存中返回查询

探索窗口中,您可以在运行查询后查看运行按钮旁边的信息,从而确定查询是否从缓存中返回。

当从缓存中返回查询时,将显示“from cache”字样。否则,系统会显示返回查询所花费的时间。

强制从数据库生成新结果

探索窗口中,您可以强制从数据库中检索新结果。运行查询(包括合并结果查询后),从探索操作齿轮菜单中选择清除缓存和刷新选项。

缓存查询并使用数据组重建 PDT

使用数据组来协调数据库的 ETL(提取、转换和加载)时间表与 Looker 的缓存政策和 PDT 重建时间表。

您可以根据新数据添加到数据库的时间,使用数据组指定 PDT 重建触发器。然后,您可以将同一数据组应用于探索或模型,这样缓存的结果也会在 PDT 重建时过期。

或者,您也可以使用数据组将 PDT 重建触发器与最长缓存存在时间分离。如果您的探索既基于更新频率非常高的数据,又连接到不太经常重建的 PDT,这样做会很有用。在这种情况下,您可能希望查询缓存的重置频率高于 PDT 的重新构建频率。

定义数据组

模型文件或其自己的 LookML 文件中使用 datagroup 参数定义数据组。如果您希望为项目中的不同探索和/或 PDT 使用不同的缓存和 PDT 重新构建政策,可以定义多个数据组。

datagroup 参数可以具有以下子参数:

  • label - 为数据组指定可选标签。
  • description - 为数据组指定说明(可选),该说明可用于解释数据组的用途和机制。
  • max_cache_age - 指定一个用于定义时间段的字符串。当查询缓存的存在时间超过该时间段时,Looker 会将缓存失效。下次发出查询时,Looker 会将查询发送到数据库以获取最新结果。
  • sql_trigger - 指定返回一行、一列的 SQL 查询。如果查询返回的值与查询先前的结果不同,则数据组会进入触发状态。
  • interval_trigger - 指定触发数据组的时间表,例如 "24 hours"

数据组必须至少包含 max_cache_age 参数、sql_trigger 参数或 interval_trigger 参数。

下面是一个数据组示例,其中 sql_trigger 设置为每天重新构建 PDT。此外,max_cache_age 会设置为每两小时清除一次查询缓存,以防任何探索将 PDT 与每天刷新频率超过一次的其他数据联接。

datagroup: customers_datagroup {
  sql_trigger: SELECT DATE(NOW());;
  max_cache_age: "2 hours"
}

定义数据组后,您可以将其分配给探索和 PDT:

使用数据组指定 PDT 的重新构建触发器

如需使用数据组定义 PDT 重建触发器,请使用 sql_triggerinterval_trigger 子参数创建 datagroup 参数。然后,使用 PDT 的 derived_table 定义中的 datagroup_trigger 子参数,将该数据组分配给各个 PDT。如果您对 PDT 使用 datagroup_trigger,则无需为派生表指定任何其他持久性策略。如果您为一个 PDT 指定多个持久性策略,您会在 Looker IDE 中收到警告,并且仅使用 datagroup_trigger

以下示例展示了使用 customers_datagroup 数据组的 PDT 定义。此定义还会在 customer_idfirst_order_date 上添加多个索引。如需详细了解如何定义 PDT,请参阅 Looker 中的派生表文档页面。

view: customer_order_facts {
  derived_table: {
    sql: ... ;;
    datagroup_trigger: customers_datagroup
    indexes: ["customer_id", "first_order_date"]
  }
}

如需详细了解数据组如何与 PDT 搭配使用,请参阅 Looker 中的派生表文档页面。

使用数据组为探索指定查询缓存重置

触发数据组后,Looker 重新生成器将重新构建将该数据组用作持久性策略的 PDT。重新构建该数据组的 PDT 后,Looker 将为使用该数据组重建的 PDT 的探索清除缓存。如果您要为数据组自定义查询缓存重置时间表,可以在数据组定义中添加 max_cache_age 参数。除了 Looker 在重新构建数据组的 PDT 时执行自动查询缓存重置之外,您还可以使用 max_cache_age 参数按指定的时间表清除查询缓存。

如需使用数据组定义查询缓存政策,请使用 max_cache_age 子参数创建 datagroup 参数。

如需指定在探索中用于查询缓存重置的数据组,请使用 persist_with 参数:

以下示例展示了在模型文件中定义的名为 orders_datagroup 的数据组。该数据组有一个 sql_trigger 参数,该参数指定查询 select max(id) from my_tablename 将用于检测 ETL 的发生时间。即使该 ETL 一段时间未发生,数据组的 max_cache_age 也会指定缓存的数据最多使用 24 小时。

该模型的 persist_with 参数指向 orders_datagroup 缓存政策,这意味着这将是模型中所有探索的默认缓存政策。不过,我们不想将模型的默认缓存政策用于 customer_factscustomer_background 探索,因此可以添加 persist_with 参数,为这两个探索指定不同的缓存政策。ordersorders_facts 探索没有 persist_with 参数,因此它们将使用模型的默认缓存政策:orders_datagroup

datagroup: orders_datagroup {
  sql_trigger: SELECT max(id) FROM my_tablename ;;
  max_cache_age: "24 hours"
}

datagroup: customers_datagroup {
  sql_trigger: SELECT max(id) FROM my_other_tablename ;;
}

persist_with: orders_datagroup

explore: orders { ... }

explore: order_facts { ... }

explore: customer_facts {
  persist_with: customers_datagroup
  ...
}

explore: customer_background {
  persist_with: customers_datagroup
  ...
}

如果同时指定了 persist_withpersist_for,您会收到验证警告,并且会使用 persist_with

使用数据组触发预定的传送

数据组还可用于触发信息中心Look 的传送。选择此选项后,Looker 会在数据组完成后发送您的数据,以确保计划内容保持最新状态。

使用数据组的管理面板

如果您拥有 Looker Admin 角色,则可以通过管理面板的数据组页面查看现有的数据组。您可以查看每个数据组的连接、模型和当前状态,以及每个数据组的标签和说明(如果在 LookML 中已指定)。您还可以重置数据组的缓存、触发数据组,或导航到该数据组的 LookML。

使用 persist_for 缓存查询

模型级别探索级别使用 persist_for 参数可以修改 Looker 的默认缓存保留期限(1 小时)。您可以将间隔时间设置为小至 0 minutes,将间隔设置为 8760 hours(1 年)或更长时间。

定义数据组相比,定义 persist_for 参数可能更快更简单,但不太可靠。建议使用数据组而非 persist_for,原因如下:

  • 数据组可以与数据库的 ETL 进程同步。
  • 您可以在多个模型和探索中重复使用数据组。这意味着您可以更新数据组的 max_cache_age,这将更新使用该数据组的每个位置的缓存政策。
  • 您可以从数据组页面清除与数据组关联的所有缓存。