Apache Spark

Looker 通过 JDBC 连接与 Spark Thrift 服务器连接到 Apache Spark。

创建与数据库的 Looker 连接

在 Looker 的管理部分中,选择连接,然后点击添加连接

填写连接详情。大多数设置是大多数数据库方言通用的设置。如需了解相关信息,请参阅将 Looker 连接到数据库文档页面。下面将介绍部分设置:

  • 名称:连接的名称。这将在 LookML 模型中引用连接方式。
  • Dialect:选择 Apache Spark 1.5+Apache Spark 2+Apache Spark 3+
  • 主机:Thrift 服务器主机。
  • 端口:Thrift 服务器端口(默认为 10000)。
  • 数据库:要建模的默认架构/数据库。如果没有为表指定数据库,那么系统会假定没有数据库。
  • 用户名:Looker 将对哪个用户进行身份验证。
  • 密码:Looker 用户的可选密码。
  • 启用 PDT:使用此切换开关可以启用永久性派生表。启用 PDT 后,Connection 窗口会显示其他 PDT 设置和 PDT Override 部分。
  • 临时数据库:用于存储 PDT 的临时架构/数据库。它必须使用 CREATE SCHEMA looker_scratch; 等语句事先创建。
  • 更多 JDBC 参数:在此处添加任何其他 Hive JDBC 参数,例如: ;spark.sql.inMemoryColumnarStorage.compressed=true
    ;auth=noSasl
  • SSL:取消选中此选项。
  • 数据库时区:存储在 Spark 中的数据的时区。通常可以留空或设置为世界协调时间 (UTC)。
  • 查询时区:在 Looker 中查询数据时显示的时区。

如需验证连接是否成功,请点击测试。如需了解问题排查信息,请参阅测试数据库连接文档页面。

要保存这些设置,请点击连接

功能支持

为了让 Looker 支持某些功能,您的数据库方言也必须支持这些功能。

Apache Spark 1.5 及更高版本

自 Looker 23.8 起,Apache Spark 1.5 及更高版本支持以下功能:

功能 是否支持?
支持级别
集成
Looker (Google Cloud Core)
对称聚合
派生表
永久性 SQL 派生表
永久性原生派生表
稳定版观看次数
查询终止
基于 SQL 的数据透视
时区
SSL
小计
JDBC 附加参数
区分大小写
位置类型
列表类型
百分位
不同百分位
SQL Runner 显示进程
SQL Runner 描述表
SQL Runner 显示索引
SQL Runner 选择 10
SQL 运行程序计数
SQL 说明
OAuth 凭据
上下文评论
连接池
HLL 素描
总体认知度
PDT 增幅
毫秒
微秒
具体化视图
唯一计数

Apache Spark 2.0

自 Looker 23.8 起,Apache Spark 2.0 支持以下功能:

功能 是否支持?
支持级别
支持
Looker (Google Cloud Core)
对称聚合
派生表
永久性 SQL 派生表
永久性原生派生表
稳定版观看次数
查询终止
基于 SQL 的数据透视
时区
SSL
小计
JDBC 附加参数
区分大小写
位置类型
列表类型
百分位
不同百分位
SQL Runner 显示进程
SQL Runner 描述表
SQL Runner 显示索引
SQL Runner 选择 10
SQL 运行程序计数
SQL 说明
OAuth 凭据
上下文评论
连接池
HLL 素描
总体认知度
PDT 增幅
毫秒
微秒
具体化视图
唯一计数

Apache Spark 3 及更高版本

自 Looker 23.8 起,Apache Spark 3 及更高版本支持以下功能:

功能 是否支持?
支持级别
支持
Looker (Google Cloud Core)
对称聚合
派生表
永久性 SQL 派生表
永久性原生派生表
稳定版观看次数
查询终止
基于 SQL 的数据透视
时区
SSL
小计
JDBC 附加参数
区分大小写
位置类型
列表类型
百分位
不同百分位
SQL Runner 显示进程
SQL Runner 描述表
SQL Runner 显示索引
SQL Runner 选择 10
SQL 运行程序计数
SQL 说明
OAuth 凭据
上下文评论
连接池
HLL 素描
总体认知度
PDT 增幅
毫秒
微秒
具体化视图
唯一计数

后续步骤

创建连接后,设置身份验证选项