本页面介绍了如何将 Looker 连接到 Apache Hive 2.3+ 和 Apache Hive 3.1.2+。
请注意以下关于不同版本的 Apache Hive 的 Looker 支持的信息:
- Looker 支持与 Apache Hive 2.3 及更高版本和 Apache Hive 3.1.2 及更高版本建立连接。
- 对于 Apache Hive 3.1.2 及更高版本,Looker 只能在高于 3.1.2 的版本上与 Apache Hive 3 数据库完全集成。这是由于 Hive 版本 2.4.0 到 3.1.2 中的查询解析问题,导致 Looker 生成的 SQL 的解析时间极长。
- Looker 不支持与 Apache Hive 2 的连接。针对与 Apache Hive 2 的连接的查询将返回错误。
加密网络流量
最佳实践是对 Looker 应用和数据库之间的网络流量进行加密。考虑启用安全的数据库访问文档页面中介绍的某个选项。
简介
Looker 采用 JDBC 连接到数据库服务器。对 Hive 而言,这是旧服务器 (HiveServer2)。如需了解详情,请参阅 Apache 文档。
默认情况下,此服务器将监听端口 10000。
Looker 是一种交互式查询工具,因此需要与交互式 SQL 引擎配合使用。如果 Hive 在 MapReduce 上运行(hive.execution.engine
设置为 mr
),则 Hive 返回查询结果的速度会过慢,导致结果不切实际。
Looker 通过 Tez (hive.execution.engine=tez
) 对 Hive 进行了测试,不过您也可以在 Spark 上针对 Hive 运行 Looker。Hive 1.1 版中添加了对 Spark 支持。(Looker 支持 Hive 1.2.1 及更高版本。)
永久性派生表 (PDT)
如需使用 Hive 连接在 Looker 中启用永久性派生表 (PDT),请创建暂存架构供 Looker 使用。以下是可用于创建 looker_scratch
架构的命令示例:
CREATE SCHEMA looker_scratch;
Looker 用于连接到 Hive 的用户账号(如果未使用身份验证,则可以匿名)在暂存架构中具有以下权限:
- 创建表
- 修改表
- 丢弃表
在尝试使用 Hive 创建 PDT 之前,请先使用 JDBC 客户端对此进行测试。
队列
如果您希望来自 Looker 的查询进入特定队列,请在连接设置页面的其他 JDBC 参数字段中输入队列名称参数:
?tez.queue.name=the_bi_queue
您可以在连接设置页面的其他 JDBC 参数字段中以这种方式设置其他 Hive 参数。
使用用户属性,不同用户或不同用户组的查询可以进入不同的队列。为此,请创建一个名为 queue_name
之类的用户属性;然后,在其他 JDBC 参数字段中添加以下内容:
?tez.queue.name={{ _user_attributes['queue_name'] }}
您也可以使用此参数按用户或每个群组自定义其他 hive-site.xml
参数。
创建 Looker 与数据库的连接
如需创建从 Looker 到数据库的连接,请按以下步骤操作:
- 在 Looker 的管理部分中,选择连接,然后点击添加连接。
从拨号器下拉菜单中选择 Apache Hive 2.3+ 或 Apache Hive 3.1.2+。
填写连接详情。大多数设置对大多数数据库方言是通用的。如需了解详情,请参阅将 Looker 连接到您的数据库文档页面。下面将介绍其中一些设置:
- 名称:指定连接的名称。这是您在 LookML 项目中引用连接的方式。
- Host(主机):指定主机名。
- Port:指定数据库端口。
- 数据库:指定数据库名称。
- 用户名:指定数据库用户名。
- Password:指定数据库用户密码。
- 启用 PDT:使用此切换开关可启用永久性派生表。启用 PDT 后,连接窗口会显示其他 PDT 设置以及 PDT 覆盖部分。
- 临时数据库:指定在上文 PDT 部分中创建的临时架构的名称。
- PDT 构建器连接数上限:指定此连接上可能的并发 PDT 构建数。如果设置得过高,可能会对查询时间产生不利影响。如需了解详情,请参阅将 Looker 连接到您的数据库文档页面。
- 其他 JDBC 参数:指定任何其他 JDBC 字符串参数。
- 数据组和 PDT 维护时间表:指定
cron
表达式,指示 Looker 应在何时检查数据组和永久性派生表。数据组和 PDT 维护时间表文档。 - SSL:选中此选项可使用 SSL 连接。
- 验证 SSL:检查主机名验证。
- 每个节点的连接数上限:此设置最初可以保留默认值。如需了解详情,请参阅将 Looker 连接到您的数据库文档页面。
- 连接池超时:此设置最初可以保留为默认值。如需详细了解此设置,请参阅将 Looker 连接到数据库文档页面的连接池超时部分。
- SQL Runner 预缓存:要使 SQL Runner 不预加载表信息而仅在选中表时加载表信息,请取消选中此选项。如需详细了解此设置,请参阅将 Looker 连接到数据库文档页面的 SQL Runner 预缓存部分。
- Database Time Zone:指定数据库中使用的时区。如果您不想进行时区转换,请将此字段留空。如需了解详情,请参阅使用时区设置文档页面。
如需验证连接是否成功,请点击 Test。如需了解问题排查信息,请参阅测试数据库连接文档页面。
如需保存这些设置,请点击连接。
功能支持
为了让 Looker 支持某些功能,您的数据库方言也必须支持这些功能。
Apache Hive 2.3 及更高版本
从 Looker 24.8 开始,Apache Hive 2.3+ 支持以下功能:
特征 | 是否支持? |
---|---|
支持级别 | 集成 |
Looker (Google Cloud Core) | 否 |
对称聚合 | 否 |
派生表 | 是 |
永久性 SQL 派生表 | 是 |
永久性原生派生表 | 是 |
稳定版视图 | 是 |
查询终止 | 是 |
基于 SQL 的数据透视 | 否 |
时区 | 是 |
SSL | 是 |
小计 | 是 |
JDBC 其他参数 | 是 |
区分大小写 | 是 |
位置类型 | 是 |
列表类型 | 是 |
百分位 | 是 |
非重复百分位 | 否 |
SQL Runner 显示进程 | 否 |
SQL Runner 描述表 | 是 |
SQL Runner 显示索引 | 是 |
SQL Runner 优选 10 | 是 |
SQL 运行程序数量 | 是 |
SQL 说明 | 是 |
OAuth 凭据 | 否 |
上下文注释 | 是 |
连接池 | 否 |
HLL 素描 | 否 |
总体认知度 | 是 |
递增 PDT | 否 |
毫秒 | 是 |
微秒 | 是 |
具体化视图 | 否 |
近似计数不重复 | 否 |
Apache Hive 3.1.2 及更高版本
从 Looker 24.8 开始,Apache Hive 3.1.2+ 支持以下功能:
特征 | 是否支持? |
---|---|
支持级别 | 受支持 |
Looker (Google Cloud Core) | 是 |
对称聚合 | 否 |
派生表 | 是 |
永久性 SQL 派生表 | 是 |
永久性原生派生表 | 是 |
稳定版视图 | 是 |
查询终止 | 是 |
基于 SQL 的数据透视 | 否 |
时区 | 是 |
SSL | 是 |
小计 | 是 |
JDBC 其他参数 | 是 |
区分大小写 | 是 |
位置类型 | 是 |
列表类型 | 是 |
百分位 | 是 |
非重复百分位 | 否 |
SQL Runner 显示进程 | 否 |
SQL Runner 描述表 | 是 |
SQL Runner 显示索引 | 否 |
SQL Runner 优选 10 | 是 |
SQL 运行程序数量 | 是 |
SQL 说明 | 是 |
OAuth 凭据 | 否 |
上下文注释 | 是 |
连接池 | 否 |
HLL 素描 | 否 |
总体认知度 | 是 |
递增 PDT | 否 |
毫秒 | 是 |
微秒 | 是 |
具体化视图 | 否 |
近似计数不重复 | 否 |
后续步骤
将数据库连接到 Looker 后,请为用户配置登录选项。