此页面由 Cloud Translation API 翻译。

Amazon Athena

Looker 支持连接到 Amazon Athena，这是一种交互式查询服务，可让您使用标准 SQL 轻松分析 Amazon S3 中的数据。Amazon Athena 是无服务器服务，因此无需管理任何基础设施。您只需为运行的查询付费。

加密网络流量

最佳做法是对 Looker 应用与数据库之间的网络流量进行加密。不妨考虑启用安全的数据库访问文档页面上介绍的选项之一。

配置 Amazon Athena 连接

本页介绍了如何将 Looker 连接到 Amazon Athena 实例。

确保您具有以下各项：
- 一对 Amazon AWS 访问密钥。
- 包含您想在 Looker 中使用 Amazon Athena 查询的数据的 S3 存储桶。Amazon AWS 访问密钥必须具有此存储桶的读写权限。
  
  Amazon Athena 必须通过角色或权限集以及防火墙规则来访问此 S3 存储桶。请勿向 Looker 的 IP 地址的 S3 存储桶添加安全规则，因为这可能会意外阻止 Amazon Athena 对 S3 存储桶的访问。（对于 Amazon Athena 以外的其他方言，用户可能需要使用 IP 许可名单从网络层限制对数据的访问，如启用安全的数据库访问文档页面中所述。）
- 了解 Amazon Athena 实例数据的位置。您可以在 Amazon 控制台的右上角找到区域名称。
在 Looker 的管理部分中，选择连接，然后点击添加连接。
填写连接详细信息：

注意：《Simba Athena JDBC 驱动程序（带 SQL 连接器）安装和配置指南》详细介绍了自定义 JDBC 配置和其他配置信息。
- 名称：指定连接的名称。这是您在 LookML 项目中引用连接的方式。
- 方言：选择 Amazon Athena。
- 主机和端口：按照 Athena 文档中关于 JDBC 网址格式的说明指定主机名和端口。主机应为有效的 Amazon 端点（如 athena.eu-west-1.amazonaws.com），端口应保持为 443。如需查看支持 Athena 的最新端点列表，请参阅此 AWS 一般参考页面。
- 数据库：指定要建模的默认数据库。可以访问其他数据库，但 Looker 会将此数据库视为默认数据库。
- 用户名：指定 AWS 访问密钥 ID。
- 密码：指定 AWS 私有访问密钥。
- 启用 PDT：使用此切换开关可启用永久性派生表 (PDT)。启用 PDT 后，系统会显示其他 PDT 字段以及连接的 PDT 覆盖部分。
- 临时数据库：指定 S3 存储桶中您希望 Looker 写入 PDT 的输出目录的名称。您必须在其他 JDBC 参数字段中指定输出目录的完整路径；请参阅本页上的为查询结果输出和 PDT 指定 S3 存储桶部分。
- PDT 构建器连接数上限：指定此连接上可能存在的并发 PDT 构建数量。将此值设置得过高可能会对查询时间产生负面影响。如需了解详情，请参阅将 Looker 连接到数据库文档页面。
- 其他 JDBC 参数：指定连接的其他参数：
  - s3_staging_dir 参数是 Looker 应使用的 S3 存储桶，用于存储查询结果输出和 PDT；请参阅本页上的为查询结果输出和 PDT 指定 S3 存储桶部分。
  - 用于流式传输结果的标志。如果您已将 athena:GetQueryResultsStream 政策附加到 Athena 用户，则可以在其他 JDBC 参数的末尾添加 ;UseResultsetStreaming=1，以显著提高提取大型结果集的性能。此参数默认设置为 0。
  - 要添加到 JDBC 连接字符串中的可选其他参数。
- SSL：忽略；默认情况下，与 AWS API 的所有连接都将加密。
- 每个节点的最大连接数：默认情况下，此值设置为 5。如果 Looker 是针对 Athena 运行的主要查询引擎，您可以将此值增加到 20。如需详细了解服务限制，请参阅 Athena 服务限制文档。如需了解详情，请参阅将 Looker 连接到数据库文档页面。
- 连接池超时：指定连接池超时时间。默认情况下，超时时间设置为 120 秒。如需了解详情，请参阅将 Looker 连接到数据库文档页面。
- SQL Runner 预缓存：如果您希望 SQL Runner 仅在选择表时加载表信息，请取消选中此选项。如需了解详情，请参阅将 Looker 连接到数据库文档页面。
- 数据库时区：指定数据库中使用的时区。如果您不想进行时区转换，请将此字段留空。如需了解详情，请参阅使用时区设置文档页面。

如需验证连接是否成功，请点击测试。如需了解问题排查信息，请参阅测试数据库连接文档页面。

如需保存这些设置，请点击连接。

指定用于输出查询结果和 PDT 的 S3 存储桶

使用连接页面的其他 JDBC 参数字段，配置 Looker 将用于存储查询结果输出的 S3 存储桶的路径，并指定您希望 Looker 将 PDT 写入其中的 S3 存储桶中的输出目录的名称。使用 s3_staging_dir 参数指定此信息。

s3_staging_dir JDBC 参数是配置 Amazon Athena S3OutputLocation 属性的另一种方式，该属性是 Athena JDBC 连接所必需的。如需了解详情并查看所有可用的 JDBC 驱动程序选项，请参阅 Athena 文档中的“JDBC 驱动程序选项”。

在其他 JDBC 参数字段中，使用以下格式指定 s3_staging_dir 参数：

`s3_staging_dir=s3://<s3-bucket>/<output-path>`

其中：

<s3-bucket> 是 S3 存储桶的名称。
<output-path> 是 Looker 将写入查询结果输出的路径。

AWS 访问密钥对必须对 <s3-bucket> 目录具有写入权限。

如需配置 Looker 将在其中写入 PDT 的目录，请在临时数据库字段中输入 S3 存储桶中目录的路径。例如，如果您希望 Looker 将 PDT 写入 s3://<s3-bucket>/looker_scratch，请在临时数据库字段中输入以下内容：

`looker_scratch`

只需输入目录的路径。Looker 会从您在其他 JDBC 参数字段中输入的 s3_staging_dir 参数获取 S3 存储桶名称。

S3 存储桶注意事项

建议您配置 Amazon S3 对象生命周期，以定期清理指定 S3 存储桶中不需要的文件。这种情况是有原因的：

Athena 会将每个查询的查询结果存储在 S3 存储桶中。请参阅 Athena 查询。
如果您已启用 PDT，则在构建 PDT 时，系统会将有关所创建表的元数据存储在 S3 存储桶中。

资源

Amazon Athena 文档
适用于 Athena 的 Amazon Web Services 控制台（需要登录 AWS）
Amazon Athena SQL 和 HiveQL 参考

调试

Amazon 提供了 LogLevel 和 LogPath JDBC 驱动程序选项，用于调试连接。如需使用这些参数，请将 ;LogLevel=DEBUG;LogPath=/tmp/athena_debug.log 添加到其他 JDBC 参数字段的末尾，然后再次测试连接。

如果 Looker 托管了该实例，则 Looker 支持人员或您的分析师需要检索此文件才能继续调试。

功能支持

为了让 Looker 支持某些功能，您的数据库方言也必须支持这些功能。

截至 Looker 25.18，Amazon Athena 支持以下功能：

功能	是否支持？
支持级别	支持
Looker (Google Cloud Core)	是
对称聚合	是
派生表	是
基于 SQL 的永久性派生表	是
永久性原生派生表	是
稳定视图	是
终止查询	是
基于 SQL 的透视	是
时区	是
SSL	是
小计	否
JDBC 其他参数	是
区分大小写	是
位置类型	是
列表类型	是
百分位	是
不同值百分位	否
SQL Runner“显示进程”	否
SQL Runner“描述表”	是
SQL Runner 显示索引	否
SQL Runner 选择 10	是
SQL Runner 计数	是
SQL Explain	否
OAuth 2.0 凭据	否
上下文注释	是
连接池	否
HLL 草图	是
汇总认知度	是
增量 PDT	否
毫秒	是
微秒	否
具体化视图	否
与前一时间段相比的指标	否
近似计数不同	是

后续步骤

完成数据库连接后，配置身份验证选项。