将 Looker 后端数据库迁移到 MySQL

默认情况下,Looker 使用 HyperSQL 内存中数据库来存储其配置、用户和其他数据。在繁忙的实例上,此数据库的大小可能会达到 GB,从而可能导致性能问题、Java 内存压力和启动时间过长。

在客户托管的实例中,如果内部 HyperSQL 数据库的大小超过 600 MB,我们建议您将 HyperSQL 数据库替换为完整的 MySQL 数据库后端。如需检查 HyperSQL 数据库的大小,请查看 looker.script 文件的大小:

cd looker
cd .db
ls -lah

如果 looker.script 文件的大小超过 600 MB,请按照以下步骤迁移到外部 MySQL 数据库。

预配 MySQL 实例

预配一个 MySQL 8.0.x 实例以用作后端。不支持 8.0 之前的 MySQL 版本。

在 AWS RDS 中,一个 db.m5.large 类的实例可能就足以用作单个 Looker 实例的后端。尽管数据库的实际用量可能在 5-10 GB 范围内,但最好预配 100-150 GB 的 SSD 存储空间,因为预配的 IOPS 取决于请求的存储空间量。

MySQL 8.0.X - 更改默认身份验证插件

在 MySQL 8.0.X 中,默认身份验证插件为 caching_sha2_password。Looker 使用 mysql_native_password 插件 尝试通过 JDBC 驱动程序向 MySQL 数据库进行身份验证。为了使此版本的 MySQL 正常运行,您必须执行以下额外步骤:

  1. 配置 MySQL 数据库以使用 mysql_native_password 插件。这可以通过多种方式完成,具体取决于 MySQL 8 数据库的部署方式以及您对配置的访问权限类型:

    • 使用标志 --default-auth=mysql_native_password 启动进程

    • my.cnf 配置文件中设置该属性:

      [mysqld]
      default-authentication-plugin=mysql_native_password
      
    • 如果您的数据库实例是通过 AWS RDS 托管的,请通过应用于此数据库实例的 RDS 参数组设置 default_authentication_plugin 参数。

  2. 发出以下语句,将 some_password_here 替换为安全的唯一密码:

    CREATE USER looker IDENTIFIED WITH mysql_native_password BY 'some_password_here';
    GRANT SELECT ON database_name.* TO 'looker'@'%';
    

调整 MySQL

在 MySQL 实例上调整以下设置。

增加数据包大小上限

MySQL 的默认 max_allowed_packet 大小太小,无法进行数据库迁移,并且可能会导致迁移失败并出现 PACKET_TOO_LARGE 错误。将 max_allowed_packet 设置为允许的最大值 1073741824

max_allowed_packet = 1073741824

设置临时表算法

MySQL 8 处理内部临时表的方式与以前的版本不同。默认设置可能会导致无法运行 Looker 运行的某些查询,尤其是对于包含许多用户和项目的 Looker 实例。最佳做法是设置以下全局服务器设置:

internal_tmp_mem_storage_engine = MEMORY

配置字符集

设置以下默认参数以使用支持 UTF8 字符集的 UTF8mb4。请参阅在 MySQL 中,切勿使用“utf8”使用“utf8mb4”。了解我们为何建议在 MySQL 中使用 UTF8mb4(而非 UTF8)。

character_set_client = utf8mb4
character_set_results = utf8mb4
character_set_connection = utf8mb4
character_set_database = utf8mb4
character_set_server = utf8mb4
collation_connection = utf8mb4_general_ci
collation_server = utf8mb4_general_ci

在 Amazon RDS 实例中,您可以通过创建或修改参数组并修改相应设置来应用此设置。我们建议您复制当前参数组并对副本进行更改,尤其是在多个 RDS 实例之间共享参数组的情况下。保存参数组后,将其应用于 RDS 实例。可能需要重新启动。

设置副本方案

Looker 依赖于需要使用 mixedrow binlog 的功能。如果您托管自己的 MySQL 实例,请发出以下命令之一,将 binlog_format 设置为 mixedrow

SET GLOBAL binlog_format = 'MIXED';

SET GLOBAL binlog_format = 'ROW';

创建数据库和用户

在数据库实例上创建用户和数据库,将 <DB_username><DB_name><DB_password> 替换为用户和数据库的实际值。此外,请将 <DB_charset><DB_collation> 替换为与 RDS 实例参数组设置匹配的所选字符集和排序规则(如需真正支持 UTF8,我们建议使用 utf8mb4utf8mb4_general_ci)。

create user <DB_username>;
set password for <DB_username> = password ('<DB_password>');
create database <DB_name> default character set <DB_charset> default collate <DB_collation>;
grant all on <DB_name>.* to <DB_username>@'%';
grant all on looker_tmp.* to '<DB_username>'@'%';

最后一行的 looker_tmp 数据库不必实际存在,但内部报告需要 grant 语句。

创建数据库凭据文件

Looker 需要知道要与哪个 MySQL 数据库通信以及要使用哪些凭据。在 Looker 目录中,创建一个名为 looker-db.yml 且包含以下内容的文件,并将 <DB_hostname><DB_username><DB_password><DB_name> 替换为您的数据库的值:

dialect: mysql
host: <DB_hostname>
username: <DB_username>
password: <DB_password>
database: <DB_name>
port: 3306

如果您的 MySQL 数据库需要 SSL 连接,请将以下行添加到 looker-db.yml

ssl: true

如果您还想启用 SSL 证书的验证,请将以下代码行添加到 looker-db.yml 中:

verify_ssl: true

或者,您还可以通过添加 jdbc_additional_params 来指定 MariaDB JDBC 驱动程序支持的任何其他 JDBC 参数。例如,如果您需要使用特定的受信任存储区文件,可以将以下参数添加到 MySQL JDBC 连接字符串:

jdbc_additional_params: trustStore=/path/to/my/truststore.jks&keyStore=/path/to/my/keystore.jks

对于客户托管的安装,您可以选择添加 max_connections,以指定 Looker 可以与数据库建立的连接数量上限。例如,要将数据库的并发连接数限制为 10,请添加以下内容:

max_connections: 10

根据 Looker 的加密方案,数据库中的所有敏感数据都会进行静态加密。即使有人获得了明文数据库凭据的访问权限并访问了数据库,Looker 也会在存储敏感数据之前对其进行加密或哈希处理。这适用于密码、分析数据库凭据、查询缓存等。但是,如果您不希望将此配置的明文密码存储在磁盘上的 looker-db.yml 文件中,则可以将环境变量 LOOKER_DB 配置为包含 looker-db.yml 文件中每行的键值对列表。例如:

export LOOKER_DB="dialect=mysql&host=localhost&username=root&password=&database=looker&port=3306"

备份 .db 目录

备份 .db 目录,其中包含构建内存中 HyperSQL 数据库所需的文件,以备您需要恢复 HyperSQL:

cp -r .db .db-backup
tar -zcvf db-backup.tar.gz ./.db-backup

迁移数据库

在大型或中型实例中,将数据库迁移到 MySQL 可能需要数小时,尤其是当 HyperSQL 数据库达到 1 GB 或以上时。我们建议您在迁移过程中暂时将 EC2 实例升级到 m5.2xlarge(具有 32 GB RAM,以允许在步骤中指定的 26 GB 堆),将所需时间缩短至约 10 分钟。

  1. 在 Looker 主机上:

    cd looker
    ./looker stop
    vi looker
    
  2. 在 Looker 启动脚本中,在文件中新建第二行:

    exit
    
  3. 在 AWS 控制台中停止实例。停止后,将 EC2 实例大小更改为 m5.2xlarge。然后重新启动该实例。

  4. 以 Looker 用户的身份通过 SSH 连接到主机。首先确保 Java 未运行;然后运行以下命令:

    cd looker
    java -Xms26000m -Xmx26000m -jar looker.jar migrate_internal_data  looker-db.yml
    

    运行 migrate_internal_data 步骤时,可能找不到 libcrypt,并且会显示堆栈轨迹,从以下内容开始:

    NotImplementedError: getppid unsupported or native support failed to load
    ppid at org/jruby/RubyProcess.java:752
    ppid at org/jruby/RubyProcess.java:749
    

    如果发生这种情况,请先手动设置 LD_LIBRARY_PATH,然后再执行 Java 命令:

    export LD_LIBRARY_PATH=$HOME/looker/.tmp/:$LD_LIBRARY_PATH
    
  5. 成功完成后,从 AWS 控制台停止实例。

  6. 您现在可以将实例恢复为其原始大小。

  7. 重新启动实例。

启动 Looker

  1. 修改 Looker 启动脚本并删除您之前添加的 exit 行。

  2. 确保启动脚本中的 LOOKERARGS 中未定义任何参数。所有参数都应移至 lookerstart.cfg 文件,以便它们不会被新版启动脚本覆盖。保存并退出启动脚本。

  3. 修改 lookerstart.cfg。修改后应如下所示:

    LOOKERARGS="-d looker-db.yml"
    

    如果 Looker 启动脚本中还有任何其他参数,请将其添加到 lookerstart.cfg 文件中。

  4. 归档 .db 目录(如果尚未归档)。

    mv .db .db-backup
    tar -zcvf db-backup.tar.gz ./.db-backup
    rm -rf ./.db-backup/
    
  5. 启动 Looker:

    ./looker start
    

验证 Looker 是否在使用新数据库

如果 Looker 成功使用后端 MySQL,您应该会在 Looker 实例和新数据库实例之间看到网络连接。如需进行检查,请在 Looker 实例上运行以下命令:

netstat -na | grep 3306

您应该会看到一些指向数据库实例的连接。以下是输出示例,显示 IP 地址为 10.0.3.155 的数据库实例:

looker@instance1:~$ netstat -na | grep 3306
tcp6       0      0 10.0.5.131:56583        10.0.3.155:3306         ESTABLISHED
tcp6       0      0 10.0.5.131:56506        10.0.3.155:3306         ESTABLISHED
tcp6       0      0 10.0.5.131:56582        10.0.3.155:3306         ESTABLISHED
tcp6       0      0 10.0.5.131:56508        10.0.3.155:3306         ESTABLISHED

备份 Looker

迁移到 MySQL 后端后,Looker 的自动 S3 备份功能将无法再使用。我们建议您至少每夜备份一次 MySQL 数据库,并每夜备份一次 Looker 工作目录的文件系统。系统可能会从文件系统备份中排除 looker/log/ 目录。如需了解详情,请参阅创建备份文档页面。