导入和导出数据的最佳做法

此页面介绍了使用 Cloud SQL 导入和导出数据的最佳做法。要了解将数据导入 Cloud SQL 的分步说明,请参阅导入数据

如需从 Cloud SQL 导出数据以在您管理的 MySQL 实例中使用,请参阅使用 SQL 转储文件导出和导入使用 CSV 文件导出和导入

导入和导出最佳做法

以下是导入和导出数据时要考虑的最佳做法:

使用相同的 SQL 模式来执行导入和导出操作

SQL 模式设置会影响 Cloud SQL 解释 SQL 查询的方式。例如,如果您从没有启用严格 SQL 的数据库中导出数据,然后尝试将数据导入到 Cloud SQL(默认启用严格 SQL),则导入操作可能会失败。最佳做法是在导入时使用导出操作所用的相同 SQL 模式。

请检查源数据库和目标数据库上的 SQL 模式是否兼容。 请特别注意启用严格 SQL 模式的标志。 如果您的数据库未设置严格 SQL,则您可能需要在 Cloud SQL 中移除严格 SQL。如果您移除严格 SQL,则必须设置其他标志。

如需验证您的 Cloud SQL 实例已设置所需的模式,请运行 SELECT @@GLOBAL.sql_mode;

请勿使用 Cloud Storage 请求者付款存储分区

您无法使用启用了请求者付款功能的 Cloud Storage 存储桶来将数据导入 Cloud SQL 以及从 Cloud SQL 导出数据。

最大限度地降低导出对性能的影响

从 Cloud SQL 执行标准导出时,导出操作会在数据库在线时运行。当导出的数据较小时,影响很小。但是,对于大型数据库或大型对象(例如数据库中的 BLOB),导出操作可能会降低数据库性能。这可能会影响对数据库执行数据库查询和操作所需的时间。启动导出操作后,如果数据库响应开始变得缓慢,则您无法停止导出操作。

为了防止导出期间响应变慢,您可以执行以下操作:

  1. 从读取副本执行导出。如果您经常执行导出(每天一次或更频繁),但导出的数据量很小,这是一个不错的选项。如需从读取副本执行导出,请针对读取副本实例使用 Google Cloud 控制台、gcloud 或 REST API 导出函数。如需详细了解如何创建和管理读取副本,请参阅创建读取副本

  2. 使用无服务器导出功能。使用无服务器导出功能时,Cloud SQL 会创建一个单独的临时实例来分流导出操作。如果分流导出操作,则主实例上的数据库可以按正常的性能速率继续处理查询和执行操作。数据导出操作完成后,临时实例会被自动删除。如果您要对大型数据库执行一次性导出,这可能是一个不错的选项。使用带有 offload 标志的 Google Cloud Console、gcloud 或 REST API 导出函数执行无服务器导出操作。

    在无服务器导出操作期间,您可以运行一些其他操作,例如实例修改、导入和故障切换。但是,如果您选择 delete,导出操作会在您删除实例一段时间后停止,并且不会导出任何数据。

    请参阅下表,了解无服务器导出操作运行时可能被阻止的操作:
    当前操作 新操作 已阻止?
    任何操作 无服务器导出
    无服务器导出 任何操作(无服务器导出除外)
    任何操作(无服务器导出除外) 任何操作(无服务器导出除外)

    与标准导出操作相比,无服务器导出操作需要的时间更长,因为创建临时实例需要时间。实际需要的时间超过五分钟;对于较大的数据库,需要的时间可能更长。在确定要使用哪种类型的导出功能之前,请考虑其对时间、性能和费用的影响。

创建 SQL 转储文件时使用正确的标志

如果在将数据导出到 SQL 转储文件时未使用正确的标志,则导入操作可能会失败。要了解如何创建 SQL 转储文件以导入 Cloud SQL,请参阅创建 SQL 转储文件

压缩数据以减少费用

Cloud SQL 支持导入和导出压缩文件及未压缩文件。压缩文件可以节省 Cloud Storage 上的大量存储空间并减少存储费用,这在导出大型实例时尤为明显。

导出 SQL 转储文件或 CSV 文件时,请将数据压缩成扩展名为 .gz 的文件。导入扩展名为 .gz 的文件时,系统会自动将其解压缩。

减少长时间运行的导入和导出过程

导入和导出 Cloud SQL 可能需要很长时间才能完成,具体取决于要处理的数据大小。这可能产生以下影响:

  • 您无法停止长时间运行的 Cloud SQL 实例操作。
  • 针对每个实例,一次只能执行一项导入或导出操作,而长时间运行的导入或导出操作会阻止其他操作,例如每日自动备份。无服务器导出功能使您可以运行其他操作,包括修改实例、导入、故障切换以及取消阻止每日自动备份。

对小批量数据使用 Cloud SQL 导入或导出功能可以缩短每项操作的完成时间。

对于导出,您可以从读取副本执行导出,或使用无服务器导出功能最大限度地降低对数据库性能的影响,并允许在导出时对实例执行其他操作。

如需更多提示,请参阅诊断 Cloud SQL 实例的问题

使用 InnoDB

InnoDB 是 MySQL 实例唯一支持的存储引擎。

您可以通过 sed 脚本经管道输送 mysqldump 的输出,将表从 MyISAM 转换为 InnoDB,如下所示:

mysqldump --databases [DATABASE_NAME] \
-h [INSTANCE_IP] -u [USERNAME] -p [PASSWORD] \
--hex-blob --default-character-set=utf8mb4 | sed 's/ENGINE=MyISAM/ENGINE=InnoDB/g' > [DATABASE_FILE].sql

包含具有 DEFINER 子句的元数据的 MySQL 导入和迁移作业

因为 MySQL 导入或迁移作业不会迁移用户数据,所以包含用户用 DEFINER 子句定义的元数据的源和转储文件将无法导入或迁移,因为那里尚不存在用户。

如需确定元数据中存在哪些 DEFINER 值,请使用以下查询(或在转储文件中搜索),以检查是否存在 root%localhost 的条目,或者不存在于目标实例中的用户的条目。

SELECT DISTINCT DEFINER FROM INFORMATION_SCHEMA.EVENTS;
SELECT DISTINCT DEFINER FROM INFORMATION_SCHEMA.ROUTINES;
SELECT DISTINCT DEFINER FROM INFORMATION_SCHEMA.TRIGGERS;
SELECT DISTINCT DEFINER FROM INFORMATION_SCHEMA.VIEWS;

如需从包含此元数据的源运行导入或迁移作业,您可以执行以下操作之一:

  • 在开始导入或迁移作业之前,请在目标 Cloud SQL 实例上创建用户。
  • 在开始导入或迁移作业之前,将源 MySQL 实例或转储文件中的 DEFINER 子句更新为 INVOKER

验证导入的数据库

导入操作完成后,连接到您的数据库并运行相应的数据库命令,以确保内容正确无误。例如,连接并列出数据库、表和特定条目。

已知限制

如需查看已知限制列表,请参阅导入和导出数据的问题

自动执行导出操作

尽管 Cloud SQL 没有提供自动导出数据库的内置方法,但是您可以使用多个 Google Cloud 组件构建自己的自动化工具。如需了解详情,请参阅本教程

问题排查

排查导入操作问题

问题 问题排查
HTTP Error 409: Operation failed because another operation was already in progress 您的实例已有一项待处理的操作。一次只能执行一项操作。在当前操作完成后尝试您的请求。
导入操作花费的时间太长。 过多的有效连接可能会干扰导入操作。

关闭未使用的操作。检查 Cloud SQL 实例的 CPU 和内存用量,以确保有大量的可用资源。确保将最多资源用于导入操作的最佳方法是在开始执行操作之前重启实例。

重启后,系统会执行以下操作:

  • 关闭所有连接。
  • 结束任何可能正在消耗资源的任务。
如果转储文件中引用的一个或多个用户不存在,导入操作可能会失败。 在导入转储文件之前,拥有对象或获得了对转储数据库中的对象权限的所有数据库用户都必须存在于目标数据库中。否则,导入操作将无法使用原始所有权或权限重新创建对象。

在导入之前,先创建数据库用户

导入操作因表不存在而失败。 表可以与其他表有外键依赖关系,根据操作的顺序,其中一个或多个表可能在导入操作期间还不存在。

可以尝试的操作:

在转储文件的开头添加以下行:


SET FOREIGN_KEY_CHECKS=0;
  

此外,请在转储文件的末尾添加以下行:


SET FOREIGN_KEY_CHECKS=1;
  

这些设置会在导入操作执行期间停用数据完整性检查,并在加载数据后重新激活数据完整性检查。这不会影响数据库中数据的完整性,因为数据在创建转储文件期间已经过验证。

排查导出操作问题

问题 问题排查
HTTP Error 409: Operation failed because another operation was already in progress. 您的实例已有一项待处理的操作。一次只能执行一项操作。在当前操作完成后尝试您的请求。
HTTP Error 403: The service account does not have the required permissions for the bucket. 确保存储桶已存在,并且 Cloud SQL 实例(正在执行导出)的服务账号具有 Storage Object Creator 角色 (roles/storage.objectCreator) 以允许导出到存储桶。请参阅适用于 Cloud Storage 的 IAM 角色
CSV 导出成功,但 SQL 导出失败。 CSV 和 SQL 格式的导出方式不同。SQL 格式会导出整个数据库,可能需要较长的时间才能完成。CSV 格式可让您定义要导出的数据库元素。

使用 CSV 导出以仅导出您需要的文件。

导出时间太长。 Cloud SQL 不支持并发同步操作。

使用导出分流。概括来讲,在进行导出分流时,Cloud SQL 会启动一个分流实例来执行导出,而不是在源实例上发起导出。导出分流具有多项优势,包括可提高源实例的性能,以及在导出操作期间取消屏蔽管理操作。使用导出分流时,总延迟时间会增加,因为启动分流实例需要时间。通常,对于规模合理的导出,延迟时间并不明显。但是,如果导出作业足够小,那么您可能会发现延迟时间有所增加。

您希望自动执行导出。 Cloud SQL 不提供自动执行导出的方法。

您可以使用 Cloud Scheduler、Pub/Sub 和 Cloud Functions 等 Google Cloud 产品构建自己的自动导出系统,类似自动备份一文所述。

后续步骤