此页面由 Cloud Translation API 翻译。

批量加载数据的最佳实践

本页介绍了使用 mongoimport 等工具将数据批量加载到与 MongoDB 兼容的 Firestore 时的最佳实践。

Firestore 是一种高度分布式的系统，可自动伸缩以满足您的业务需求。Firestore 会根据系统接收的负载动态拆分和合并数据。

基于负载的拆分会自动进行，无需任何预配置。与其他文档数据库相比，Firestore 基于负载的分区系统具有一些重要且独特的特征，在对数据进行建模时，请务必牢记这些特征。

Firestore 的分布式特性可能需要更改一些设计选择，尤其是对于那些针对主要副本是写入吞吐量瓶颈的数据库进行优化的工作负载。

最佳做法

在单线程客户端中处理大量数据的工作负载可能会造成瓶颈。客户端可能能够使用单线程批量加载数据，因为客户端和服务器的吞吐量相当。 Firestore 数据库可以处理的并行性要高得多，但这需要您将客户端配置为并行发送请求。

使用 mongoimport 工具时，默认情况下会依序发出请求。如需缩短向 Firestore 加载数据的时间，请使用 --numInsertionWorkers 标志设置工作器数量。正确的设置可能需要根据客户的规模进行调整，但我们通常建议至少从 32 开始。

如果您使用与 MongoDB 兼容的 API 开发自己的软件，可以通过以下方式提高并行性：

使用像 Firestore 这样的大型分布式系统时，您可能会遇到暂时性故障，例如网络故障或文档争用。

批量加载大量信息时，务必要为失败的写入操作维护重试策略，而不会使更大的批量加载操作失败。