此页面由 Cloud Translation API 翻译。

分析 TensorFlow 工作负载

如需在 Cloud TPU 上分析 TensorFlow 模型，您可以使用 TensorBoard 和 TPU TensorBoard 插件。TensorBoard 预安装在 TPU 虚拟机上。如需了解如何安装 TPU TensorBoard 插件并捕获性能配置文件，请参阅使用 Cloud TPU 工具分析模型。如需了解一般 Cloud TPU 性能信息，请参阅 Cloud TPU 性能指南。

如需了解详情，请参阅 TensorBoard 回调。

TensorFlow 函数性能说明

请参阅 Cloud TPU 上可用的 TensorFlow 操作完整列表。

在激活时，批量和特征维度将填充为 8 或 128 的倍数。
- 首先，XLA 会跟踪模块卷积中的最常见的批量维度大小。这有助于区分前向卷积、激活梯度卷积和内核梯度卷积。
- 如果最常见的批量大小大于或等于 64：
  - 对于前向和后向卷积，将批量填充为 128 的倍数，而特征填充为 8 的倍数。
  - 对于梯度更新卷积，将批量填充为 8 的倍数，而特征填充为 128 的倍数。
- 如果最常见的批量大小小于 64：
  - 对于前向和后向卷积，将批量填充为 8 的倍数，而特征填充为 128 的倍数。
  - 对于梯度更新卷积，将批量填充为 128 的倍数，而特征填充为 8 的倍数。
  - 如果转置仅交换输入特征和批量维度，则在将激活发送到卷积之前立即进行转置是免费的。
对于内核，输入特征和输出特征维度将填充为 8 或 128 的倍数。确切的决定受内核的提供方和其他使用方的影响。
- 如果转置仅交换输入和输出特征维度，则在将内核发送到卷积之前立即进行转置是免费的。
对于结果，批量和特征维度将填充为 8 或 128 的倍数。
- 如果转置仅交换批量和输出特征维度，则转置卷积结果是免费的。
请注意，tf.nn.conv_n_d 支持融合其结果、激活和/或内核。这意味着直接应用于输出的激活函数或偏差开销较低。

在已填充的维度中移动数据时，Cloud TPU 上的重塑成本可能很高。
如果存在大量填充，则在主机上将数据形状调整到 R1 并在设备上将其调整回维度更高的形状，可能会提高性能。这可以提高主机与设备之间的传输效率。
- 由于这可以根据需要解压打包的参数，因而有助于降低峰值内存利用量。

XLA 编译器可以有减少低批量归一化的 TensorFlow 融合变体。它们比使用替代方案更有效。
- 首选 tf.nn.fused_batch_norm，而不是 tf.nn.batch_normalization。
- 对于 tf.layers.batch_normalization，请将“fused”参数设置为 true。