Mejora el rendimiento de tu modelo con bfloat16

De forma predeterminada, las TPU realizan operaciones de multiplicación de matrices con bfloat16 valores y acumulaciones con IEEE float32 de salida. El uso de números de punto flotante de precisión reducida disminuye el tiempo de convergencia sin perder precisión.

Los rangos dinámicos de bfloat16 y float32 son equivalentes. Sin embargo, bfloat16 ocupa la mitad del espacio de la memoria. Para obtener más información sobre el rendimiento de bfloat16, consulta Un estudio de BFLOAT16 para el entrenamiento de aprendizaje profundo.

Usa bfloat16 de forma explícita

Si bien la conversión automática de formato en las TPUs te permite evitar pensar en la precisión numérica, puedes lograr mejoras de rendimiento asignando valores de forma explícita a bfloat16. Existen dos motivos para transmitir valores de forma explícita a bfloat16:

  1. El almacenamiento de valores en formato bfloat16 ahorra memoria en el chip, lo que permite que las Cloud TPU entrenen modelos más grandes o usen tamaños de lotes más grandes.

  2. Algunas operaciones dependen del ancho de banda de la memoria, lo que significa que la cantidad de tiempo que se tarda en cargar datos desde la memoria puede ralentizar el tiempo total dedicado a realizar el cálculo. Almacenar operandos y salidas de esas operaciones en bfloat16 reduce la cantidad de datos que se deben transferir, lo que mejora la velocidad.

Para empezar, te recomendamos adquirir un poco de experiencia con uno de los Modelos de referencia de Cloud TPU. Luego, la guía de herramientas de generación de perfiles y la guía de solución de problemas proporcionan información técnica detallada para ayudarte a crear y optimizar modelos de aprendizaje automático por tu cuenta.

Dar formato a los detalles de las conversiones

El elemento inserta automáticamente la conversión de formato de float32 a bfloat16 Compilador XLA. En TPU, el esquema de redondeo en la conversión es redondear al número par más cercano y desbordar a inf. Además, bfloat16 en Cloud TPU no admite números subnormales, por lo que todos se restablecen a cero durante la conversión. Los valores especiales, como NaN y inf, se conservan en la conversión.

La conversión de formato de bfloat16 a float32 también se inserta automáticamente. el compilador XLA. Dado que float32 puede representar todos los valores exactos en bfloat16, la conversión agrega 16 ceros en los bits de mantisa. Los valores especiales se conservan en la conversión.

Los puntos de control obtenidos de un modelo entrenado en Cloud TPU pueden implementarse en otros Plataformas de hardware (por ejemplo, inferencia o ajuste de CPU o GPU) sin realizar muchas conversiones manuales.