腾讯混元团队近期发布了一项关于低比特浮点量化训练的重要研究,深入探讨了浮点数量化训练的规模法则,旨在通过降低模型精度来减少计算和存储成本,同时保持性能不损失。
研究涉及366组不同参数规模和精度的实验,系统分析了模型大小、训练数据量、指数位、尾数位及量化粒度等因素对训练效果的影响,并揭示了不同精度下配置训练数据和模型参数的最佳方式。
此外,研究发现存在“极限效果”,即在特定数据量下模型性能最优,且理论上最佳性价比的浮点数量化训练精度应在4到8比特之间。
该研究不仅填补了领域空白,还为硬件制造商优化浮点运算能力及大模型训练实践提供了重要指导。