姚期智院士团队打造了新型注意力机制TPA,通过动态张量分解,节省90%或更多的内存而不牺牲性能。论文证明MHA、MQA、GQA都是TPA的特例,并用一个框架统一了现代注意力设计。新模型T6的代码已在GitHub开源。
此外,TPA还与RoPE位置编码无缝集成,实现低成本旋转分解KV。在实验中,TPA在多个基准测试中表现优异。该论文由清华&上海期智研究员团队、UCLA顾全全团队合作完成,开源代码和论文地址已提供。