研究者提出了FAST,一种专为VLA模型设计的高效动作Tokenizer,通过结合离散余弦变换(DCT)和字节对编码(BPE),显著提升了训练速度,并成功应用于复杂机器人控制任务。FAST旨在解决传统动作Tokenization方法在精细任务中的不足,将FAST与π0 VLA结合,在1万小时的机器人数据上训练,效果与最先进的扩散VLA相当,但训练时间缩短5倍。
FAST通过将动作像语言一样用离散Token表示,显著提高了从大规模数据预训练的迁移能力,增强了机器人执行语言指令的能力。研究者还发布了通用机器人动作Tokenizer FAST+,能高效标记各种机器人动作序列。借助FAST,研究者首次在DROID数据集上训练出通用策略,能在新环境中对多种指令实现泛化执行。实验结果显示,FAST+在各种机器人数据集上展现出良好的压缩性能,且自回归π0-FAST模型的表现与扩散π0模型相当,但计算量显著减少。然而,当前模型的推理速度较慢,未来有望通过加速技术改进。