您的位置:首页 >科技 > 内容

清华DSAC系列算法深度剖析:以50%优势超越OpenAI与DeepMind

2025-01-18 23:45:19来源:网易  用户:殷融全

在人工智能的快速发展中,强化学习成为实现机器高度智能化的关键。清华大学深度强化学习实验室在强化学习领域取得重大突破,开发出DSAC及DSAC-T系列算法。这些算法通过模拟人类对环境的真实感知,构建动作空间概率模型,在复杂环境中动态调整动作概率分布,实现了显著的性能提升,在基准测试中领先OpenAI的PPO和DeepMind的DDPG算法50%以上。此外,团队在机器学习顶会NIPS2024中发布了结合扩散模型的DACER算法,再次刷新了强化学习的性能记录。

为解决强化学习中的过估计问题,DSAC系列算法引入分布式回报学习机制,提高了值估计的精度。同时,针对学习不稳定性和参数敏感性问题,DSAC-T算法进行了三方面改进。此外,团队提出的RAD优化器从动力学视角优化了神经网络参数更新过程,确保了训练长时域的稳定性和快速收敛,性能远超主流优化器。这些算法和技术已集成入团队开源的最优控制问题求解软件GOPS中,该软件已应用于自动驾驶、物流机器人等多个领域,预示着具身智能时代的到来。

免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!

猜你喜欢

最新文章