打开APP
腾讯混元开源首个面向世界模型的强化学习后训练框架WorldCompass
蒋远华 03-10
阅读量

智通财经APP获悉,3月10日,腾讯混元公众号发文称,其3D团队开源业界首个面向世界模型的强化学习后训练框架WorldCompass,这是此前发布的混元世界模型1.5 官方强化学习扩展模块,能够让世界模型的交互更加准确,体验更好。

据介绍,WorldCompass是一个专为长时序、交互式世界模型设计的强化学习(RL)后训练框架,通过引入强化学习机制,直接“引导”模型如何更准确地遵循用户指令探索世界,并保持长时序的视觉一致性。

实验表明,WorldCompass能显著提升 SOTA 开源世界模型(WorldPlay)的交互准确率和视觉保真度,特别是在复杂的组合动作场景下,交互准确率提升了近35%。

技术亮点方面,WorldCompass针对自回归世界生成的特性,对传统 RL 框架进行了全方位的重构,提出了三大核心创新:一是切片级采样:针对自回归世界生成的细粒度采样策略;二是3D奖励函数:拒绝“奖励刷分”;三是高效 RL 优化算法:让训练更稳、更快。

香港交易所资讯服务有限公司、其控股公司及/或该等控股公司的任何附属公司均竭力确保所提供信息的准确和可靠度,但不能保证其绝对准确和可靠,且亦不会承担因任何不准确或遗漏而引起的任何损失或损害的责任(不管是否侵权法下的责任或合约责任又或其它责任)
更多精彩港美股资讯
相关阅读
点击下载