最近,蚂蚁技术团队开源了一款超棒的轻量级推理模型——Ring-lite!这款模型基于此前发布的Ling-lite-1.5,采用MoE架构,总参数量达16.8B,但激活参数仅为2.75B。通过创新的C3PO强化学习训练方法,Ring-lite在多项推理榜单上表现出色,比如AIME24/25、LiveCodeBench、CodeForce和GPQA-diamond等,甚至媲美激活参数规模三倍于己的10B以下Dense模型。

技术层面,Ring-lite团队做出了不少亮点创新。他们提出了C3PO强化学习训练法,巧妙解决了RL训练中回复长度波动带来的优化难题,大幅提升了训练稳定性和吞吐表现。此外,团队还深入研究了Long-CoT SFT与RL的最佳训练比例,并引入entropy loss来平衡训练效果和样本效率,进一步增强了模型性能。

值得一提的是,Ring-lite成功攻克了多领域数据联合训练的挑战,在数学、代码和科学三大领域实现了协同增益。尤其是在高考数学和物理题测试中,Ring-lite展现了惊人的实力:它在全国一卷数学考试中能拿到130分左右的好成绩!

更令人兴奋的是,Ring-lite不仅开源了模型权重和训练代码,还将逐步公开所有训练数据集、超参配置以及实验记录,堪称轻量级MoE推理模型首次实现全链路透明化。这对研究者来说无疑是一份宝贵的资源。

GitHub: https://github.com/inclusionAI/Ring

Hugging Face: https://huggingface.co/inclusionAI/Ring-lite

ModelScope: https://modelscope.cn/models/inclusionAI/Ring-lite

[hhw123pingdao]

温馨提示:
  • 请注意,下载的资源可能包含广告宣传。本站不对此提供任何担保,请用户自行甄别。
  • 任何资源严禁网盘中解压缩,一经发现删除会员资格封禁IP,感谢配合。
  • 压缩格式:支持 Zip、7z、Rar 等常见格式。请注意,下载后部分资源可能需要更改扩展名才能成功解压。
声明:
  • 本站用户禁止分享任何违反国家法律规定的相关影像资料。
  • 内容来源于网络,如若本站内容侵犯了原著者的合法权益,可联系我们进行处理,联系微信:a-000000