DeepSeek - R1 开创 RL 加持下的强推理慢思考范式,通过独特训练技术提升推理能力,在数学和编程任务中表现优异。
与 Kimi 1.5 等模型相比,虽都关注 RL 提升,但实现方式有别。在技术路线上,蒸馏和强化学习各有优劣。
未来,模型将朝着长思维链可解释性、模态扩展等方向发展,同时面临模型弹性抗拒对齐等挑战,需新的算法设计和评估方法。