对话模型和推理模型

对话模型和推理模型的区别

对话模型是专门用于问答交互的语言模型,符合人类的聊天方式,返回的内容可能仅仅只是一个简短的答案,一般模型名称后面会带有「chat」字样。
推理模型是比较新的产物,一般是指输出过程中带有或其他表示思考过程的模型,在返回的内容中可以明确看到模型自身存在思考和反思行为。
两者的区别可以概括如下:

如何得到推理模型

推理模型与对话模型在模型的架构层面没有明显不同,主要差异在后训练方法上。目前主要有两种思路:纯强化学习、参数微调+强化学习

纯强化学习

DeepSeek R1的技术报告证明了推理能力可以从纯的强化学习中学习。DeepSeek-R1-Zero仅使用强化学习进行训练,没有初始的SFT阶段,其训练过程如下图所示。

DeepSeek R1的技术报告证明了推理能力可以从纯的强化学习中学习。DeepSeek-R1-Zero仅使用强化学习进行训练,没有初始的SFT阶段,其训练过程如下图所示。

参数微调和强化学习

在DeepSeek-V3基础上,通过两个阶段的SFT和RL得到推理模型R1,其训练过程如下图所示。

基于参数微调和强化学习是构建高性能推理模型的关键方法,相比纯强化学习的方法,不仅实现了更加强大的推理性能,同时也解决纯强化学习方式得到的模型在可读性和语言一致性方面存在的问题。