Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124

SwiReasoning是一种训练无关的推理框架,让大模型自己判断什么时候深度思考,什么时候快速作答。在数学测试上提升6分,SWE-Bench提升4分。
一个市政AI,在数学测试上提升了6分,却根本没有微调过。
里约IplanRIO团队在Qwen 3.5上加了SwiReasoning推理框架,HMMT数学测试从87.9升到93.9。模型权重没改,没有额外训练数据,只加了一层置信度判断逻辑。
这就是SwiReasoning的核心价值:让模型自己判断一个问题值不值得深度思考。
现在的大模型普遍使用链式思维(Chain-of-Thought)推理。遇到问题,一步一步推演,输出完整的思考过程。
问题来了:简单问题也被迫走完整个思考流程。
用户问「今天北京天气怎么样」,模型启动CoT机制,开始逐步推理——这不是浪费算力吗?但模型不知道这个问题简单,它对所有问题一视同仁地「认真思考」。
更现实的问题是成本。显式CoT的Token消耗是直接输出的5-10倍。对于每天处理百万次请求的线上服务,这是真实的算力账单。
现有解法是把问题分成两类:System 1(快思考,直接作答)和System 2(慢思考,链式推理)。切换规则由人预设,比如「数学题用System 2,日常问答用System 1」。
但人预设的规则不够精准。一个看似简单的数学题可能需要深度推理,一个看似复杂的问题可能一眼就能看穿。
SwiReasoning的出发点是:让模型自己决定。
SwiReasoning在推理时动态切换两种模式。
显式链式推理(explicit CoT):模型正常思考,一步步输出推理过程。适合复杂推理任务。
隐式推理(latent reasoning):模型在「隐藏空间」里同时探索多条路径,不把推理过程输出到最终答案里。相当于模型在心里默默想,但没说出口。
关键问题是:模型怎么知道什么时候该从隐式切到显式?
答案是置信度信号。具体来说是隐式推理时概率分布的熵值。
当模型在隐式空间探索时,它的输出是一个概率分布。如果这个分布的熵值很低——也就是说模型对自己找到的答案很有把握——就继续在隐式空间推演,或者直接输出。如果熵值高,置信度低,说明模型觉得这个答案不太确定,就切换到显式CoT,把思考过程一步步写出来,借助更长的显式推理来提高准确率。
模型用熵值判断自己有没有想清楚,而不是用预设规则决定该用哪种模式。
这个设计有两个好处。
训练无关。任何LLM只要加一层置信度监控模块,就能用SwiReasoning,不需要微调,不需要额外数据,不需要改模型权重。
Token效率提升明显。简单问题在隐式空间直接解决,不用生成冗长的思考过程。根据里约团队的测试,复杂推理任务的效果提升的同时,平均Token消耗反而更低了。
以下数据来自论文arxiv.org/abs/2510.05069,以及里约团队的官方模型卡:
数学测试:HMMT 2026 Feb,93.9分,比基线Qwen 3.5的87.9高出6分。
代码任务:Terminal-Bench 2.1,70.8分。SWE-Bench Verified,80.2分(Qwen基线是76.2,提升4分)。SWE-Bench Multilingual,77.0分(基线75.8)。
这几个数字说明一件事:SwiReasoning对复杂推理任务有普遍提升效果,不针对特定任务。
数学提升最显著,因为数学天然需要「想清楚再回答」,SwiReasoning的动态切换机制正好匹配这种需求。代码任务提升也明显,因为代码调试本身就是复杂的多步推理过程。
SwiReasoning的训练无关特性意味着接入门槛很低。如果你是开发者,可以关注这几个方向。
适合场景:需要复杂推理的客服机器人、代码辅助工具、复杂问题解答API。特别是请求量大但复杂程度不均的场景,SwiReasoning的Token节省效果最明显。
接入方式:在模型推理层和输出层之间加一层置信度监控模块。实时计算隐式推理的熵值,根据阈值决定是否切换到显式CoT。熵阈值需要根据具体模型和场景调参,目前没有通用的最优解。
局限性:隐式推理的过程不可解释,你不知道模型在「想什么」,只能通过熵值信号判断置信度。对于需要可解释性的场景(如金融、医疗),这可能是个问题。另外,熵阈值依赖经验,调参成本不低。
延伸阅读:论文在arXiv,编号2510.05069,代码已开源。里约团队在Hugging Face上放了完整的推理框架实现,可以直接拿来试。
里约把这个模型用在了市政服务咨询上。
里约每天要处理大量市民咨询:报修、投诉、审批查询。如果每个问题都走完整CoT推理,延迟高、成本高。引入SwiReasoning后,简单咨询(「我的申请批了吗」)在隐式空间快速响应,复杂投诉(「这个路口路灯坏了三个月没人管」)自动切换到显式推理处理。
结果是响应延迟降低,算力成本下降。市民感知到的是「这个AI反应挺快的」,而不是「这个AI在思考人生」。
对国内开发者的启发是:如果你的产品面向大量C端用户,SwiReasoning是少数能同时改善用户体验和降低成本的推理层方案。
SwiReasoning最有意思的地方,不是具体数字,而是它背后的思路。
人脑遇到简单问题,「感觉」知道答案,直接反应。遇到复杂问题,感觉不对劲,大脑才启动深度思考。SwiReasoning用数学让模型学会了这件事——判断什么时候该认真想,什么时候可以快一点。
这大概才是它最有价值的地方。