LLM推理开销直降50%:SwiReasoning框架解析

SwiReasoning是一种训练无关的推理框架,让大模型自己判断什么时候深度思考,什么时候快速作答。在数学测试上提升6分,SWE-Bench提升4分。

一个市政AI,在数学测试上提升了6分,却根本没有微调过。

里约IplanRIO团队在Qwen 3.5上加了SwiReasoning推理框架,HMMT数学测试从87.9升到93.9。模型权重没改,没有额外训练数据,只加了一层置信度判断逻辑。

这就是SwiReasoning的核心价值:让模型自己判断一个问题值不值得深度思考。

大模型为什么需要「思考开关」

现在的大模型普遍使用链式思维(Chain-of-Thought)推理。遇到问题,一步一步推演,输出完整的思考过程。

问题来了:简单问题也被迫走完整个思考流程。

用户问「今天北京天气怎么样」,模型启动CoT机制,开始逐步推理——这不是浪费算力吗?但模型不知道这个问题简单,它对所有问题一视同仁地「认真思考」。

更现实的问题是成本。显式CoT的Token消耗是直接输出的5-10倍。对于每天处理百万次请求的线上服务,这是真实的算力账单。

现有解法是把问题分成两类:System 1(快思考,直接作答)和System 2(慢思考,链式推理)。切换规则由人预设,比如「数学题用System 2,日常问答用System 1」。

但人预设的规则不够精准。一个看似简单的数学题可能需要深度推理,一个看似复杂的问题可能一眼就能看穿。

SwiReasoning的出发点是:让模型自己决定。

SwiReasoning的原理

SwiReasoning在推理时动态切换两种模式。

显式链式推理(explicit CoT):模型正常思考,一步步输出推理过程。适合复杂推理任务。

隐式推理(latent reasoning):模型在「隐藏空间」里同时探索多条路径,不把推理过程输出到最终答案里。相当于模型在心里默默想,但没说出口。

关键问题是:模型怎么知道什么时候该从隐式切到显式?

答案是置信度信号。具体来说是隐式推理时概率分布的熵值。

当模型在隐式空间探索时,它的输出是一个概率分布。如果这个分布的熵值很低——也就是说模型对自己找到的答案很有把握——就继续在隐式空间推演,或者直接输出。如果熵值高,置信度低,说明模型觉得这个答案不太确定,就切换到显式CoT,把思考过程一步步写出来,借助更长的显式推理来提高准确率。

模型用熵值判断自己有没有想清楚,而不是用预设规则决定该用哪种模式。

这个设计有两个好处。

训练无关。任何LLM只要加一层置信度监控模块,就能用SwiReasoning,不需要微调,不需要额外数据,不需要改模型权重。

Token效率提升明显。简单问题在隐式空间直接解决,不用生成冗长的思考过程。根据里约团队的测试,复杂推理任务的效果提升的同时,平均Token消耗反而更低了。

真实效果

以下数据来自论文arxiv.org/abs/2510.05069,以及里约团队的官方模型卡:

数学测试:HMMT 2026 Feb,93.9分,比基线Qwen 3.5的87.9高出6分。

代码任务:Terminal-Bench 2.1,70.8分。SWE-Bench Verified,80.2分(Qwen基线是76.2,提升4分)。SWE-Bench Multilingual,77.0分(基线75.8)。

这几个数字说明一件事:SwiReasoning对复杂推理任务有普遍提升效果,不针对特定任务。

数学提升最显著,因为数学天然需要「想清楚再回答」,SwiReasoning的动态切换机制正好匹配这种需求。代码任务提升也明显,因为代码调试本身就是复杂的多步推理过程。

怎么用

SwiReasoning的训练无关特性意味着接入门槛很低。如果你是开发者,可以关注这几个方向。

适合场景:需要复杂推理的客服机器人、代码辅助工具、复杂问题解答API。特别是请求量大但复杂程度不均的场景,SwiReasoning的Token节省效果最明显。

接入方式:在模型推理层和输出层之间加一层置信度监控模块。实时计算隐式推理的熵值,根据阈值决定是否切换到显式CoT。熵阈值需要根据具体模型和场景调参,目前没有通用的最优解。

局限性:隐式推理的过程不可解释,你不知道模型在「想什么」,只能通过熵值信号判断置信度。对于需要可解释性的场景(如金融、医疗),这可能是个问题。另外,熵阈值依赖经验,调参成本不低。

延伸阅读:论文在arXiv,编号2510.05069,代码已开源。里约团队在Hugging Face上放了完整的推理框架实现,可以直接拿来试。

真实部署场景

里约把这个模型用在了市政服务咨询上。

里约每天要处理大量市民咨询:报修、投诉、审批查询。如果每个问题都走完整CoT推理,延迟高、成本高。引入SwiReasoning后,简单咨询(「我的申请批了吗」)在隐式空间快速响应,复杂投诉(「这个路口路灯坏了三个月没人管」)自动切换到显式推理处理。

结果是响应延迟降低,算力成本下降。市民感知到的是「这个AI反应挺快的」,而不是「这个AI在思考人生」。

对国内开发者的启发是:如果你的产品面向大量C端用户,SwiReasoning是少数能同时改善用户体验和降低成本的推理层方案。

一点思考

SwiReasoning最有意思的地方,不是具体数字,而是它背后的思路。

人脑遇到简单问题,「感觉」知道答案,直接反应。遇到复杂问题,感觉不对劲,大脑才启动深度思考。SwiReasoning用数学让模型学会了这件事——判断什么时候该认真想,什么时候可以快一点。

这大概才是它最有价值的地方。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注