LLM推理开销直降50%：SwiReasoning框架解析

一个市政AI，在数学测试上提升了6分，却根本没有微调过。

里约IplanRIO团队在Qwen 3.5上加了SwiReasoning推理框架，HMMT数学测试从87.9升到93.9。模型权重没改，没有额外训练数据，只加了一层置信度判断逻辑。

这就是SwiReasoning的核心价值：让模型自己判断一个问题值不值得深度思考。

大模型为什么需要「思考开关」

现在的大模型普遍使用链式思维（Chain-of-Thought）推理。遇到问题，一步一步推演，输出完整的思考过程。

问题来了：简单问题也被迫走完整个思考流程。

用户问「今天北京天气怎么样」，模型启动CoT机制，开始逐步推理——这不是浪费算力吗？但模型不知道这个问题简单，它对所有问题一视同仁地「认真思考」。

更现实的问题是成本。显式CoT的Token消耗是直接输出的5-10倍。对于每天处理百万次请求的线上服务，这是真实的算力账单。

现有解法是把问题分成两类：System 1（快思考，直接作答）和System 2（慢思考，链式推理）。切换规则由人预设，比如「数学题用System 2，日常问答用System 1」。

但人预设的规则不够精准。一个看似简单的数学题可能需要深度推理，一个看似复杂的问题可能一眼就能看穿。

SwiReasoning的出发点是：让模型自己决定。

SwiReasoning的原理

SwiReasoning在推理时动态切换两种模式。

显式链式推理（explicit CoT）：模型正常思考，一步步输出推理过程。适合复杂推理任务。

隐式推理（latent reasoning）：模型在「隐藏空间」里同时探索多条路径，不把推理过程输出到最终答案里。相当于模型在心里默默想，但没说出口。

关键问题是：模型怎么知道什么时候该从隐式切到显式？

答案是置信度信号。具体来说是隐式推理时概率分布的熵值。

当模型在隐式空间探索时，它的输出是一个概率分布。如果这个分布的熵值很低——也就是说模型对自己找到的答案很有把握——就继续在隐式空间推演，或者直接输出。如果熵值高，置信度低，说明模型觉得这个答案不太确定，就切换到显式CoT，把思考过程一步步写出来，借助更长的显式推理来提高准确率。

模型用熵值判断自己有没有想清楚，而不是用预设规则决定该用哪种模式。

这个设计有两个好处。

训练无关。任何LLM只要加一层置信度监控模块，就能用SwiReasoning，不需要微调，不需要额外数据，不需要改模型权重。

Token效率提升明显。简单问题在隐式空间直接解决，不用生成冗长的思考过程。根据里约团队的测试，复杂推理任务的效果提升的同时，平均Token消耗反而更低了。

真实效果

以下数据来自论文arxiv.org/abs/2510.05069，以及里约团队的官方模型卡：

数学测试：HMMT 2026 Feb，93.9分，比基线Qwen 3.5的87.9高出6分。

代码任务：Terminal-Bench 2.1，70.8分。SWE-Bench Verified，80.2分（Qwen基线是76.2，提升4分）。SWE-Bench Multilingual，77.0分（基线75.8）。

这几个数字说明一件事：SwiReasoning对复杂推理任务有普遍提升效果，不针对特定任务。

数学提升最显著，因为数学天然需要「想清楚再回答」，SwiReasoning的动态切换机制正好匹配这种需求。代码任务提升也明显，因为代码调试本身就是复杂的多步推理过程。

怎么用

SwiReasoning的训练无关特性意味着接入门槛很低。如果你是开发者，可以关注这几个方向。

适合场景：需要复杂推理的客服机器人、代码辅助工具、复杂问题解答API。特别是请求量大但复杂程度不均的场景，SwiReasoning的Token节省效果最明显。

接入方式：在模型推理层和输出层之间加一层置信度监控模块。实时计算隐式推理的熵值，根据阈值决定是否切换到显式CoT。熵阈值需要根据具体模型和场景调参，目前没有通用的最优解。

局限性：隐式推理的过程不可解释，你不知道模型在「想什么」，只能通过熵值信号判断置信度。对于需要可解释性的场景（如金融、医疗），这可能是个问题。另外，熵阈值依赖经验，调参成本不低。

延伸阅读：论文在arXiv，编号2510.05069，代码已开源。里约团队在Hugging Face上放了完整的推理框架实现，可以直接拿来试。

真实部署场景

里约把这个模型用在了市政服务咨询上。

里约每天要处理大量市民咨询：报修、投诉、审批查询。如果每个问题都走完整CoT推理，延迟高、成本高。引入SwiReasoning后，简单咨询（「我的申请批了吗」）在隐式空间快速响应，复杂投诉（「这个路口路灯坏了三个月没人管」）自动切换到显式推理处理。

结果是响应延迟降低，算力成本下降。市民感知到的是「这个AI反应挺快的」，而不是「这个AI在思考人生」。

对国内开发者的启发是：如果你的产品面向大量C端用户，SwiReasoning是少数能同时改善用户体验和降低成本的推理层方案。

一点思考

SwiReasoning最有意思的地方，不是具体数字，而是它背后的思路。

人脑遇到简单问题，「感觉」知道答案，直接反应。遇到复杂问题，感觉不对劲，大脑才启动深度思考。SwiReasoning用数学让模型学会了这件事——判断什么时候该认真想，什么时候可以快一点。

这大概才是它最有价值的地方。

大模型为什么需要「思考开关」

SwiReasoning的原理

真实效果

怎么用

真实部署场景

一点思考

发表回复取消回复

实时焦点