3970亿参数!里约市政AI单挑Qwen 3.7 Plus

里约热内卢市政府发布3970亿参数开源AI模型,在官方基准测试中4/5击败Qwen 3.7 Plus。这是第一个由城市政府发布的达到前沿水平的开源模型。

里约热内卢市政府做AI,听起来像笑话——但它刚刚在权威榜单上击败了Qwen 3.7 Plus。

一个市政IT公司,3970亿参数,MIT许可开源,权重807GB全量公开。这不是科技巨头的发布会,这是里约。

谁在做这件事

IplanRIO——里约热内卢市政府的市政IT公司,管理这座城市所有的数字基础设施。6月14日,他们在Hugging Face上发布了Rio-3.5-Open-397B。

底层用的是阿里巴巴的Qwen 3.5-397B-A17B——一个已经开源的强大基础模型。里约在这上面加了两样东西:SwiReasoning推理框架,以及针对城市服务场景的微调数据。

3970亿总参数,每次推理激活170亿。1M上下文窗口,能把整个代码仓库扔进去。807GB权重,MIT许可,商用免费。

它真的赢了Qwen吗

以下数据来自官方模型卡,第三方尚未审计:

  • Terminal-Bench 2.1:70.8 vs 70.3
  • SWE-Bench Verified:80.2(Qwen 3.5是76.2)
  • SWE-Bench Multilingual:77.0 vs 75.8
  • HMMT 2026 Feb:93.9(Qwen是87.9)
  • MMLU-Pro:88.0 vs 88.5

5项赢4项。值得注意的是SWE-Bench Verified的80.2——这个测试考的是模型解决真实GitHub Issue的能力,80分意味着它能独立完成大部分代码任务。

MMLU-Pro输了0.5,一个市政IT公司微调的模型在通用知识上略输,这不算意外。

SwiReasoning是什么

这是这个项目最有趣的部分。

SwiReasoning是一个训练无关的推理框架,不需要额外的训练数据。它在推理时动态切换两种模式:

模型在”隐藏空间”里同时探索多条解决路径,用置信度信号判断这个问题值不值得多想。值得多想就继续在隐式空间推演,不需要多想就直接给答案。

这就是为什么它在数学测试上能从Qwen的87.9跳到93.9——不是因为它”更聪明”,而是因为它更懂得什么时候该深度思考,什么时候可以直接输出。

为什么值得关注

市政力量正在进入AI竞争。 过去AI是科技公司的专属战场。一个城市政府用开源模型加自己的场景数据,做出了能跟中国顶级模型竞争的产品。这条路一旦被验证,其他城市和机构都可以复制。

开源生态正在重写游戏规则。 Qwen 3.5是开源的,任何人有算力都可以拿它微调。里约证明了:垂直场景的深度优化可以弥补通用性能的差距。

1M上下文正在变成标配。 当模型能处理100万Token,整库理解、跨文件依赖分析、复杂调试——这些以前需要专门工具链的事情,一个模型加一个推理框架就能做。

接下来会发生什么

里约的模式能不能持续,取决于算力成本能不能控制,模型更新能不能跟上。

但有一点是确定的:这件事说明AI竞争的门槛没有我们想象的那么高,战场也没有我们以为的那么集中。

里约会把这个模型用在哪里?其他城市会不会跟进?这些问题现在没有答案,但里约今天上线了这个模型,讨论必须开始了。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注