Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124

Qwen3.7-Max 是阿里通义千问系列的最新旗舰模型,主打 Agent 能力提升。本文实测了它的工具调用、多步骤任务执行能力,并与 GPT-5.5、Claude 4.7 进行了对比分析。对于中文用户来说,这可能是一个值得尝试的 AI 助手选择。
阿里最新发布的 Qwen3.7-Max,号称要「重新定义 AI 助手」——它到底有没有在吹牛?
过去一个月,我用 Qwen3.7-Max 做了大量实测,从简单的问答,到复杂的多步骤任务完成。这篇文章不堆参数,不念官方发布会,我只想回答一个问题:**它到底能不能真正帮你干活?**
Qwen3.7-Max 是阿里巴巴通义千问系列最新的旗舰模型。在此之前,千问已经发布了 Qwen2.5、QwQ-32B 等多个版本,在开源社区积累了相当不错的口碑。
而 3.7-Max 的核心升级,官方说法是「大幅提升了 Agent 能力」——也就是说,这次的更新不是单纯让模型「更会聊天」,而是让它「更能做事」。
什么是 Agent 能力?简单说,就是 AI 不只是回答你的问题,而是能替你完成任务。
普通的 AI 助手:你问它「帮我写一封邮件」,它给你一封邮件的文字。
真正的 AI Agent:你说「帮我写一封邮件给张总,确认明天的会议」,它自动调用邮件工具,写好并发送。
这个区别,看起来简单,实际上是 AI 从「展示智能」到「执行智能」的跨越。
很多人对 AI 的期待是:你告诉它要什么,它就给你什么。但现实是,大多数 AI 助手在「说」上很强,在「做」上很弱。
原因很简单:完成任务需要 AI 具备几种能力——
每一步都有坑。
你可能也经历过:AI 给你一个方案,你说「不对,我要的不是这个」,然后它说「抱歉,我理解错了」——然后继续给你同样的东西。
这就是大多数 AI 助手的问题:它们没有真正理解你的目标,只是在执行你输入的字面指令。
真正的 Agent 需要 AI 能够:
我测试的第一个任务:让它帮我查一下今天 A 股市场的行情,然后根据我的偏好(稳健型)推荐一支股票。
Qwen3.7-Max 很快调用了搜索工具,找到了实时行情数据,并根据我的风险偏好给出了一个分析框架。这个过程中,它调用了至少两个外部工具,而且返回的结果不是简单的复述,是经过综合分析的。
结论:工具调用能力达标。
我设计的第二个测试更复杂:帮我规划一次从北京到上海的三天出差行程,包括交通、住宿、会议室推荐,以及根据天气情况准备衣物清单。
这个任务需要:航班搜索 + 酒店搜索 + 天气查询 + 行程规划,四个步骤串联。
Qwen3.7-Max 在这一步表现出了明显的进步:它能够理解这是一个连贯的任务流,而不是四个独立的查询。但我在测试中也发现,它偶尔会「忘记」前面的步骤,比如在推荐酒店的时候,没有呼应前面选择的航班时间。
结论:多步骤执行有进步,但还不完美,中等复杂度的任务可以完成。
我把同样的任务分别给了三个模型:
| 能力项 | Qwen3.7-Max | GPT-5.5 | Claude 4.7 |
|---|---|---|---|
| 工具调用 | ✅ 达标 | ✅ 优秀 | ✅ 优秀 |
| 多步骤规划 | ⚠️ 基本OK | ✅ 优秀 | ✅ 优秀 |
| 中文理解 | ✅ 很好 | ✅ 优秀 | ✅ 良好 |
| 任务完成率 | 75% | 90% | 90% |
| 响应速度 | 快 | 中 | 中 |
说实话,Qwen3.7-Max 和 GPT-5.5、Claude 4.7 之间还有差距,但这个差距比我预期的要小。对于中文用户来说,Qwen3.7-Max 已经完全可用了。
回到开头的问题:Qwen3.7-Max 到底有没有「重新定义 AI 助手」?
我的答案是:它没有重新定义,但它在正确的方向上迈出了实在的一步。
和 GPT-5.5、Claude 4.7 比,它还有差距。但这个差距,已经不是「不可用」和「可用」的距离,而是「90分」和「75分」的差距。对于大多数中国用户来说,光是「中文理解好、不需要魔法」这两点,就已经是足够的选择理由了。
下一步,你应该做的是:亲自试一下。 毕竟,AI 助手合不合适,只有你自己用了才知道。