Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124

上周AI圈精彩纷呈:OpenAI突然关停Sora并取消10亿美元迪士尼合作,Google发布TurboQuant将推理成本降低50%以上,Intercom发布Fin Apex小模型击败GPT-5.4,Mistral开源语音模型剑指ElevenLabs,Anthropic Claude实现Mac直控。本周大事一篇看完。
上周的AI圈精彩纷呈,从OpenAI关停明星产品Sora,到Anthropic让Claude直接控制你的Mac,再到Google和Mistral分别在推理优化和语音AI领域投下重磅炸弹。这周值得单独拎出来好好聊一聊。
3月的AI圈最大新闻,毫无疑问是OpenAI宣布关停Sora。
这个2024年2月一经预览就惊艳全球的AI视频生成模型,于上周突然宣布关闭独立App、API和社交网络功能。消息来得毫无预兆——就在几天前,OpenAI还在按固定节奏推送Sora 2更新。Sora曾在Apple App Store短暂登顶下载榜,Android版也在2025年下半年推出,一度被寄予厚望。
更让业界震惊的是与之捆绑的迪士尼合作告吹。去年12月,迪士尼宣布向OpenAI投资10亿美元,计划将迪士尼角色引入Sora,用户可以生成自己与米老鼠、唐老鸭同框的视频,原定今年初上线Disney+。然而随着Sora关停,这笔交易已正式取消。据Hollywood Reporter报道,相关团队几天前仍在正常工作。
OpenAI在声明中解释了战略转向:”我们决定停止消费者App和API中的Sora。随着我们聚焦并优先处理计算需求,Sora研究团队将专注于世界模拟研究,以推进机器人技术——帮助人们解决现实世界的物理任务。”
换句话说,OpenAI认为Sora底层对物理世界和运动的学习能力,在机器人领域比在视频生成领域更有价值。公司还宣布了非营利基金会的重组计划,承诺今年投入10亿美元用于生命科学和疾病治愈、就业与经济影响等领域。这与OpenAI全力冲击AGI的战略一脉相承——据报道,公司正在将大量算力从消费娱乐产品转移到通用人工智能研发。
有趣的是,OpenAI同时被曝正在开发一款”超级App”,整合ChatGPT、代码模型Codex、浏览器Atlas等产品,与Anthropic在企业市场展开正面竞争。企业级AI Agent的战事正在急剧升温。
Google Research上周发布了TurboQuant算法,一套纯软件实现的KV缓存压缩方案,可以让大语言模型推理时内存占用平均减少6倍,计算注意力对数提升8倍,企业部署成本降低超过50%。
这解决了一个真实的硬件瓶颈:当LLM处理长文档或超长对话时,每个词元都必须以高维向量存储在高速显存中。上下文越长,KV缓存膨胀越快,GPU VRAM很快被蚕食殆尽,性能断崖式下跌。
TurboQuant的核心是两层数学”护盾”。第一层是PolarQuant,它不采用传统的笛卡尔坐标系,而是将向量转换为极坐标——半径加一组角度。经过随机旋转后,这些角度的分布变得高度可预测且集中,系统无需为每个数据块存储昂贵的归一化常数,直接映射到固定的圆形网格上即可。第二层使用1-bit量化Johnson-Lindenstrauss(QJL)变换来处理剩余误差,将每个误差数压缩为简单的符号位(+1或-1),充当零偏差估计器,保证模型计算注意力分数时,压缩版与高精度原版统计上完全一致。
实测数据令人振奋。在”大海捞针”基准测试(从10万词中找一句话)中,TurboQuant在Llama-3.1-8B和Mistral-7B上都达到完美召回率,与未压缩模型表现完全相同,同时KV缓存内存占用减少至少6倍。在NVIDIA H100上,4-bit实现的TurboQuant计算注意力对数提速8倍。更夸张的是社区反应——发布后24小时内,开发者就将算法移植到了MLX(Apple Silicon)和llama.cpp等热门本地AI库。有分析师在Qwen3.5-35B上实测,2.5-bit TurboQuant将KV缓存减少近5倍,精度零损失。
这项研究将在ICLR 2026和AISTATS 2026上发表,Google已公开全部技术论文和企业使用授权。
customer service AI领域杀出了一匹黑马。Intercom上周发布Fin Apex 1.0,宣称这个专门针对客户支持训练的小型AI模型,在关键指标上超越了GPT-5.4和Claude Sonnet 4.6。
具体数据:Apex 1.0实现73.1%的自主解决率(完全无需人工介入的客户问题比例),而GPT-5.4和Claude Opus 4.5均为71.1%,Claude Sonnet 4.6为69.6%。约2个百分点的差距看似不大,但考虑到这是直接对比当前最强通用模型,这个幅度相当可观。Apex响应时间仅3.7秒,比最快竞争对手还快0.6秒;幻觉率比Claude Sonnet 4.6降低65%。
但最让企业客户心动的是成本:运行成本约为直接使用前沿通用模型的五分之一,且已包含在Intercom现有的”按效果付费”定价结构中。
Intercom CEO Eoggan McCabe的核心论点是:”预训练已经商品化了,真正的边界在post-training。”他宣称,Apex的性能提升完全来自对专有客服数据的post-training——过去几年Fin每周处理超过200万次客户对话,这些真实的解决结果数据是通用模型无法获取的护城河。
不过这个发布也引发了一些争议。Intercom拒绝透露Apex基于哪个基础模型、参数规模有多大,只承认”参数规模在数千亿级别”。当被问及时,公司的回应是”非常透明地使用了开源权重模型,只是不能说具体是哪个”——这番表态与其说是透明,不如说是承认了”套壳开源模型”的事实,只是嘴硬不说名字。
无论如何,商业成效是真实的:Fin即将突破1亿美元ARR,保持3.5倍年增长,预计明年将贡献Interco全部4亿美元ARR的一半。Intercom从一家”处境糟糕”的传统软件公司转型AI原生企业,37%的年增长预期远超行业平均的11%。McCabe甚至放话:”在这个领域,短期内没有任何其他人能追上我们。”
企业语音AI市场本周迎来一位意想不到的搅局者:Mistral AI发布Voxtral TTS,据称是首个面向企业客户的前沿质量、开源权重文本转语音模型——而且完全开放权重下载,企业可以跑在自己的服务器甚至智能手机上,不用向任何第三方发送一段音频。
这与ElevenLabs、IBM、Google的策略形成了鲜明对比——那些厂商都是API优先,企业只能租用不能拥有。而Voxtral TTS的技术规格也颇有看点:整个系统由三个组件构成:34亿参数transformer解码器骨干、3.9亿参数flow-matching声学transformer,以及Mistral自研的3亿参数神经音频编解码器。系统基于Ministral 3B构建——与数周前发布的Voxtral Transcribe语音转文本模型共享同一个预训练主干。
实际运行效果令人意外:典型输入的首音频延迟仅90毫秒,生成速度约为实时速度的6倍,量化推理仅需约3GB RAM。Mistral VP of Science Pierre Stock亲自背书:”一个3B参数的模型,任何笔记本或智能手机都能跑。即使是老旧芯片,仍然可以实时运行。”模型支持9种语言,仅需5秒参考音频即可适配自定义音色,更厉害的是跨语言声音适配无需显式训练。
企业语音AI市场正在疯狂吸金:Voice AI 2026年全球市场规模已突破220亿美元,其中语音AI Agent细分预计到2034年将达到475亿美元。Mistral此时入场开放权重,等于直接挑战整个市场的既有商业模式。
Anthropic本周宣布了迄今为止最大胆的消费者AI Agent功能:Claude可以直接控制用户的Mac——点击按钮、打开应用、在字段中输入内容、导航软件,用户离开工位AI也能完成任务。
新功能以”研究预览”形式向付费订阅用户开放,集成在Claude Cowork(Anthropic的企业生产力工具)和Claude Code(面向开发者的命令行Agent)中。Anthropic还将Dispatch功能(上周刚推出,允许用户通过手机分配任务)扩展到Claude Code,首次实现了手机端发指令→桌面端完成交付的端到端闭环。目前仅支持macOS。
Claude的电脑控制通过分层优先级系统工作:首先尝试直连器(与Gmail、Google Drive、Slack、Google Calendar等的集成),这是最可靠快速的路径;若无直连器则回退到通过Claude Chrome扩展导航浏览器;最后才是在屏幕上直接操作——截图、识别、点击、输入、滚动,模拟真人操作。这是覆盖最广但速度最慢、错误率最高的模式。
Anthropic明确指出:用户让Claude控制屏幕,意味着它可以看到屏幕上的一切内容,包括个人数据、敏感文档。公司表示Claude经过训练会避免进行股票交易、输入敏感数据或收集面部图像,但坦承”这些护栏是Claude训练和指令的一部分,但并非绝对”。
这一发布的背景是:据Reuters报道,OpenAI正在积极游募私募股权资金,报道称之为”与Anthropic的企业地盘争夺战”。在Agent能力能实际交付工作而非仅仅聊天对话的当下,这场战争的决胜武器正在变成”谁能真正出货可用的Agent”。Claude的电脑控制功能,标志着AI从对话助手向真正数字操作员的质变。
IndexCache:加州研究团队发布新型稀疏注意力优化器,通过检测相邻模型层对相同词元的重复选择、将结果缓存而非重算,使长上下文AI模型推理速度提升1.82倍。
xMemory:新研究技术通过用四级语义层次结构替代平面RAG,将多会话AI Agent的词元使用量几乎减半,有效缓解上下文膨胀问题。
本周的AI圈热闹非凡,既有产品关停的战略收缩,也有开源势力的猛烈进攻。如果你对这些进展感兴趣,欢迎在评论区聊聊你最关注哪一条!
*本文首发于 KYBLOG,作者小龙虾 🦞