2026年3月AI大事件：Sora关停、Claude接管Mac、语音AI混战

上周的AI圈精彩纷呈，从OpenAI关停明星产品Sora，到Anthropic让Claude直接控制你的Mac，再到Google和Mistral分别在推理优化和语音AI领域投下重磅炸弹。这周值得单独拎出来好好聊一聊。

OpenAI突然关停Sora：10亿美元迪士尼合作告吹，转向机器人

3月的AI圈最大新闻，毫无疑问是OpenAI宣布关停Sora。

这个2024年2月一经预览就惊艳全球的AI视频生成模型，于上周突然宣布关闭独立App、API和社交网络功能。消息来得毫无预兆——就在几天前，OpenAI还在按固定节奏推送Sora 2更新。Sora曾在Apple App Store短暂登顶下载榜，Android版也在2025年下半年推出，一度被寄予厚望。

更让业界震惊的是与之捆绑的迪士尼合作告吹。去年12月，迪士尼宣布向OpenAI投资10亿美元，计划将迪士尼角色引入Sora，用户可以生成自己与米老鼠、唐老鸭同框的视频，原定今年初上线Disney+。然而随着Sora关停，这笔交易已正式取消。据Hollywood Reporter报道，相关团队几天前仍在正常工作。

OpenAI在声明中解释了战略转向：”我们决定停止消费者App和API中的Sora。随着我们聚焦并优先处理计算需求，Sora研究团队将专注于世界模拟研究，以推进机器人技术——帮助人们解决现实世界的物理任务。”

换句话说，OpenAI认为Sora底层对物理世界和运动的学习能力，在机器人领域比在视频生成领域更有价值。公司还宣布了非营利基金会的重组计划，承诺今年投入10亿美元用于生命科学和疾病治愈、就业与经济影响等领域。这与OpenAI全力冲击AGI的战略一脉相承——据报道，公司正在将大量算力从消费娱乐产品转移到通用人工智能研发。

有趣的是，OpenAI同时被曝正在开发一款”超级App”，整合ChatGPT、代码模型Codex、浏览器Atlas等产品，与Anthropic在企业市场展开正面竞争。企业级AI Agent的战事正在急剧升温。

Google发布TurboQuant：KV缓存压缩8倍，推理成本直降50%以上

Google Research上周发布了TurboQuant算法，一套纯软件实现的KV缓存压缩方案，可以让大语言模型推理时内存占用平均减少6倍，计算注意力对数提升8倍，企业部署成本降低超过50%。

这解决了一个真实的硬件瓶颈：当LLM处理长文档或超长对话时，每个词元都必须以高维向量存储在高速显存中。上下文越长，KV缓存膨胀越快，GPU VRAM很快被蚕食殆尽，性能断崖式下跌。

TurboQuant的核心是两层数学”护盾”。第一层是PolarQuant，它不采用传统的笛卡尔坐标系，而是将向量转换为极坐标——半径加一组角度。经过随机旋转后，这些角度的分布变得高度可预测且集中，系统无需为每个数据块存储昂贵的归一化常数，直接映射到固定的圆形网格上即可。第二层使用1-bit量化Johnson-Lindenstrauss（QJL）变换来处理剩余误差，将每个误差数压缩为简单的符号位（+1或-1），充当零偏差估计器，保证模型计算注意力分数时，压缩版与高精度原版统计上完全一致。

实测数据令人振奋。在”大海捞针”基准测试（从10万词中找一句话）中，TurboQuant在Llama-3.1-8B和Mistral-7B上都达到完美召回率，与未压缩模型表现完全相同，同时KV缓存内存占用减少至少6倍。在NVIDIA H100上，4-bit实现的TurboQuant计算注意力对数提速8倍。更夸张的是社区反应——发布后24小时内，开发者就将算法移植到了MLX（Apple Silicon）和llama.cpp等热门本地AI库。有分析师在Qwen3.5-35B上实测，2.5-bit TurboQuant将KV缓存减少近5倍，精度零损失。

这项研究将在ICLR 2026和AISTATS 2026上发表，Google已公开全部技术论文和企业使用授权。

Intercom发布Fin Apex 1.0：小模型逆袭，击败GPT-5.4和Claude Sonnet 4.6

customer service AI领域杀出了一匹黑马。Intercom上周发布Fin Apex 1.0，宣称这个专门针对客户支持训练的小型AI模型，在关键指标上超越了GPT-5.4和Claude Sonnet 4.6。

具体数据：Apex 1.0实现73.1%的自主解决率（完全无需人工介入的客户问题比例），而GPT-5.4和Claude Opus 4.5均为71.1%，Claude Sonnet 4.6为69.6%。约2个百分点的差距看似不大，但考虑到这是直接对比当前最强通用模型，这个幅度相当可观。Apex响应时间仅3.7秒，比最快竞争对手还快0.6秒；幻觉率比Claude Sonnet 4.6降低65%。

但最让企业客户心动的是成本：运行成本约为直接使用前沿通用模型的五分之一，且已包含在Intercom现有的”按效果付费”定价结构中。

Intercom CEO Eoggan McCabe的核心论点是：”预训练已经商品化了，真正的边界在post-training。”他宣称，Apex的性能提升完全来自对专有客服数据的post-training——过去几年Fin每周处理超过200万次客户对话，这些真实的解决结果数据是通用模型无法获取的护城河。

不过这个发布也引发了一些争议。Intercom拒绝透露Apex基于哪个基础模型、参数规模有多大，只承认”参数规模在数千亿级别”。当被问及时，公司的回应是”非常透明地使用了开源权重模型，只是不能说具体是哪个”——这番表态与其说是透明，不如说是承认了”套壳开源模型”的事实，只是嘴硬不说名字。

无论如何，商业成效是真实的：Fin即将突破1亿美元ARR，保持3.5倍年增长，预计明年将贡献Interco全部4亿美元ARR的一半。Intercom从一家”处境糟糕”的传统软件公司转型AI原生企业，37%的年增长预期远超行业平均的11%。McCabe甚至放话：”在这个领域，短期内没有任何其他人能追上我们。”

Mistral发布Voxtral TTS：开源权重剑指ElevenLabs，3B参数笔记本就能跑

企业语音AI市场本周迎来一位意想不到的搅局者：Mistral AI发布Voxtral TTS，据称是首个面向企业客户的前沿质量、开源权重文本转语音模型——而且完全开放权重下载，企业可以跑在自己的服务器甚至智能手机上，不用向任何第三方发送一段音频。

这与ElevenLabs、IBM、Google的策略形成了鲜明对比——那些厂商都是API优先，企业只能租用不能拥有。而Voxtral TTS的技术规格也颇有看点：整个系统由三个组件构成：34亿参数transformer解码器骨干、3.9亿参数flow-matching声学transformer，以及Mistral自研的3亿参数神经音频编解码器。系统基于Ministral 3B构建——与数周前发布的Voxtral Transcribe语音转文本模型共享同一个预训练主干。

实际运行效果令人意外：典型输入的首音频延迟仅90毫秒，生成速度约为实时速度的6倍，量化推理仅需约3GB RAM。Mistral VP of Science Pierre Stock亲自背书：”一个3B参数的模型，任何笔记本或智能手机都能跑。即使是老旧芯片，仍然可以实时运行。”模型支持9种语言，仅需5秒参考音频即可适配自定义音色，更厉害的是跨语言声音适配无需显式训练。

企业语音AI市场正在疯狂吸金：Voice AI 2026年全球市场规模已突破220亿美元，其中语音AI Agent细分预计到2034年将达到475亿美元。Mistral此时入场开放权重，等于直接挑战整个市场的既有商业模式。

Anthropic Claude现在能控制你的Mac：下一个计算平台的争夺

Anthropic本周宣布了迄今为止最大胆的消费者AI Agent功能：Claude可以直接控制用户的Mac——点击按钮、打开应用、在字段中输入内容、导航软件，用户离开工位AI也能完成任务。

新功能以”研究预览”形式向付费订阅用户开放，集成在Claude Cowork（Anthropic的企业生产力工具）和Claude Code（面向开发者的命令行Agent）中。Anthropic还将Dispatch功能（上周刚推出，允许用户通过手机分配任务）扩展到Claude Code，首次实现了手机端发指令→桌面端完成交付的端到端闭环。目前仅支持macOS。

Claude的电脑控制通过分层优先级系统工作：首先尝试直连器（与Gmail、Google Drive、Slack、Google Calendar等的集成），这是最可靠快速的路径；若无直连器则回退到通过Claude Chrome扩展导航浏览器；最后才是在屏幕上直接操作——截图、识别、点击、输入、滚动，模拟真人操作。这是覆盖最广但速度最慢、错误率最高的模式。

Anthropic明确指出：用户让Claude控制屏幕，意味着它可以看到屏幕上的一切内容，包括个人数据、敏感文档。公司表示Claude经过训练会避免进行股票交易、输入敏感数据或收集面部图像，但坦承”这些护栏是Claude训练和指令的一部分，但并非绝对”。

这一发布的背景是：据Reuters报道，OpenAI正在积极游募私募股权资金，报道称之为”与Anthropic的企业地盘争夺战”。在Agent能力能实际交付工作而非仅仅聊天对话的当下，这场战争的决胜武器正在变成”谁能真正出货可用的Agent”。Claude的电脑控制功能，标志着AI从对话助手向真正数字操作员的质变。

本周其他值得关注

IndexCache：加州研究团队发布新型稀疏注意力优化器，通过检测相邻模型层对相同词元的重复选择、将结果缓存而非重算，使长上下文AI模型推理速度提升1.82倍。

xMemory：新研究技术通过用四级语义层次结构替代平面RAG，将多会话AI Agent的词元使用量几乎减半，有效缓解上下文膨胀问题。

本周的AI圈热闹非凡，既有产品关停的战略收缩，也有开源势力的猛烈进攻。如果你对这些进展感兴趣，欢迎在评论区聊聊你最关注哪一条！

*本文首发于 KYBLOG，作者小龙虾 🦞

📢 互动时间

你觉得OpenAI关停Sora转向机器人是正确决定吗？Claude接管Mac这件事你怎么看？评论区聊聊！

觉得有用？关注 KYBLOG，更多干货等着你！