AI Agent，还要再等等

锌产业 · 发表于 2025-3-7 12:54:54

作者 | 山竹
出品 | 锌产业
就在昨天，又有两个产品在国产AI圈刷屏。
一个是大厂阿里的QwQ-32B，另一个是“黑马”Monica的Manus。
前者是性能打满的开源推理模型，后者被官方称为“首个通用AI Agent”。
二者共同之处在于，在昨天的传播发酵过程中均对标DeepSeek，被称为国产AI之光，尤其是后者，顶着“全球首个通用AI Agent”的头衔，产品内测码一度被炒到5万一个。
我是在仔细翻看了官方演示视频和一些媒体评测视频后发现，Manus其实和去年年底Anthropic演示的computer use、智谱AI演示的AutoGLM原理上有几分神似。
而这个被炒得沸沸扬扬的Manus，更像是大家对AI Agent的一场狂想，一个期望，一个知其必然，却又在苦苦等待中的一丝光亮。
不过，要正视的是，Manus的产品力，在这次万众“造神”的运动中被放大了不少，就像今年CES上的Mirumi陪伴机器人一样。
01Manus不是DeepSeek2025年春节期间，DeepSeek的横空出世掀翻了大佬们的大模型牌桌。

从后来的产业变化来看，DeepSeek带来了两方面影响：
第一，DeepSeek对算力需求的下降，让苦于GPU的国内大模型市场迎来了一波国产算力曙光。
国产芯片连夜适配DeepSeek成了这几个月的常态，甚至不少国内芯片大厂、明星企业都没能过一个安稳的春节，集体回公司加班适配DeepSeek。

与此同时，DeepSeek先是让英伟达股价受挫，后又让英伟达能够卖到国内市场、算力大打折扣的H20（H20八卡服务器算力仅为H100的15%）芯片需求大增。
第二，性能对标OpenAI o1的DeepSeek R1，带动了一波大模型开源热潮。
在此之前，开源大模型在于闭源大模型路线之争上并不占优势是因为，开源大模型的性能往往与闭源大模型有着代际的差距。
这次，DeepSeek R1性能直接对标OpenAI o1，连这么能打的DeepSeek R1都全面开源了，那些矜持的大模型厂商，也就没有了不开源的理由。
就连一贯奉行大模型闭源的百度，也在前不久选择了开源。

而之所以能对人工智能产业带来这样巨大的震动，从技术层面来看，是因为DeepSeek R1在算法层面采用的混合专家模型架构（MoE）和改进的多头潜在注意力机制（MLA），将显存占用降到了主流大模型的10%左右，采用群组策略优化（GRPO）又进一步降低了数据标注成本，甚至强化学习也因此翻红。
从大模型发展进程来看，信奉Scaling Law的OpenAI卡在GPT-5发布的节点上，迟迟未能再进一步，OpenAI前首席科学家Ilya Sutskever在2024年年底的NeurIPS大会上更是直言，规模法则已触顶，大模型预训练时代将结束。

李国杰院士在近日公开发表的文章中则指出，“DeepSeek的问世标志着人工智能训练模式从‘大力出奇迹’的外延式发展阶段，转向集约化系统优化的内涵式发展阶段。”
这是DeepSeek给我们带来变化，堪称一个历史的转折点。
再看昨天Monica发布的Manus，其实，某种意义上而言，可以说是DeepSeek的延续。
现在媒体上一个流行的说法是，DeepSeek是“建议者”，Manus是“执行者”。
这个说法我是认同的。
从Manus的官方演示视频来看，它可以扮演HR的角色，为你筛选候选人的简历，你只需要上传包含简历的压缩文件，它就可以「解压文件——打开文档、逐页阅读——形成报告」，最终以报告的形式呈现在你眼前。

它也可以扮演股票经理的角色，为你形成股票对比报告，你只需要告诉它你要分析的股票，它就可以「通过API调用访问股票数据——编写量化分析和可视化呈现代码——形成可视化分析报告——根据进一步指令创建网站页面」。

我们可以看到，在这个过程中，Manus首先仍然是一个“建议者”，它会分析文本、对比数据，也会形成观点，甚至报告。
不过，与DeepSeek不同的是，Manus可以执行诸如生成图片、创建网页、生成网站这样的“动作”。
这样来看，Manus确实是一个“执行者”。
不过，Manus并没有如DeepSeek一样用技术创造力来改变大模型的产业走向和格局。
02我们都在期待AI Agent就过往的大模型进化来看，多模态大模型已经具备文本、图像、代码三大生成式AI能力。
正因如此，在2024年，我们看到了多模态大模型的涌现，看到了文本、图像、代码已经成为通用基础大模型的三大标配能力，我们甚至看到了Sora、Vidu这样的视频生成模型的涌现。
在大模型具备了这些基础能力后，这才有了2024年年底Claude 3.5 Sonnet引入的computer use能力，智谱AI的AutoGLM的手机“自动驾驶”能力。

就手机自动驾驶而言，在2024年，荣耀前任CEO赵明就曾在周鸿祎直播间演示过“一句话点咖啡”的能力。
在那次演示中，赵明对着手机（的智能语音助手）说“点三杯美式咖啡”，手机就会自动完成「打开APP-搜索-下单」步骤，赵明只需要在手机上点击确认下单就能完成整个操作过程。
这样的大模型能力被荣耀集成到了2024年10月发布的MagicOS 9.0系统中，赵明发布会上豪言称，“手机驶入了‘自动驾驶’时代。”

这样的手机“自动驾驶”能力在随后很快成了AI手机的标配，并在今年的CES和MWC上为众人熟知。
看过手机“自动驾驶”能力演示的朋友，不难发现，Manus展现出的数据分析、模型应用、API调用能力与这类computer use、手机自动驾驶有着诸多相似之处。
在Manus官方演示视频中，Manus任务执行逻辑也是在重复执行三个动作：思考中、使用终端、编辑文件，这样拟人的动作，像computer use一样完成了一个程序员的编程工作。
并将这样的工作流以可视化界面展现了出来。

我更相信，Manus这样由一个优秀的软件开发团队开发出的AI Agent，是真正拥有产品化能力的AI Agent涌现之前的一个中间形态。
就像computer use和手机自动驾驶一样。
我也相信，2025年一定会有各种各样让人意想不到的AI Agent出现，这些AI Agent很可能会改变一代人的专业技能和生活方式。
这样的改变，让我们既惶恐，又期待。

更多科技产业技术、故事、趋势，欢迎关注我们👇

		自动登录	找回密码
密码			立即注册

AI Agent，还要再等等

浏览过的版块