AI Agent,还要再等等
作者 | 山竹
出品 | 锌产业
就在昨天,又有两个产品在国产AI圈刷屏。
一个是大厂阿里的QwQ-32B,另一个是“黑马”Monica的Manus。
前者是性能打满的开源推理模型,后者被官方称为“首个通用AI Agent”。
二者共同之处在于,在昨天的传播发酵过程中均对标DeepSeek,被称为国产AI之光,尤其是后者,顶着“全球首个通用AI Agent”的头衔,产品内测码一度被炒到5万一个。
我是在仔细翻看了官方演示视频和一些媒体评测视频后发现,Manus其实和去年年底Anthropic演示的computer use、智谱AI演示的AutoGLM原理上有几分神似。
而这个被炒得沸沸扬扬的Manus,更像是大家对AI Agent的一场狂想,一个期望,一个知其必然,却又在苦苦等待中的一丝光亮。
不过,要正视的是,Manus的产品力,在这次万众“造神”的运动中被放大了不少,就像今年CES上的Mirumi陪伴机器人一样。
01Manus不是DeepSeek2025年春节期间,DeepSeek的横空出世掀翻了大佬们的大模型牌桌。
从后来的产业变化来看,DeepSeek带来了两方面影响:
第一,DeepSeek对算力需求的下降,让苦于GPU的国内大模型市场迎来了一波国产算力曙光。
国产芯片连夜适配DeepSeek成了这几个月的常态,甚至不少国内芯片大厂、明星企业都没能过一个安稳的春节,集体回公司加班适配DeepSeek。
与此同时,DeepSeek先是让英伟达股价受挫,后又让英伟达能够卖到国内市场、算力大打折扣的H20(H20八卡服务器算力仅为H100的15%)芯片需求大增。
第二,性能对标OpenAI o1的DeepSeek R1,带动了一波大模型开源热潮。
在此之前,开源大模型在于闭源大模型路线之争上并不占优势是因为,开源大模型的性能往往与闭源大模型有着代际的差距。
这次,DeepSeek R1性能直接对标OpenAI o1,连这么能打的DeepSeek R1都全面开源了,那些矜持的大模型厂商,也就没有了不开源的理由。
就连一贯奉行大模型闭源的百度,也在前不久选择了开源。
而之所以能对人工智能产业带来这样巨大的震动,从技术层面来看,是因为DeepSeek R1在算法层面采用的混合专家模型架构(MoE)和改进的多头潜在注意力机制(MLA),将显存占用降到了主流大模型的10%左右,采用群组策略优化(GRPO)又进一步降低了数据标注成本,甚至强化学习也因此翻红。
从大模型发展进程来看,信奉Scaling Law的OpenAI卡在GPT-5发布的节点上,迟迟未能再进一步,OpenAI前首席科学家Ilya Sutskever在2024年年底的NeurIPS大会上更是直言,规模法则已触顶,大模型预训练时代将结束。
李国杰院士在近日公开发表的文章中则指出,“DeepSeek的问世标志着人工智能训练模式从‘大力出奇迹’的外延式发展阶段,转向集约化系统优化的内涵式发展阶段。”
这是DeepSeek给我们带来变化,堪称一个历史的转折点。
再看昨天Monica发布的Manus,其实,某种意义上而言,可以说是DeepSeek的延续。
现在媒体上一个流行的说法是,DeepSeek是“建议者”,Manus是“执行者”。
这个说法我是认同的。
从Manus的官方演示视频来看,它可以扮演HR的角色,为你筛选候选人的简历,你只需要上传包含简历的压缩文件,它就可以「解压文件——打开文档、逐页阅读——形成报告」,最终以报告的形式呈现在你眼前。
它也可以扮演股票经理的角色,为你形成股票对比报告,你只需要告诉它你要分析的股票,它就可以「通过API调用访问股票数据——编写量化分析和可视化呈现代码——形成可视化分析报告——根据进一步指令创建网站页面」。
我们可以看到,在这个过程中,Manus首先仍然是一个“建议者”,它会分析文本、对比数据,也会形成观点,甚至报告。
不过,与DeepSeek不同的是,Manus可以执行诸如生成图片、创建网页、生成网站这样的“动作”。
这样来看,Manus确实是一个“执行者”。
不过,Manus并没有如DeepSeek一样用技术创造力来改变大模型的产业走向和格局。
02我们都在期待AI Agent就过往的大模型进化来看,多模态大模型已经具备文本、图像、代码三大生成式AI能力。
正因如此,在2024年,我们看到了多模态大模型的涌现,看到了文本、图像、代码已经成为通用基础大模型的三大标配能力,我们甚至看到了Sora、Vidu这样的视频生成模型的涌现。
在大模型具备了这些基础能力后,这才有了2024年年底Claude 3.5 Sonnet引入的computer use能力,智谱AI的AutoGLM的手机“自动驾驶”能力。
就手机自动驾驶而言,在2024年,荣耀前任CEO赵明就曾在周鸿祎直播间演示过“一句话点咖啡”的能力。
在那次演示中,赵明对着手机(的智能语音助手)说“点三杯美式咖啡”,手机就会自动完成「打开APP-搜索-下单」步骤,赵明只需要在手机上点击确认下单就能完成整个操作过程。
这样的大模型能力被荣耀集成到了2024年10月发布的MagicOS 9.0系统中,赵明发布会上豪言称,“手机驶入了‘自动驾驶’时代。”
这样的手机“自动驾驶”能力在随后很快成了AI手机的标配,并在今年的CES和MWC上为众人熟知。
看过手机“自动驾驶”能力演示的朋友,不难发现,Manus展现出的数据分析、模型应用、API调用能力与这类computer use、手机自动驾驶有着诸多相似之处。
在Manus官方演示视频中,Manus任务执行逻辑也是在重复执行三个动作:思考中、使用终端、编辑文件,这样拟人的动作,像computer use一样完成了一个程序员的编程工作。
并将这样的工作流以可视化界面展现了出来。
我更相信,Manus这样由一个优秀的软件开发团队开发出的AI Agent,是真正拥有产品化能力的AI Agent涌现之前的一个中间形态。
就像computer use和手机自动驾驶一样。
我也相信,2025年一定会有各种各样让人意想不到的AI Agent出现,这些AI Agent很可能会改变一代人的专业技能和生活方式。
这样的改变,让我们既惶恐,又期待。
更多科技产业技术、故事、趋势,欢迎关注我们👇
页:
[1]