找回密码
 立即注册

BTC: 加载中...

ETH: 加载中...

USDT: 加载中...

BNB: 加载中...

XRP: 加载中...

ADA: 加载中...

SOL: 加载中...

DOGE: 加载中...

DOT: 加载中...

SHIB: 加载中...

TRX: 加载中...

搜索
查看: 357|回复: 0

AI Agent,还要再等等

[复制链接]

1

主题

0

回帖

3

积分

新手上路

积分
3
发表于 2025-3-7 12:54:54 | 显示全部楼层 |阅读模式
1.webp

作者 | 山竹
出品 | 锌产业
就在昨天,又有两个产品在国产AI圈刷屏。
一个是大厂阿里的QwQ-32B,另一个是“黑马”Monica的Manus。
前者是性能打满的开源推理模型,后者被官方称为“首个通用AI Agent”。
二者共同之处在于,在昨天的传播发酵过程中均对标DeepSeek,被称为国产AI之光,尤其是后者,顶着“全球首个通用AI Agent”的头衔,产品内测码一度被炒到5万一个。 
我是在仔细翻看了官方演示视频和一些媒体评测视频后发现,Manus其实和去年年底Anthropic演示的computer use、智谱AI演示的AutoGLM原理上有几分神似。
而这个被炒得沸沸扬扬的Manus,更像是大家对AI Agent的一场狂想,一个期望,一个知其必然,却又在苦苦等待中的一丝光亮
不过,要正视的是,Manus的产品力,在这次万众“造神”的运动中被放大了不少,就像今年CES上的Mirumi陪伴机器人一样
01Manus不是DeepSeek2025年春节期间,DeepSeek的横空出世掀翻了大佬们的大模型牌桌。
2.webp

从后来的产业变化来看,DeepSeek带来了两方面影响:
第一,DeepSeek对算力需求的下降,让苦于GPU的国内大模型市场迎来了一波国产算力曙光。
国产芯片连夜适配DeepSeek成了这几个月的常态,甚至不少国内芯片大厂、明星企业都没能过一个安稳的春节,集体回公司加班适配DeepSeek。
3.webp

与此同时,DeepSeek先是让英伟达股价受挫,后又让英伟达能够卖到国内市场、算力大打折扣的H20H20八卡服务器算力仅为H100的15%芯片需求大增。
第二,性能对标OpenAI o1的DeepSeek R1,带动了一波大模型开源热潮
在此之前,开源大模型在于闭源大模型路线之争上并不占优势是因为,开源大模型的性能往往与闭源大模型有着代际的差距。
这次,DeepSeek R1性能直接对标OpenAI o1,连这么能打的DeepSeek R1都全面开源了,那些矜持的大模型厂商,也就没有了不开源的理由。
就连一贯奉行大模型闭源的百度,也在前不久选择了开源。
4.webp

而之所以能对人工智能产业带来这样巨大的震动,从技术层面来看,是因为DeepSeek R1在算法层面采用的混合专家模型架构(MoE)和改进的多头潜在注意力机制(MLA),将显存占用降到了主流大模型的10%左右,采用群组策略优化(GRPO)又进一步降低了数据标注成本,甚至强化学习也因此翻红。
从大模型发展进程来看,信奉Scaling Law的OpenAI卡在GPT-5发布的节点上,迟迟未能再进一步,OpenAI前首席科学家Ilya Sutskever在2024年年底的NeurIPS大会上更是直言,规模法则已触顶,大模型预训练时代将结束。
5.webp

李国杰院士在近日公开发表的文章中则指出,“DeepSeek的问世标志着人工智能训练模式从‘大力出奇迹’的外延式发展阶段,转向集约化系统优化的内涵式发展阶段。”
这是DeepSeek给我们带来变化,堪称一个历史的转折点。
再看昨天Monica发布的Manus,其实,某种意义上而言,可以说是DeepSeek的延续。
现在媒体上一个流行的说法是,DeepSeek是“建议者”,Manus是“执行者”
这个说法我是认同的。
从Manus的官方演示视频来看,它可以扮演HR的角色,为你筛选候选人的简历,你只需要上传包含简历的压缩文件,它就可以「解压文件——打开文档、逐页阅读——形成报告」,最终以报告的形式呈现在你眼前。
6.webp

它也可以扮演股票经理的角色,为你形成股票对比报告,你只需要告诉它你要分析的股票,它就可以「通过API调用访问股票数据——编写量化分析和可视化呈现代码——形成可视化分析报告——根据进一步指令创建网站页面」。
7.webp

我们可以看到,在这个过程中,Manus首先仍然是一个“建议者”,它会分析文本、对比数据,也会形成观点,甚至报告。
不过,与DeepSeek不同的是,Manus可以执行诸如生成图片、创建网页、生成网站这样的“动作”。
这样来看,Manus确实是一个“执行者”。
不过,Manus并没有如DeepSeek一样用技术创造力来改变大模型的产业走向和格局。
02我们都在期待AI Agent就过往的大模型进化来看,多模态大模型已经具备文本、图像、代码三大生成式AI能力。
正因如此,在2024年,我们看到了多模态大模型的涌现,看到了文本、图像、代码已经成为通用基础大模型的三大标配能力,我们甚至看到了Sora、Vidu这样的视频生成模型的涌现。
在大模型具备了这些基础能力后,这才有了2024年年底Claude 3.5 Sonnet引入的computer use能力,智谱AI的AutoGLM的手机“自动驾驶”能力。
8.webp

就手机自动驾驶而言,在2024年,荣耀前任CEO赵明就曾在周鸿祎直播间演示过“一句话点咖啡”的能力。
在那次演示中,赵明对着手机(的智能语音助手)说“点三杯美式咖啡”,手机就会自动完成「打开APP-搜索-下单」步骤,赵明只需要在手机上点击确认下单就能完成整个操作过程。
这样的大模型能力被荣耀集成到了2024年10月发布的MagicOS 9.0系统中,赵明发布会上豪言称,“手机驶入了‘自动驾驶’时代。”
9.webp


这样的手机“自动驾驶”能力在随后很快成了AI手机的标配,并在今年的CES和MWC上为众人熟知。
看过手机“自动驾驶”能力演示的朋友,不难发现,Manus展现出的数据分析、模型应用、API调用能力与这类computer use、手机自动驾驶有着诸多相似之处
在Manus官方演示视频中,Manus任务执行逻辑也是在重复执行三个动作:思考中、使用终端、编辑文件,这样拟人的动作,像computer use一样完成了一个程序员的编程工作。
并将这样的工作流以可视化界面展现了出来。
10.webp

我更相信,Manus这样由一个优秀的软件开发团队开发出的AI Agent,是真正拥有产品化能力的AI Agent涌现之前的一个中间形态。
就像computer use和手机自动驾驶一样。 
我也相信,2025年一定会有各种各样让人意想不到的AI Agent出现,这些AI Agent很可能会改变一代人的专业技能和生活方式。
这样的改变,让我们既惶恐,又期待。
更多科技产业技术、故事、趋势,欢迎关注我们👇
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|币圈社区

GMT+8, 2025-4-4 07:20 , Processed in 0.115962 second(s), 24 queries .

Powered by forum.gao.gs

© 2021-2024 币圈社区

快速回复 返回顶部 返回列表