Manus实测,它和DeepSeek有什么不同?
创始人
2025-03-21 13:02:33
0

自3月5日开启内测以来,人工智能应用 Manus 出圈走红。3月12日晚间,Manus在自有 X 账号上表示,7天以来Manus使用申请等候名单增加到两百万人次。

澎湃新闻·对齐Lab在获得内测码后,使用Manus进行了四种任务测试。总体而言,Manus作为“开箱即用”的创新智能体应用有不少优点:交互界面友好、拆解需求能力强、多AI协作有条不紊、设计功底强,但在信息整合能力、细节优化、交付完成度上还有待提高。

Manus和AI Agent究竟是什么?

有别于之前爆火的DeepSeek,Manus并不是一个新的人工智能大模型,而是一款让AI大模型协作的人工智能体(AI Agent)。也就是说,Manus不创造大模型,而是使用市面上已经存在的大模型打造了一个为人服务的“助理”。理论上,AI Agent能够以类似人类的方式工作,通过大模型来“理解”用户需求,“规划”达成目标的路径,调用包括大模型在内的各种“工具”来执行任务。

Manus所处的AI Agent赛道刚刚兴起,虽然不乏竞品,却还没有产生现象级的产品。

Smiliarweb数据显示,在2月全球增速最高的10个AI产品中,只有Dify一家与Agent概念有关(Manus目前处于逐步放开的测试阶段)。但Dify更准确的定位是Agent开发平台,并不是像Manus这样的AI Agent应用。AI产品中流量最高的,还是集中在AI聊天机器人这个品类。但从全球AI APP的访问量总榜来看,除了DeepSeek这样的新晋爆款,其他高访问量AI产品大多是上榜多时且存在增长困难的问题。

平均一个任务用时40分钟,Manus擅长做什么?

从Manus官方和Discord社区发布的测试案例来看,网页、报告、PPT是用户希望Manus生成的主要内容产品,符合大部分打工人、学生群体的需求。

根据不同的任务难度,我们分别测试了Manus在svg图像生成、数据可视化、游戏设计、数据挖掘、网页交互设计等方面的能力。

我们使用理解能力、准确性、设计能力和代码能力这四个维度,对Manus测试过的四个任务进行了评估。Manus最擅长的是理解需求后拆解任务,在不同任务难度下均能达到7分以上的标准(满分10分)。此外,Manus的网页设计能力和审美也值得称赞。在“小王子智能体世界”项目中,Manus在没有提示词的引导下,通过理解故事和设定自主完成了风格化的设计。

Manus 的工作原理是使用多个 AI 模型协同决策,这些 AI 模型会自动拆解任务目标、生成执行计划,调用工具接口完成文件操作、数据处理等任务,并实时根据反馈动态调整策略,实现复杂任务的自主执行,从而实现一句提示词就将任务执行到底的效果。Manus 的所有工作流程均在云端虚拟机上完成。

提示词和参考资料越详细,项目的完成效果可能越好。“上海赏樱地图网页”的项目里,我们将上海市各区的赏樱地点、花期等信息整理成表格喂给Manus,生成内容的质量明显提升,任务用时也是4个任务中最短的。可见,信息检索和数据爬取等内容整合工作,是比较费时费力的。

为了更好地说明Manus的工作原理,我们在上海赏樱地图的任务回放基础上,制作了一个解释Manus工作流程的视频。

AI永远“使命必达”,幻觉问题更加凸显

在 Manus 执行任务的各个环节中,我们最关心的是资料和数据收集的准确性及整合能力。在 “模拟投资网页游戏” 中,我们要求 Manus 生成不同历史阶段的投资标的数据。以梳理 2005 年每月黄金价格为例,Manus 的梳理方法是依据新闻报道筛选出核心事件,比如 “2005 年,黄金价格突破 450 美元 / 盎司”,然后结合相关历史数据和统计方法,通过特定算法生成模拟趋势的数据。

通过核查2005年的黄金价格后可知,2005年全球黄金市场的月均价格确实一度超过了450 美元 / 盎司,但Manus提供的每月黄金数据与真实数据均有不同程度的偏差。也就是说,这些数据是 AI 在满足当年突破 450 美元这一点的基础上“填空”出来的。然而,这个生造数据的过程, AI 并不会告诉你。这也就是各家大模型都在努力解决的 AI 幻觉问题,Manus 调用的是现成的大模型,也自然存在着这样的幻觉问题。

图中显示,Manus基于历史数据模拟了数据的趋势。图片来源:澎湃新闻·对齐Lab Manus实测

如果不去细抠任务中的各个环节,不论是网页、PPT还是报告,Manus的工作成果可以用可圈可点来形容。加上Manus允许用户实时观看自己的操作过程,给人一种信赖感。这种产品设计上的技巧,规避了AI的一些能力不足的问题。

这是市面上一些大模型和AI应用的通病,通过营造出一种什么问题都能解决的氛围,来满足市场和用户的期待。尤其是在需求沟通、任务执行和总结汇报上,AI给出的范式总是有模有样。加上擅长“高情商的表达”,给用户提供了很多情绪价值。但仔细去核验的话,幻觉、误用、不准确等问题其实并不少见。毕竟在激烈的竞争中,AI是不会轻易和你说它做不到的。

从实测体验来说,以Manus为代表的AI Agent确实在把完成一件事的门槛越拉越低,但也把做好一件事的标准越拉越高。越是对创意有着高要求,对内容准确性、真实性近乎严苛的领域,流程化的工具就只能陪你半程。更加精准地理解世界、理解人类,将成为决定工作品质与成果的关键,让个人在未来的竞争格局中占据一席之地。

作为一个串联AI大模型的工具,Manus也有很多当下大模型的通病。但在涉及隐私等重要的细节问题上,Manus的很多处理方式还是值得借鉴的。比如,Manus不会使用用户提供的API,哪怕你强制要求它使用;在涉及儿童相关的内容时,即便没有提示词的引导,Manus也会加上一个工作步骤,去验证内容和设计是不是适合儿童观看;Manus会让用户选择是否将项目部署到公网。这些机制和设定,都能体现一款产品对人的尊重和保护。

在每一次等待 Manus 创作的过程中,虽然实际时长远远短于人类自己创作的时长,但期盼的心情总酿成一种度秒如年的感受。

这种感受,就像在电脑刚刚普及的年代,你守在一台老式电脑前,眼巴巴地看着一张图像逐行加载。每一行像素的显现,都勾得人心痒痒。那一刻,就仿佛望向互联网时代的大门。而现如今, AI 虽有各种不完美,但也同样给人一种希望,新技术引领的新时代又再次开启了。

澎湃新闻·对齐Lab Manus实测项目回看:

1、上海赏樱数据可视化项目设计,https://manus.im/share/Pihrl1JUmNZ0moPhoWfyh6?replay=1

2、AI公司产品的交互式可视化网页设计,https://manus.im/share/MoZ9vlZnUVWnuG49BNFqjG?replay=1

3、小王子世界观AI代理网页游戏设计,https://manus.im/share/5ZuJ0R75Clzr7X6iaNLFNb?replay=1

4、什么是AI大模型的通俗讲解SVG卡片,https://manus.im/share/uytfTaasg9O9JpPnJU40jx?replay=1

相关内容

热门资讯

原创 赵... 大家追剧的时候最喜欢看什么呢?小妹儿最喜欢看的就是CP们甜甜蜜蜜的亲亲抱抱,而现如今的内娱,更是把C...
晶澳科技港股递表失效逾两月 超... 《金证研》南方资本中心 望山*DL/作者 西洲 映蔚/风控在证监会出具的境外发行上市备案补充材料要求...
16倍大牛股陷资本迷局,“AI... 本文来源:时代周报 作者:宋逸霆1月16日晚间,天普股份(605255.SH)发布关于对上交所问询函...
美股大型科技股集体上涨 1月16日,美股三大指数集体高开,标普500指数涨0.22%,道指涨0.18%,纳指涨0.44%。 ...
以为海外收入税务局查不到?这个... 2026年初这波针对境外收入的合规自查行动,力度之大、追溯之深,确实让不少人心头一紧。最近关于境外收...
净利300亿!中信证券走出寒冬... 出品|达摩财经首份2025年券商年度业绩快报出炉。1月14日,中信证券(600030.SH)发布业绩...
一年卖出250亿双,浙江小镇,... 你知道这些袜子大多都来自哪里吗?不少人或许会认为是义乌,实际上,国内最大的袜子产业带,是同处浙江的诸...
碳酸锂价格“过山车”!锂电企业... 本文来源:时代周报 作者:周松清尽管碳酸锂期货价格近日出现回调,但今年以来涨幅仍较大。1月16日,碳...
杭萧钢构遭上交所警示 股价连续... 中经记者 方超 石英婧 上海报道在商业航天热度不减背景下,杭萧钢构股份有限公司(600477.SH,...
中欧电动汽车案“软着陆”具有积... 文/对外经济贸易大学中国WTO研究院 屠新泉1月12日,中欧双方分别宣布就欧盟对华电动汽车反补贴案达...