Deep Research技术实现10倍搜索效率,昆仑万维如何破解Agent“幻觉”难题? ...

来自: 凤凰网 收藏 邀请

摘要:

“很多用户甚至不知道他到底想要什么,怎么去写一个准确的prompt?”

凤凰网科技 出品

作者|董雨晴

距离ChatGPT发布已经有两年多了,公众对大模型能力的感知变得更强了吗?答案恐怕是否定的。甚至,仍有非常大比例的人,压根没有享受到大模型的红利。

是模型的能力不够强吗?答案依旧是否定的,近期包括阿里云创始人王坚在内的多位行业资深大佬都对凤凰网科技表示,基座模型的能力正迎来史上最强时期。

一个最根本的原因是,行业尚未打通大模型到普通人应用的“最后一公里”。但业内很早也意识到了这个问题,并致力于通过Agent,通俗的说就是智能体来解决这一问题。

2025年,Agent迎来史上最大规模的发布与亮相。如主打通用能力的Manus,成为DeepSeek之后第二个刷屏的现象级发布,近期刚刚走红的设计领域的垂类Agent Lovart同样在业内掀起讨论。

5月22日,昆仑万维发布天工超级智能体(Skywork Super Agents),聚焦于生产力场景。这款产品采用了AI Agent架构和deep research技术,能够一站式生成文档、PPT、表格(excel)、网页、播客和音视频多模态内容。目前,其在GAIA榜单上排名全球第一,超过了OpenAI Deep Research和Manus。

受此次发布影响,当日午后昆仑万维涨停,单日成交额达53.81亿元。昆仑万维随后不得不发布天工智能体限流通知:“5月 22 日上午,昆仑万维天工超级智能体(Skywork Super Agents)上线后,由于用户使用量过大,导致卡塞,我们会采取限流措施,请大家理解,感谢支持。”

在本次发布前夕,凤凰网科技和昆仑万维董事长兼CEO方汉进行了一次交流,在其看来,当前Agent的普遍问题是能力上限低,使得很多Agent很难被真正用起来。

此外,方汉并不认可通用Agent的定位,其认为通用恰恰代表了在一些领域并不专精,也就很难给用户交付好的结果。

到底什么才是用户真正需要的Agent?“我们掉回头看OpenAI原来出过的一篇论文,给大家分析每个行业受 AI的影响有多大。我们观察到当一个行业的工作完全在电脑上完成的时候,它受的冲击是最大的”。方汉对凤凰网科技表示。

早在上世纪90年代,方汉曾经做过office的专业培训工作,他发现,绝大多数人并不知道怎么用好office,而天工超级智能体正是想帮助这部分人。

相较于此前的Agent产品,这一次天工超级智能体在产品流程的设计上也有一些小巧思――如改变了传统工作流无法被接管的窘迫,让其随时可以被打断,甚至碰到特殊的节点,会主动停下询问用户意见。

与此同时,其倾向于让用户做选择题,而不是填空题,会提前预设好各种答案。“很多用户甚至不知道他到底想要什么,怎么去写一个准确的prompt?”。

时至今天,对于多数公司仍在追求的AGI答案,方汉给出了肯定的回答,所有公司都会去追寻AI能力的上限,但不一样的是,昆仑万维在产品落地上走得更靠前。

“算法模型的迭代其实是存在错位的,其实现在大模型已经能干很多事了,但是普通人里很多人仍没有享受到便利”。方汉对凤凰网科技表示,他不否认OpenAI真的很强,但其真的给行业带来多大程度上的改变了吗?他认为答案是否定的。

以下是凤凰网科技《浪潮》和方汉的对话,经编辑发布:

“谈Agent产品价值:通用不代表好用,要知道人们到底需要什么”

凤凰网科技:今年是Agent大年,昆仑万维这次发布天工超级智能体怎么去和市面上已经有的产品做竞争?

方汉:最近刚出了一个 Agent叫 Lovart,专门用来做视频图像编辑方面的,中国有一句古话叫样样通,样样松,其实通用Agent固然覆盖的面是比较广的,但它很难在单一领域取得特别好的效果,因为要做通用,就不可能在单一领域深耕,我们其实在做 Agent产品定位的时候,是做了一些预判和研究的。

市面上的生产力加Agent无非几种。第一种,聚焦于Agent的自动规划和任务拆解,但是细分的生产力过程没有经过仔细的优化,这就是所谓的通用Agent。第二种是聚焦在内容层面提升,但是对于输出物的格式有限制,只能输出文档,不能输出日常工作中需要的PPT、 Excel、Deep Research这样的产品。最后一种是聚焦于某一个垂域的生成,但它在内容层面做的又会少一些,只关注于最终输出的模板和结果。比如像Llama Agentic这些,每个用户的需求其实都是垂域的,而不是广域的。需要你手把手的直接给他出最后的结果,而不是给一个中间过程。我们很多人用聊天的 bot,做完之后再手工一行行的拷贝到 office里去。我们重点还是最关注在办公学习领域最高频的文档演示数据工作表的撰写和 HMI的网页制作方面。

并且我们为了解决内容上的可靠性问题,前面也说过大模型都有幻觉,而且大模型对于最新的知识的更新是不及时的。我们就把 deep research技术集成进来,目标是提升内容的全面性、深入性和可靠性,并且让我们生成的最终成品的质量远高于通用 Agent和垂类产品,这是我们的一个目的。

凤凰网科技:有注意到我们强调deep research的能力,里面提到可以达到manus 10倍的搜索结果,具体要怎么实现?

方汉:我们公司其实是有比较强的搜索引擎的技术积累,因为我们在海外有一个叫 Opera的产品,它是非洲大陆最受欢迎的新闻客户端,底层就是每天对几十万个新闻站点的持续爬取跟索引,也就是说我们在搜索引擎的技术积累上是非常强的。第二对于大模型来说,因为我们现在产品不是人去调用搜索引擎,而是大模型去调搜索引擎,做research,做研究。

那么其实首先我们要模仿人类去一步一步地做research,但是人做 research是创新的一个过程,其实对于机器来说,它就完全可以实现多线程的去搜索,我们的模型在利用搜索引擎方面其实要比人类或者是其他一些 Deep research效率更高。

最后我觉得像manus这种基于现成的大模型做的 Agent工具,我们自研的research模型,在非常小的size上,做端到端的强化训练,推理速度是远超过通用模型去调搜索引擎的,而且成本也会非常低,所以说我们能够在非常短的时间内实现高于其他竞品 10倍以上信息量的搜索结果。

凤凰网科技:所以Agent也要比拼模型能力。

方汉 :我觉得是不光要有模型能力,还要有工程能力,而且都得有积累,你才能取得比较好的效果,打个比方,也就是说你既要博士毕业,还要在行业里面深耕到十几年,你才能有好的工作成果出来。

凤凰网科技:我们这次发新产品的同时,还发了 deep research Agent开源的架构,是早就想好了走开源路线吗?

方汉:开源是能够吸引全球的开发者协助你去改进产品,形成技术迭代的正向循环。而且我们也知道,就算是在特别垂类的办公领域,用户仍然有大量的长尾需求,是我们目前还没有满足的。我觉得是开源是一个非常好的用户长尾需求收集器。第二我们的产品本身是面向办公用户,其实他们在技术上可能是相对比较小白的,所以说真正的目标客户其实还是会以使用我们的商业服务为主。当然了我们开源之后,我觉得也让大家能够认识到我们的技术实力,对于我们获取销售线索也是比较有帮助的。整体来说,我们对于开源生态在海外的商业落地既比较熟悉,也比较有信心,所以说才一开始就做开源这件事儿,这是我们同其他的企业可能有差别的地方。

凤凰网科技:我发现这次产品定价也很有竞争力,其实 manus之前一直有比较核心的问题,就是很贵,我们是怎么解决价格问题的。

方汉:对于套壳类的产品,依赖于多个大模型的接口,这些接口的价格,除非你是大客户,不然是拿不到比较好的价格的。就算你能拿到比较好的价格,对于内部的成本来说,仍然是要有利润的,这是我觉得定价上套壳类的一个大问题,对于我们来说,我们连搜索 deep research的底层模型都是自研的模型,是能够控制成本的。另外deep research如果依赖于 Web的搜索引擎,那其实是要付更多的价格的,因为搜索引擎也是一种服务,也就是说简而言之要定价上有竞争力,还是要全链条的自研和优化。

凤凰网科技:对于企业来说,现在是预训练阶段成本比较高,还是推理阶段更长期的使用成本更高?

方汉:训练是一次性的,但实际上用户在长期使用中,你的商业模型其实是依赖于你的推理,推理必须是成本非常低的,这样才能长期有竞争力,推理是每天用的,是整个商业定价模型中间的一个关键部分。

凤凰网科技:其实今年所有大模型公司都在卷Agent,但似乎这些Agent又没有真的被用起来,为什么会有这种错位?

方汉:Agent现在的问题是上限比较低,大部分基于工作流跟商业大模型 API的是有上限的,在垂类领域里面能干的活可能还不到六七十分;第二,目前 Agent其实有一些实用性上的问题。其实用户不太能够精细地表达他要什么,这更不要说写一个特别好的prompt。但是 Agent的任务复杂度其实是比传统大模型的请求要高很多的。这样导致了最终出来的结果使用价值不足。我们能看到 Agent的工作过程,但在工作过程中你只能干看着,你是没有办法去干预和影响的。

对于用户来说,感受和最终结果也是不太好的。我们一直在这些方面去想办法解决问题,我们天工智能体为了解决用户提示时写的比较简单的问题,做了一个澄清卡片的功能。会自动分析用户请求背后的潜在意图,然后做一个选择性的表达,让用户只要去做选择题就可以,而不是让用户做填空题。为了解决干预,做了一个自动接管的逻辑,我们认为用户需要去接管的地方,会停下来让用户去确认。比如说在 PPT大纲环节,就让用户反复地来确认,直到确认完了,再往下走,这样的话我觉得保证每一步走的都是用户的需求。

最后一个难点其实是在知识库,知识库的集成功能对于用户来说也是非常重要的。我们所有人在平时积累自己的知识库的时候,做一堆目录,每个目录放一堆文档,我们其实把用户行为给固化到产品里去,用户每天写阅读总结,每个月都上传一部分文档,说到写月度总结的时候,我们会从你上传的所有业务文档里面抽出来东西写,而不用去构造复杂的提示词。比如说我们提供了一个知识库加 Agent的框架,自动将用户上传的所有知识分门别类提供给用户,是一个定制化的知识库,我觉得这一点还是非常重要的。

凤凰网科技:行业对Agent发展方向上应该是模型能力优先还是工作流优化都没有达成一致,您怎么看待这种分歧?

方汉:说实话肯定是模型的基础能力更重要,因为很简单,在整个大模型的发展过程中,历史上做过很多种工作流优化,其实所有工作流优化的目的是为了补模型的短板,但是一旦模型自己把短板补上之后,工作流就很尴尬了,而且模型能力提升10%,可能对于整个业务的最后结果提升往往是超过这个数字的。其实这二者也不矛盾,因为最终用户看到的能力是模型能力加上工作流优化能力,我们在某些垂类场景下,肯定是要把两样都做好,才能给用户一个很好的结果。

凤凰网科技:昆仑万维这次首发是一开始就明确要聚焦于生产力这块?

方汉:不是我们想聚焦于,而是对于用户来说,看看用户真正会为什么去付钱, B端用户的数量少,但是他付费意愿是超过 C端用户的,是一个很正常的商业逻辑,那对于商业用户来说,他会为什么付钱?我觉得就两句话,降本或者是增效。

我们掉回头看过OpenAI,原来出过的一篇论文,给大家分析每个行业受 AI的影响有多大。我们观察到当一个行业的工作完全在电脑上完成的时候,它受的冲击是最大的。那这些 B端用户在电脑上是用什么工具去完成工作?我觉得绝大多数人还是用 office,所以说office领域,是一个最重要也是最常见的生产力场景,之前大家都去做编码、编程,解数学题,问题是那些东西大模型是能做得好。其实大模型一直在 office领域做得不是特别好,那么这时候我们去做垂直场景,我觉得能够适应生产力场景里面最常见的一个场景。

而且由于我们原来做天工搜索和天工 APP的时候,在办公场景其实已经积累了很多工作,比如说我们做的 AI PPT可能是当时国内做得最好的,用 AI来生成 PPT的产品,所以我们就持续在这方面去迭代、去优化,最终我觉得我们的目的就是让商业用户在 office上能够体验到大模型的和 Agent的威力,能够帮助他在日常工作中增效。

凤凰网科技:未来如果 Agent真的成熟的话,那对 office岂不是一种降维打击?相当于作为一个软件它可能会失去自主权。

方汉:你指的是office软件还是用户,这是两件事。你觉得 office软件的作用会下降,是吗?

凤凰网科技:对,我是这种感觉,因为现在手机端的一些Agent还没有解决完这个问题,就是说是由 Agent说了算,还是由软件供应商说了算。

方汉 :咱们在社交媒体上会大量地看到 office使用技巧,什么 office三日通、 office傻瓜书,我们办公室里面,往往只有一两个同学,用 office用的特别好,会做特别漂亮的PPT,这些用户往往只占我们整个办公室人员的5%、10%,这些用户你要说让大模型替代他们,其实还是有难度。

但是百分之八十的人,用 word只会写标题、写小结,用 Excel从来不用宏,对不对?只会算数,这是绝大多数用户的一个使用行为。而垂直行业的Agent其实面对的是这 80%的用户,让这 80%的用户可以不用使用 office软件就能干出很漂亮的工作,我觉得是我们的一个价值所在,对于剩下百分之十的资深用户,他可能还是要依赖于已经发展了三十几年的 office生态来完成剩下的 5%到10%的高精尖需求,但是我认为我们跟 office应该来说不是一个相互敌对的关系,而是一个相互补充的关系。

凤凰网科技:激发一部分原来在 office生态里面发挥的并不好的人。

方汉:我年轻的时候,大约是 95年、 96年给 office培训班做讲师,我对普通用户的需求还是比较熟的,普通用户真的很多功能不会用。

“谈实现AGI的路线:昆仑万维会在产品和商业化上走的更远”

凤凰网科技:昆仑万维Q1的财报显示海外营收表现很不错,那么对于这次天工超级智能体的发布,内部对它的商业化预期是什么样的?

方汉:我对商业空间还是比较看好的,因为不管是音乐还是短剧制作平台,其实相对来说面对的是比较垂直的行业, MCN行业和音乐创作行业,市场规模其实是没有那么大的,但是 office不一样。office可能是人类使用最广泛的一个 B端软件,我们首先会延续订阅模式,海外订阅模式其实是一个更常见的,也是更受用户接受的这样一个模式。我觉得我对它的商业化前景其实是更看好的,当然了行业竞争也会更激烈。

凤凰网科技:现在大模型公司还在持续探索AI能力上限的好像比之前要少了,昆仑万维还会往里面冲吗?

方汉:大模型能力上限,我觉得所有人都会去追求。我们在奖励模型评估基准 RewardBench排行榜全球第一的位置占了很久,在技术大模型训练中间是非常重要的一个组件。同时我们也发布了在 7B跟 32B生态位上的数学跟代码维度的深度推理开源模型,所以我们在基础模型上仍然是在不断地去迭代和更新的。

我觉得这一点大家的出发点跟路径都一样。但不同的是我们其实是在 AI产品落地上面做得比较早的一家公司,产生收入也比较早,我们其实很早就意识到用户的需求。算法模型的迭代其实是存在错位的,其实现在大模型已经能干很多事了,但是普通人里很多人仍没有享受到便利。这是从大模型到产品落地之间打通的路径并不多,我们就致力于既要发展大模型,也要打通大模型到落地中间的门槛。那我觉得这一点才是能够给用户真正快速创造价值的一个路径,这也是我们公司长期以来坚持的一个方向。

凤凰网科技:所以你们会走2C的路线。

方汉:我们是 To C也To B,我们的短剧是 To C,但我们的音乐Mureka和这次的 Skywork Super Agents其实都是 To B的。

凤凰网科技:你觉得这两种商业模式哪种会更好一些?

方汉:商业模式没有好或者坏,因为中国所有的上市公司里有 To C,有 To B的,但是你会发现中国的互联网巨头无一例外全是 To C的,除了华为。但华为不能说互联网巨头了。但BAT、字节、美团滴滴,几乎都是To C,因为 To C很简单, To C的用户是全球80亿人。To B可能是几千万的企业,用户的数量上就有这样的差距,而且老生常谈,C端用户特别不愿意付钱,所以我们 C端才做出基于免费模式下的游戏。

互联网是广告模式、电商模式,这种模式就是从用户口袋里去掏钱,但是 B端就不一样了, B端用户都要掏钱的。没听说 B端上搞免费模式的,我觉得对 B端跟C端,不是互相矛盾,至于我们更看好什么,其实跟我们的技术路径有关系,我们有些技术路径只能走B端,比如音乐,我们找用户听一首歌收三分钱,你觉得可能吗?不可能。我只能对那些做曲子的,给影视、给游戏配乐的人收费,做一首曲子,本来要 10万块钱,现在我只收你 10块钱,这是 B端的商业逻辑。

还有一种逻辑,通过 AIGC降低所有 B端用户,给C端用户创造内容的成本和门槛,最终就导致了给 C端用户提供大量的第一年免费的、质量高的娱乐内容,同时C端还有一些需求,我认为也是大模型可以满足的,比如说陪伴这种,是典型的 C端需求。我们的Agent虽然是C端在用,但落地还是在B端。

凤凰网科技:所以您怎么看待实现AGI的路径问题。

方汉:我们的看法,可能是定义上的问题,我认为 AGI就是实现通用人工智能,这基本上是以文本大模型和多模态大模型为主,但是多模态大模型它又分成识别和理解,就是对世界的识别和理解,这一块是算 AGI的,但我觉得 AIGC是另外一块儿。

AIGC就是通过 AI去生成图像、视频、音乐,其实它并不需要太多的理解,更多的是去模拟人类去生成,这个领域我认为它的进展速度和落地化的程度其实是超过AGI。

现在没有谁敢拍胸脯说你比 AI生成的图片更好,当然我也承认生成视频现在效果不好,但是我认为生成视频的迭代速度是非常快的,通用人工智能什么时候到?我不知道,但我知道的是 AI生成视频在 3至5年之后,一定能够把《哪吒》和《流浪地球》这样的投入几亿的电影的成本从几亿人民币降到几万人民币,我认为是非常可能的。

凤凰网科技:之前有人会猜测OpenAI是不是理解生成一体化了。

方汉:它就是把交互式编辑集成到生成模型里去了,但是有一个问题,这种交互式的工作流是不适合在生产环境里使用的。我不知道您理解没理解,举个非常简单的例子,家里使用的智能音箱,很方便,是交互式的,你见过哪一个工人在工厂里说小度、小度,你帮我把元件搬过来,在工厂上全是自动化的那种控制流,所以说交互式的这种编辑,包括OpenAI出了新的编辑功能,我觉得对于普通人来说很好用,但是对于我们在生产线上,对于在游戏行业、影视行业、编辑行业,大家还是在使用确定性的工作流,所以说我并不认为 OpenAI在这方面领先,它其实连企业级的工作流都打不进去。它的模型这种交互式编辑能力的确提高了,但是它在多模态榜单上仍然没有绝对的领先优势。我们不可否认OpenAI很强,但是它在图像编辑这块的改进,对于整个业界的冲击没有那么大,领先程度也没有那么高。很多国产模型也实现了,其实没有那么难。

(责任编辑:刘静 HZ010)

【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com


鲜花

握手

雷人

路过

鸡蛋
相关推荐
热门排行

在线客服(服务时间 9:00~18:00)

在线QQ客服
公司地址:贵州省贵阳市观山湖区长岭街道长岭路与观山路西北角中天会展城TA-1、TA-2栋(2)16层14号
电子邮箱:599599113@qq.com
客服电话:13765656037

Powered by 贵州阡乐科技有限公司 © 2025 qianlew.com Inc.( 黔ICP备2025043673号-1 )