我的学习笔记

土猛的员外

探讨实现AI Agents的三种方式,不同的方式带来不同的客群和场景 |LLM |Agent |RAG

昨天去参加在上海举办的NVIDIA创业者会议,感受了AI创业的热情,还听了Dify CEO张路宇的分享。加上吴恩达在红杉分享会上对AI Agents的推动,带动了国内大量自媒体对AI Agents的狂轰滥炸。所以也想从我自己的角度来分享一些思考。

先贴一下吴恩达分享的四种AI Agents设计模式:

  • 自我反思(Reflection):可以自我修正;
  • 使用工具(Tool Use):链接其他系统去做一些事情,比如把我电脑里面的未归档文件做好归档;
  • 规划(Planning):类似于思维链,分解复杂任务,找到路径;
  • 协作(Multiagent Collaboration):不同类型的助理(agent),可以通过协作组成一个团队或一家公司,嗯,不过目前这一步应该还需要一些时间。

1

本质上AI Agents是一个依赖于大语言模型(LLM)的业务组件,是LLM在企业场景落地中的手段,而且不仅一种手段。我觉得目前由三种主流的AI Agents的采用方式,纯个人观点,不代表任何官方意见。

AI Agents三个流派

生态增强派

代表:钉钉、Coze以及微信(和企业微信,这两天终于开始发力了)等都属于这一派;

优势:他们有多年的客户使用数据,以及传统业务流程(如请假、报销等)的积累,目前出来的workflow更多是基于自身生态,且确实非常稳健实用。Coze现在看起来更多还是在开发者社区,但个人感觉Coze后面应该还要会围绕飞书、头条等一些出口来提升字节整体的生态影响力。拥有最大客户群体的微信,这两天也开始发力了,腾讯小微、小微助手和微信对话开放平台等都陆续上线。

借助这些巨头原来积累的强大家底,用AI进行加成,对创业公司来说是非常可怕的。毕竟是还在筚路蓝缕创业的时候,人家已经奋六世之余烈了,没法比。但企业的AI需求不仅仅是办公啊,后面就看钉钉、Coze等能否会走出自己的体系(如基于钉钉的应用也可以不在钉钉上使用了,基于Coze的应用不侧重在字节的矩阵中),变得更加开放。

本周在一家世界五百强企业,和他们的几个总监也聊了这个问题。因为是国企,所以他们的办公基于钉钉,交谈了两个多小时,可以分享几个观点:

  • 因为几乎所有工作交流和大部分文件传输都在钉钉上,所以日常聊天内容和文件网盘都在钉钉上,知识无需搬迁,使用效率极高,使用体验很好;
  • 在请假、招聘、会议等重复性很高的办公流程上,钉钉的助理(实际就是Agent)非常好用,因为这就是对钉钉原有业务的增强,有点三步合成一步的感觉;另外他们也给了另外一个观点:目前钉钉给出来的功能更多是聚焦在办公室业务上,还无法深入企业的核心业务
  • 作为一家企业,如果要对外服务,不能要求他们的所有客户都用钉钉,也不希望把所有数据都放在钉钉上。他们更希望在本地有一个融汇的数据库,所以钉钉要成为企业统一base也有点难
  • 目前看来,他们的体验中,最好的是钉钉,其次是Coze,Dify对他们来说有点难度。

image-20240426102703514

流程工具派

代表:Dify、Coze等

优势:开源的精神,活跃的社区。

其实Coze也有自己的workflow工具,也属于这个流派,只是我觉得更纯粹、更有代表性的应该是Dify。使用无代码和画板让用户自建由Agent组成的workflow,热度很高,各种社区上被开发者热捧,在一定程度上在LLM企业应用上往前走了一步。

昨天(4.25)下午在Dify CEO张路宇的分享中,Dify还是有自己的坚持的。比如:

  • 他们的试用系统默认只支持Github和Google账号登录使用,换句话说他们的用户至少应该是个产研人员;
  • 客户选择上,暂时不会选择无研发能力的公司(IT基础太弱,知识积累不成体系,造成应用场景很窄)和大型科技公司(自己会造);
  • RAG会长期存在,且会越来越偏向数据工作。

image-20240426101101180

但在回杭州的路上一直在思考他们和大厂的区别,也想到了我们自己和他们的区别,所以冒昧想出了三派的划分。在思考过程中, 觉得工具派可能还存在三个问题需要回答:

  1. 站位问题:你面对万千客户的需求,可以用无/低代码的workflow工具让中间缓冲带的众多产品经历或研发人员编辑workflow,我相信达到60分的效果是容易的,但是达到90分是非常难的。但对于单个具体客户来说,他只关注自己的1-3个业务是否可达90分。所以问题是通过无/低代码开发AI Agents和workflow是否可以普遍达到90分?
  2. 客群的业务能力:流程工具长期面向的第一线用户应该是程序员、产品经理等。本人也是典型的产研出身,近五年所带的团队比较综合,包括销售、解决方案、产品经理、研发和运营,就我自己的经验来看,产研人员其实不太能真正理解企业需求,或者不够全面。原因也很简单,大多数产研人员都是“武痴”,更关心技术(武功),而真正具有不错业务视角和思维的产研人员,往往会主动或被动地走到市场侧(离客户和钱更近)。企业需求分析和POC其实更多考验的还是业务能力,所以产研人员驱动的流程工具需求迭代是否真的能深入业务本质,我是持怀疑态度的(我已经被准备好被喷了);
  3. 关于无/低代码问题:AI Agents更擅长的业务领域在哪里?是琐碎的办公场景,还是创新业务?如果是前者,那就很糟糕——巨头的竞争态度是什么:如果你在我的优势存量市场中刨食,我肯定会努力灭了你。如果是在我的外延市场,或者非优势地位的新赛道,我们可以考虑合作。所以如果基于AI Agents的场景是做办公,那会有点难,钉钉、飞书和企微都在奋力争地盘,生态确实是一道恐怖的墙。那么选择后者,使用无代码/低代码开发的AI Agents和workflow是否能在创新业务上入木三分。至少在我的认知里面,哪怕是在LLM流行之前,无代码/低代码也往往只在MVP或“广度优先”的项目中被更多采用,现在又加了一个有幻觉的GenAI,是否真的能胜任?

当然,Dify收到广大开发者的喜欢,在Github热度不减,也算是走出了自己的风格。在企业服务领域,作为一个后来者,如果避开大厂角斗的OA场景,选择与广大开发者共舞应该是一种明智的选择。

产品共创派

代表:TorchV(暂时把我们自己放上去吧,哈)

优势:专业化场景,但受众可能也会更小。

这是我“平地抠饼”定义的一个派别,也是我们自己对TorchV的定位,把目标定在与企业客户共创上。主赛道不在通用办公领域,也不做开源工具,我相信也有不少和我们在同一派别的公司存在。相对大厂深厚的家底和Dify的时髦,我们会说自己是小而美,哈哈,但也是一种值得尝试的方式。

我们与第一个客户的合作就是这种共创方式,也许这也对后面的方向决策造成很大影响。然后我们后面还有两个客户也是一样的模式,这几个客户的特点是在业务上都有较大创新,都不是做降本增效的事情,而是做新开的创收业务。和他们的共创,我们会比直接卖产品多一道POC的环节,而且会有轻微定制,但好处是除了第一次收入外,后面他们把产品卖给他们的客户时,我们是有分成的。

这些行业创新包括工业生产的某些专业场景、金融的研报生成和分析、零售、医美与装修设计、合规与审批等等。

目前基础产品(下图的PaaS)的试用客户(企业)已经超过200家,接近60家是有深度交流的,包括试用、频繁沟通以及视频会议,所以有些已经进入了(下图的Products)环节。除了已经与一家世界五百强企业签了合同,我们还和近10家企业客户(他们应该都能看到这篇文章,哈)开始了POC,其中包括两家央企,一家知名跨国公司,还有一家国内知名消费品品牌。最大的收获是非常近距离接触他们的需求,双方频繁交流,会迸发出一些非常落地的需求场景,所谓新技术+旧需求(原来解决不了的问题)就能出来一个新场景创新。

我认为这种方式会更能落地,虽然没那么时髦,但符合我公众号的名称(土猛的员外)的风格,主打一个土猛,哈。

image-20240426083638928

上面就是我们现在的产品架构图,当然后面其实还有第三栏,就是应用(Applications),直接展示应用会暴露一些业务信息,所以这里就不展示了,我们和其中有些POC客户是签了NDA的。

Dify CEO张路宇在分享的时候说到RAG会长期存在且越来越偏向数据工程,这一点我是非常认同的,腰好才是真的好。所以在4月初的新架构规划里面,我们增加了DataOS,可以帮助企业客户融合他们的数据,包括非结构化数据和结构化数据的管理与使用,包括数据ETL的自动化等,说起来数据工程也是我们核心团队在2019年底切入AI之前一直在做的事情。

另外,RAG其实要做好也很难。不说别的,本来昨天晚上我是准备认认真真给大家写昨天的nvidia会议的一些启发的,但是一家大型车企发现了一个非常“鬼魅”的bug,昨晚的时间基本上都花在这个bug上了,搞得您看到的这篇文章只能简单收场了。关于这个bug,从客户侧来看是非常合理的一个使用,我们自己测试也复现了,确实是有这个问题。更奇怪的是在dify、fastgpt和ragflow上测试也都失败了,但在几个国产LLM上却基本是正常的。我们仔细看了之后发现这个问题不简单,应该算是目前的RAG架构设计中一个典型的检索问题。我和菜刀也认为自己还存在知识盲点,目前已经定位到问题,这两天想办法解决掉,下次找时间再给大家做分享。

预告:五一节回来后,我们会发布一个测试集(问题集+文件资料),是根据我们近几个月在企业应用中收集的真实需求,从文件解析、检索能力、多跳等6个方面进行评测,对于提高RAG企业应用的能力应该有一定的参考性。

总结

AI Agents是企业应用LLM的一个环节,AI Agents的实现可以是通过对原有业务的AI增强来实现,也可以是给广大开发者做铲子的工具形式实现,或者是更加贴近企业业务去共创实现。市场足够大,不管是什么模式或派别都有自己的机会,而且应该还会有其他更多形式存在。


如果您对TorchV的产品感兴趣,也可以直接联系我,对于PaaS这一部分,我们是可以提供试用账号的:

img


TorchV AI支持试用!

如您有大模型应用方面的企业需求,欢迎咨询!