我的学习笔记

土猛的员外

AI原生应用的思考——CUI、电动机窘境和2024发展猜想

开始

AI领域最近的风声:2024是RAG爆发年。

对于这些信息,我的理解是这样的:

LLMs属于Infra,属于大厂和已经被资本投资的“AI大厂”们玩的,2023年大部分的投资也都是大额的,聚焦在LLMs这一领域。但是LLMs要找到健康的商业模式,必须与更丰富的业务场景结合起来,就需要大量基于LLMs的应用去拓展市场,不论是toC还是toB。所以到了Q4,有些资本已经在讨论2024年的投资要更加分散,更关注AI原生应用。作为基于LLMs应用支撑技术的RAG,也就必然会被特别关注,我想这就是所谓的2024是RAG爆发年的道理了。

但是今天我不是来讨论RAG的,虽然公众号“土猛的员外”是有很明显的RAG标签的,我今天更想讨论的是AI原生应用(AI-Native App)这个话题:

  • 什么是AI原生应用?
  • AI原生应用有什么不同之处?
  • AI原生应用的猜想

什么是AI原生应用?

ainative

图1:什么是AI原生应用?图片来源:bohdankit.com

当电动机出现时

在讲什么是AI原生应用之前,我们可以先来看看电动机在最开始时候的应用。

大家都知道蒸汽机兴起于工业革命,确实有效解决了生产力的问题。蒸汽机的工作方式是将生物能(木材、煤炭)转化为热能(巨大的锅炉,高温让水变成蒸汽),再将热能转化为动能(气缸与活塞)。蒸汽机的动能输出靠的是一根强大的传动轴,带动一个个装置做功。于是,工厂里的机器就运转起来了,蒸汽火车跑起来了。

chuandongzhou

图2:蒸汽火车的车头就是靠着传动轴带动车轮跑起来的

再后来,电力开始兴起,除了照明,它一开始最大的应用场景就是替换蒸汽机。

人们发觉,电动机好像还不如蒸汽机那么刚健有力。现在我们知道,那是因为电动机没有被用在正确的使用场景,它只是被当做蒸汽机的替代品。那么电动机的正确使用场景是什么呢?你只需想象洗完澡之后拿在手上的吹风机就明白了,电动机可以将体积做到非常微小,可以被用在anywhere,这是电动机的技术特点。如果在蒸汽机时代,我们没有这么便于携带的动力。

image-20240109111131131

图3:电动机不需要和蒸汽机去拼动力,更轻便的动力带动了全新的场景革命,进入千家万户的吹风机就不是蒸汽机的用武之地

回到AI原生应用,我们现在使用的所有称之为AI原生的应用,真的是Native吗?我们是不是还处在拿电动机来替代蒸汽机去带动传动轴的阶段呢?

AI原生应用的基础条件

为了继续讲什么是AI原生应用,我先说说我们自己的一个应用,拿它举例吧。

我的TorchV成立有一个多月了,在基于RAG的应用方面也有了一个Bot产品(对话机器人产品),1月15日会发布一个新的大版本。我们基于这个Bot,和其他的应用相结合,产生新的应用。比如和名片应用结合,产生了“产业招商数字名片”应用,销售人员给出的名片里面还带了一个7x24的数字分身,可以接受各种咨询。

aicard
图4:产业招商数字名片的效果

但是这样的应用,个人认为还是一种“**+AI”的应用,是在名片的基础上加了一个AI数字分身,本质上它还是一张名片。+AI**的应用,它的问题是AI只是一个添头或者噱头,+AI之后,可能应用会更好,也有可能会更差(后面我会讲到一个语言电话呼入的案例)。为什么会这样,因为这些应用本来就不是因为AI产生的。

我们可以对比移动互联网的发展来看看什么是“移动互联网”原生应用。比如Uber、滴滴,这种随时随地约车的应用,在PC时代是不太可能出现的,这需要司机和乘客都有随身的联网智能终端才能发生。随身携带、联网、智能终端,这就是新的技术带来的特性,新技术特性激发了新需求(或者是需求升级),这才是原生应用产生的基础条件。

如果从这个基础条件来讲,似乎Copilot、Midjourney等可以算是AI原生应用,当然Bot也算是AI原生应用。所以对于什么是AI原生应用这个问题,只能说:因AI才产生的应用,也就是AI+的应用,而不是+AI的应用,才算是AI原生应用

AI原生应用的不同之处

这一波LLMs掀起的AI浪潮,有两方面是变化是非常明显的,一是真正带来了生产力提升,如写文案、阅读、归纳、编码辅助等方面,大家都应该切切实实感受到了,后面的惊喜应该会越来越多。另外一个巨大的变化是交互方式的改变,就是语音交互,或者说是自然语言的命令式交互慢慢成为一种新主流。我们把以前基于丰富图形界面的交互称之为GUI交互,而把通过自然语言的交互成为CUI。

如果大家对GUI和CUI的区别还不太清楚,那么我们来具体看看这两种不同交互方式的场景。

GUI场景

GUI,Graphical User Interface,图形用户界面。

GUI是由一系列图形(或者专业术语叫页面组件)组成的,也是目前最常见的交互方式(要感谢施乐公司、感谢乔布斯等人)。GUI的设计一般都带了业务流程,我用下面这张TorchV Bot的参数配置界面图来讲解一下GUI的场景。

参数配置
图3:TorchV Bot的RAG参数配置GUI,可根据不同用户场景的需求进行调整。

上图中,红色的图示已经说明了这些GUI的意义,我在这里就不再复述。但是,理解它的意义非常重要。最上面的问答库(alpha、qms)是传统NLP问答对的配置,我们暂时先不去管。下面先来看看知识库的alpha、kms和回复方式,这里指的其实就是RAG的参数配置。

假设这样一个场景,对于一个医保报销的AI咨询服务,它的要求是非常严格的。客户把当下生效的各类医保政策文件(包括总纲和各类细项条例)都上传到TorchV Bot系统,系统在几分钟内就可以通过移动端、PC端以及大屏数字人端面向医保参保人服务了。但是LLMs有幻觉这件事情大家是知道的,而这时候有参保人问了一个所有医保政策文件都不涉及的内容(如上图所示,所有检索召回的chunks的score都低于0.66),如“在三级医院,一年内第三次进行医保报销,起付线是多少钱?”。那么按默认配置,已有文档的知识应该是不能很好地回答这个问题的,所以系统有很大的概率会直接让LLMs回答一个“自以为是”的答案,极大可能会给参保人错误的指引,甚至导致问题最终上升到医患矛盾。

在这种情况下,我们需要修改以上配置,将知识库kms的值提高一点(比如0.78,这样做的意义是更尊重事实依据),再将回复方式选择为自定义回复,回复内容改为“**根据已知的医保政策文件,我们无法回答您的问题…**”。

而在很多不需要那么严谨的场景下,比如在游客中心等待区的形态可爱的机器人,它是可以将知识库kms放的稍微低一些,更大程度地依赖景区给的资料来回答游客。在已有文档知识无法回答的时候,就直接放开给LLMs来进行开放式的兜底回答。因为在游客中心,我们保证购票、指引等常见问题和标准问题之外,对于游客们打趣的问题可以没这么严谨,为了趣味性我们可以放开一些限制关系不大。

好了,针对以上不同的应用场景,我们可以通过以上GUI做出不同方向的设置调整,这就是GUI的优势,它是可以表示业务流程的。

CUI场景

CUI,Command User Interface,命令式的用户交互,说的通俗一点就是自然语言交互。

我们再来看看CUI,遇到这样的场景应该怎么办。我们当然是可以使用自然语言来调整这个参数界面的,比如“把知识库kms设置为0.77”,“选择自定义回复,回复内容为‘对不起,我回答不了’”等等。

这时候我突然想到了电话场景的呼入机器人,我想大家可能也听到过,电话里面会说一大堆话,比如“如果您需要查询账户余额,请说查询余额;如果您想充值,请说充值….”,在用不太标jun的普通话说了几遍之后,我无比怀念以前电话里面说的“...请按1,…请按2”,如果CUI没有发挥自己的优势,那还不如用GUI更加方便有效,是的,这就是CUI目前被诟病的一个使用场景——像GUI一样去使用CUI。

我们认为自己用了语音指令让机器理解我们的意图,然后去做事情,就是AI的应用场景了,但是,这套操作完完全全是基于GUI场景下开发的这套交互流程,只是在最后用嘴(声音、ASR、NLP)代替了手指而已

GUI
图4:目前大多数的CUI都只是在终端层替代了GUI,但是整体的运作方式依然是GUI方式的

这像不像用电动机直接来替代蒸汽机的场景啊,我们现在就陷入了“电动机窘境”(好吧,我新造的名词)中了。

AI原生应用猜想

那么CUI应该怎么发展,才能适得其所,才能不陷入“电动机窘境”呢?对于这个问题我只能做猜想了,而且错误的可能性也是很大的…其实这也是从一个侧面去猜想AI原生应用应该有什么独特的创新交互方式。

一,CUI应该是最直接的交互。

现在的GUI方式的软件,在交付过程中一般都会有培训,开发者要教会用户使用。这个培训的过程,其实就是在做交互内容的“转译”,虽然没有写代码那么明显。而最直接的交互方式是把用户心里的目标直接给到系统,让系统能完美理解并执行,而不需要任何其他介质或编码系统来做“转译”。所以,CUI要突破的第一件事就是超级理解能力

二,CUI应该有强化学习能力。

在第一点里面我们说了要把用户心里的目标直接给系统,那么理解这个目标之后,AI原生应用应该有自己的深度强化学习能力。让AI能自主按给定目标和之前返回的结果(环境变化)来优化,并且使用奖励机制让AI应用一步步朝着用户目标前进,直达最终的结果。这样做的好处就是减少交互的复杂度,把复杂留给系统,把简单留给用户。设想一下用自然语言来控制一辆汽车:“左转”、“左转”,“直行”,“保持直行”,那是不是很别扭。更正确的方式应该是带我去XXX,然后就全程交给AI了。所以CUI要突破的第二件事就是必须有深度强化学习做支撑

CUI
图6:CUI的支撑层不再是预编码的业务代码,而是一个智能体,也就是Agent

好了,对于AI原生应用的猜想就先写到这里吧。几年之后再回头看,也许会感觉现在的猜想很搞笑,但是那又怎么样呢!现在我们身处浪潮中,就必须“敢想”,作为小创业公司,TorchV还一直在实践。


Update: 2024-01-26

我们的TorchV Bot产品目前已经开始试用了,详情可以点击:https://www.luxiangdong.com/2024/01/25/lanuch-1
目前只接受企业用户试用,需要您填写一些信息,必要信息如下:

邮箱: 用来接收地址和账号
如何称呼您:
所服务的公司:
您的职位:

当然,如果您可以告诉我们您的使用场景,我们将更加感激!
对了,可以发送到yuanwai@mengjia.net
另外,也可以直接加我微信(lxdhdgss)联系我。


最后,帮朋友推荐一下新书《GPT图解 大模型是怎样构建的》。

想在AI浪潮中有所斩获,真的要多看书,要多了解LLM的原理,《GPT图解 大模型是怎样构建的》我和我们CTO都提前看了,确实很适合想要了解大模型技术的同学。黄佳老师写作的特点就是能一环扣一环,每个知识点的讲解都会有铺垫,不会感觉生硬。嗯,我也看书去了,大模型时代,一日千里,不学习不行啊。

哦,差点忘了,点击这里购买这本书。


我们的创业项目已经上线!!!

TorchV AI,帮助企业快速进入AI时代!

具体详情,请点击官网咨询


最新内容,关注“土猛的员外”公众号