我的学习笔记

土猛的员外

关于LLM(大语言模型)的一些声音

这篇文章是最近听到的一些播客(如《此话当真》),以及之前读到的一些文章,当然还有自己在公司产品中的一些实践中产生的想法归纳。

这波LLM,巨头和创业者/小公司其实处在同一起跑线,但是小公司/创业者真的没必要去做LLM,还是应该聚焦在基于AI的应用上,需要去做错位竞争。

主要原因有二:

  • 这次LLM是在第一时间给市场看到了最好的产品——ChatGPT,其他竞争对手和OpenAI都还存在代差。一些国内外的Benchmark大家看看就得了,只要他们声称自己的新模型超过GPT-3.5,接近GPT-4.0,那在全领域来比较多半还差距很大,所以不要全信。
  • 后面大模型的竞争首先会成为卡的竞争,也就是钱。对于大部分企业来说,无法获得如此多的资金,而且去All in一个可能还是未知数的方向。大可在基于LLM的应用上多发力,比如没有什么垂直大模型,只有垂直应用。

数据还是壁垒吗?

那必须是!

但开放数据已经变得不值一提了,大家都可以获取,哪怕所谓的垂直LLM,如果你的训练数据是可以公开获取的,那壁垒也不高。比如司法LLM、医药LLM等行业。

什么样的数据才是壁垒?

那些不属于你所有,但与你共生的数据才是最重要的数据。比如你帮客户建立AI服务,中间产生的很多数据,你可以触碰和分析,但是不能做它途使用的数据。这部分数据以后应该是最多的,而且符合数据安全的相关条例。我们现在产品中的数据也属于这一类。

这部分数据,在企业应用中大多数是:1.内部协同数据;2.企业的客户使用数据。在个人层面,这部分数据更多是设备端数据。

LLM在未来的一种变形是做的事情更专注、更小型化,比如可以装载在设备上,做边缘计算,这些LLM可以帮助人们的生活更加简单。

RAG vs Fine-tuning

Fine-tuning(微调)是用一定量的数据集对LLM进行局部参数的调整,以期望LLM更加理解我们的业务逻辑,有更好的zero-shot能力。

RAG(检索增强生成)的做法是把企业内部的文档数据先进行embedding,借助检索先获得大致的知识范围答案,再结合prompt给到LLM,让LLM生成最终的答案。

说实话两种方式都不简单,但是Fine-tuning 的成本似乎更大一些。所以目前有一种趋势就是更倾向RAG方式,毕竟对于客户本身来说,操作空间会更大,他们可以通过管理文档来调整最终的检索和问答能力。所以目前有一些预测已经旗帜鲜明地认为fine-tuning的需求一定会下降。

传统程序员怎么办?

首先我觉得没有什么可以惊慌的,如果你原来的工作就很有价值,以后依然会很有价值。

AI算法工程师很重要,但是没有重要到离谱的程度,甚至现在很多招聘其实对AI算法工程师的热度是在下降的(Q3与Q2相比)。因为大厂拿到牌照了,加上Llama2、ChatGLM2等开源商用授权的发布,让很多公司稍稍从恐慌中心里有底了一些。

做过基于LLM产品的人现在大概都知道了,一个产品/平台,最终组成部分,80%是产品工程,20%是创新技术(国内的话,创新技术有10%其实已经很优秀)。所以,对于传统程序员和产品经理,一方面拥抱AI,另外一方面真正要支棱起一个AI应用,更大的工程量还是要靠你们。

对于AI应用的需求

在和B端客户交流中发现,65%的需求都是信息的检索、汇总和再生成,其实更像上面提到的RAG。

另外第二大需求(约占20%)是流程自动化、决策辅助,BI等需求上AI驱动的应用升级。

文生图和代码生成的需求在B端其实很低,和我们之前预期的差距很大。

很多大客户对于结果的可靠性要求非常高,很多项目都已经进入POC阶段了,因为达不到想要的可靠性(哪怕是再降低一些)而被否决。

甚至有些客户后面直接就想通了,我要的就是一个更好的搜索而已,但是LLM好像做不到。到最后,大家都冷静下来了,客户知道自己要的是一个解决方案,解决他业务中的痛点,而不是一个大模型。

客户一般都知道或者用过最好的(ChatGPT),所以他们的需求会天马行空,然后接触到国内基于LLM的产品之后,感觉落差巨大。

运营兜底

但是基于LLM的产品也不是就没救了,别这么悲观。现在碰到的问题是:我们把LLM神化了,感觉什么都可以通过LLM一劳永逸的解决了,但实际真不是这样的。

我们回想过往所有产品,精准度都是很高的,我们怎么做到的呢?运营啊!加人力成本啊!

到目前为止,要有非常好的精准度,依然必须要有运营兜底。基于生成式的LLM在幻想方面是个黑盒,不要说我们,OpenAI也没办法完全控制。

运营介入的方法简单说有三类:

1.prompt优化,当然不排斥针对某些行业和客户的“穷举”优化;

2.反馈迭代:获得使用中用户的反馈,进行微调,或者补充知识;

3.BERT前置:对于一些需要非常谨慎的服务内容,还是需要用预训练语料去完成,只要覆盖了需要这些高精度需求,其他的可以用GPT托底。

AI产品经理的核心素质

国内LLM的能力其实大家都差不多,所以对于基于LLM的业务最后拼的就是运营和反馈机制建立。

  • 运营:就是我上面一节说的这个意思,我们原来小知在行业里面占据领先地位也是这个做法;

  • 反馈:必须是建立一种可以持续获得反馈的机制。Midjourney生成四张图,每次让人选择一张(一般情况下会认为是更符合客户需求的),这种方式就是一种非常好的反馈机制。

所以,作为AI产品经理,最最重要的就是这两件事

  • 认清现实:知道我们完全靠机器是不太可能做好所有的事情的,然后如何用运营来弥补这种缺失,达到最好的交付效果;
  • 反馈飞轮:如何在交互上做出一个良好的反馈机制,让“模型-应用-反馈-优化”这个飞轮可以更加快速运转起来。

如果没有这两方面的考虑,都不能称之为一个合格的AI产品经理。

再说说运营能力,也可以作为一种标准服务提供给企业,或者运营也可以是一种AI浪潮下的企业员工培训,让企业员工如何适应AI产品来提高生产力。

避免过早优化

整体来说,中文LLM的能力还非常差,很多时候都体会不到真正LLM的“魔力”。

但是我对于中文LLM的发展还是非常乐观的,所以我们在做基于LLM产品的时候,可以考虑一年之后我们可以拿到一个类似GPT4差不多水平的LLM。

言外之意,即使在现在,业务优先,AI在后

应用与LLM的切割,做好架构,先做好自己的应用,做到随时切换各个不同的LLM。

或者,我们现在做业务,也可以不要一个猛子扎进去,可以有意与LLM有一个边界。

PLUS:现在做的三款产品

一、2019年就开始做的AI助手产品,在颐和园、长隆、良渚、普陀山等140多家景区有应用,原来是纯BERT的,现在加了GPT兜底;

二、基于RAG的产品,在行政服务中心、招商等部门都有一定的应用;

三、文博行业产品,在客户端,给原来纯用声音听的功能做了可视化升级,在后台用大模型做了内容的快速处理与合成,比传统内容制作效率提升很多。非直接生成,那质量非常不可控。

好了,就写到这里!


TorchV AI支持试用!

如您有大模型应用方面的企业需求,欢迎咨询!