我的学习笔记

土猛的员外

我是怎么用AI提升工作上限的

6月份比较懒(其实是事情比较多),只在月初写了一篇公众号文章。但是让我比较惊讶的是,这个月转发数量不少。关注者也增加了不少,几乎每天都有新增,而且没有一个是微信朋友。所以,我第一次感觉到应该是前面写的一些内容,可能对大家有一些小帮助,才会被大家经常转发和关注。

嗯,也是感觉到这份“厚爱”,我决定再写一篇非常“干货”的文章——我是如何利用当下的AI工具提升工作的,这些工具主要是Midjourney和ChatGPT,涉及的使用场景其实不仅仅是软件、互联网等。

好,下面开始。

Midjourney:描绘你想象中的样子

问题

如果你要创造一款产品,无论是一款专业的软件产品、一个App、一个网站,或者是家装设计、服装设计和工艺品设计,当你有一个好点子的时候,最开始都是很兴奋的。然后过了几天,脑子的画面开始淡化,或者你的“理性”开始对你说会有各种困难,你在一点点地打退堂鼓。再之后,你给合作者描绘你的点子,他们可能是UX设计师、产品经理,或者板房师傅,你发现他们很难理解你的想法,或者他们无法和你共同“看见”你脑子的画面。于是,在各种抱怨与妥协中,最终产品出来了,但和你想象中的相比,多数时候可能只能实现70%的完成度。

答案

最近一段时间我对Midjourney比较痴迷,并做了比较深度的研究,看过上一篇公众号文章的朋友应该知道。所以我就想着在整个产品设计的策划阶段使用Midjourney来组织整个思路,让产品研发团队和市场同事都可以共同“看见”。

下面举一个具体的例子吧。

因为AI热潮的兴起,公司的产品就需要有AI加持。这次在思考产品升级的过程中,一下子出来三个比较明确的产品,都是基于大模型的。第一个产品是农文旅行业大模型,这个不是本文的重点,这里就直接略过了,只提一句这是基于自主训练的7B大模型。这里要举的例子是第二和第三个产品,我可以说说思考的过程。

第二个产品是一个博物馆的产品,在公司内部小范围内已经做了几次讨论,内部几个很有见解的大佬对这个产品都很看好,它在传统的产品上进行升级,并对原有的用户使用场景做了一些改变。为了让团队里面的产品经理、UI设计师和研发人员能清晰明白这是什么产品,也为了让解决方案架构师、销售经理等能快速理解可以提前去摸市场反馈,我用Midjourney做了一些产品图。

其中两幅效果图

01

图1:一个iPad形式的产品展示

02

图2:产品使用场景效果图

这是完全由Midjourney制作的产品效果图和使用场景效果图,非常符合我心里的画面,和同事详细讲解了产品之后,他们也都觉得很贴切,包括人物的眼神都很精确。

针对这个博物馆产品,我在后面还配套了一个小程序产品,以下是其中的一幅效果图,配色和设计很符合客户特点。

03

图3:小程序效果图,重点在于风格,不要在意细节

第三个产品就更有意思了,它也是基于大模型的,并且使用场景的设计上非常巧妙,我不能展示太多,就展示一下最终的外形吧。

04

图4:手办的效果图,人见人爱

我们可以认为这是一种手办的效果图,我用Midjourney一共生成了16个,只展示其中4个吧。

以上这些图,当然是我对Midjourney非常熟练之后,再加上多次调整才制作出来的(花了8美元),但是一旦你上手了,就能让你事半功倍。我相信,如果源头(脑子中的想法)对了,还能高度还原地展示出来,对于产品创造来说是非常重要的。如果我们从源头到成品的各个环节,没办法高度还原,一环环妥协,那么最终就是特斯拉变吉安特了。

ChatGPT:可以增加工作广度

阅读广度

就效果来说,我个人感觉ChatGPT给我带来的工作价值不如Midjourney那么见成效,因为我对ChatGPT的使用往往是在中间环节。比如常见的应用场景是:

  • 归纳:把一篇2000字的文章归纳成100字;
  • 翻译:这是我最常见的用法,包括一些独立开发者分享的浏览器翻译插件(用自己的openai秘钥),让我感觉真的互联网无国界,什么英语、西班牙语、法语、日语,什么文章都能看。而且与传统翻译软件相比,有一个非常大的优势,就是对技术类文章的翻译非常到位;
  • 润色:包括翻译的内容,有时候还是会非常不适合我阅读的,这时候,我会再将翻译成中文的内容再放进去润色一遍,让内容更易于阅读,假设阅读吸收率从52%升到88%;
  • 出题:一篇文章可能我是需要去掌握里面核心点的,但我不想很仔细地去阅读,那我的处理方式是让ChatGPT帮我根据这篇文章出10题选择题,包括正确答案,然后自己一题一题做下来。如果对于不是很有把握和做错的题目,我会再到文章里面去看一下相关内容,其他很有把握的内容,我就不看了。

这几种用法,可以非常快速地让我获取知识,快速地搞懂一些其他领域的知识。

05

图5:ChatGPT帮我们出题目

结对编程

ChatGPT对我来说最好用的还是“结对编程”,就像是我的一个实习生。

今年我自己利用业余时间做了一个工具,是基于Svelte的,一种现代化前端框架,类似于React、Vue。我自己的技术栈一直是数据库、Java、机器学习之类的,上一次大密度写前端还是在2010年之前了,用的是JQuery。这次写Svelte,我没有先去啃书,而是直接搭了Project,然后用ChatGPT帮我写代码——我提问题,它回答。

这期间还用了CSS的框架Tailwindcss,又是一个以前的盲区。但是这次我断断续续地用了两周时间就搭出了这个工具,然后在这次的Midjourney生成产品图的工作上帮了我大忙。

06

图6:编程好帮手,但需要使用者有一些IT技术知识

07

图7:自己在业余时间开发的Midjourney图片生成的小工具

LangChain—让大模型有无限可能

LangChain是一个好东西,它包含了大模型的连接器、Agent(代理)、Memory(状态存储)、Chain(链路)、外部连接插件和一些可以填空的prompt(就是输入给大模型的话)模板等,这些组件组合在一起,可以将我们的一个任务进行拆解,逐步去完成。

举个例子,比如基于LangChain和大模型的驾驶舱,是可以“听话”,然后随意组合呈现的,这里面就需要将任务拆解才能完成。比如我们说:“帮我分析一下6月份的游客消费为什么会比5月份增加这么多?”,假设的分解如下:

  • 首先这句话会被文本转向量(变成几百、上千维的向量数组),然后去匹配有一定相关量的分析组件;
  • 通过相似度算法,找出驾驶舱中有消费相关的各类分析组件(如总消费、人均消费、按类型消费、客流量、天气等23个分析组件);
  • 选择promp模板,将23个分析组件的名称和简述组装进新的prompt:“请将以下分析组件中,选择最能分析消费数据变化的8个:……23个组件的名称和简述。” 注:8个组件基本上凑成一屏;
  • 再通过agent,从数据库获取5月和6月相关数据,装载进这8个组件(比如客流量折线图,可以用蓝色表示5月数据,红色表示6月数据);
  • 最后将这8块数据分析全部展示在同一屏上。

原本的情况是,客流是单独一屏,交通是单独一屏,消费是单独一屏…我们很难把分析一个问题的所有关联数据都集中在一屏来统一查看,而通过LangChain和大模型的结合,我们就可以做到。当然,这里对于前端的要求还是很高的,各个分析组件的尺寸和样式需要灵活可适配。

随着时间推移,大厂在通用大模型方面的优势会越来越大,因为他们有更多资源(GPU服务区)、更多人才和更多数据。对于大多数中小型公司和个人来说,LangChain是真正值得发力的技术。我们的农文旅行业大模型就是基于自训练7B大模型+LangChain,而且最近和国内两个顶级大厂交流下来,他们所谓的行业大模型(注意区分通用大模型和行业大模型)也是这个技术架构。

08

图8:LangChain的一个用法:行业大模型

再补一句就是,对于中小公司和个人来说,要在这波AI上有所收获,我目前看来最有可能的就是好好把握LangChain和Stable Diffusion(你可以理解为是开源版的Midjourney)。

总结

好了,今天就先写到这里吧。欢迎大家多多关注(关注公众号),我会持续输出原创内容,结合自己的思考和实践。






关注我的微信公众号,可收到实时更新通知

公众号:土猛的员外


TorchV AI支持试用!

如您有大模型应用方面的企业需求,欢迎咨询!