看到O’Reilly的调查好文,翻译转发分享给大家。
本文的主要内容:
- 企业是如何使用生成式AI的?
- 在使用中遇到了哪些瓶颈?
- 企业希望生成式AI可以解决哪些缺陷和差距?
生成式AI是2023年最大的科技故事。几乎每个人都玩过ChatGPT、Stable Diffusion、GitHub Copilot或Midjourney。一些人甚至试用了Bard或Claude.ai,或者在他们的笔记本电脑上运行Llama(或Llama.cpp)。每个人都对这些语言模型和图像生成程序将如何改变工作的本质、迎来奇点、甚至可能毁灭人类有着自己的看法。在企业中,我们看到了从大规模采用,到严格限制,甚至禁止使用生成式AI的风向变化。
现实是什么?我们想知道人们到底在做什么,所以在9月份我们调查了O’Reilly的用户。我们的调查重点是:
- 企业是如何使用生成式AI的?
- 在使用中遇到了哪些瓶颈?
- 企业希望生成式AI可以解决哪些缺陷和差距?
调查报告主要内容
我们从来没有见过像生成式AI这么快就被采用的新技术——很难相信ChatGPT才诞生不到一年。截至2023年11月:
- **67%**的受访者表示,他们的公司正在使用生成式AI。
- AI用户表示,**AI编程(66%)和数据分析(59%)**是最需要的技能。
- 许多AI采用者仍处于早期阶段。26%的人在AI领域工作不到一年。但18%已经在生产中得到应用。
- 难以找到合适的用例是用户和非用户采用的最大障碍。
- 16%的AI受访者正在使用开源模型。
- 意想不到的结果、安全性、公平性和偏见以及隐私是采用者正在测试的最大风险。
- 54%的AI使用者觉得AI在未来最大的好处是提高生产力,只有4%的人表示相反意见。
生成式AI是否处于炒作曲线的顶端?
应该说我们看到了大量的增长空间,特别是我们还会持续发现新的落地应用案例。
用户和非用户
生成式AI的采用正在变得越来越普遍,但它仍然不是普遍的。
- 67%的受访者表示,他们的公司正在使用生成式AI:
- 41%的人表示,他们的公司已经使用AI≥1年;
- 26%的人表示,他们的公司使用AI<1年;
- 33%的人表示他们的公司根本没有使用AI。
生成式AI的使用者与非使用者的比例大概是2比1,但这意味着什么?如果我们问他们的公司是否在使用数据库或网络服务器,毫无疑问,100%的受访者都会说“是”。在AI达到100%之前,它仍处于快速增长的过程中。ChatGPT于2022年11月30日(译者:如果真的有一天AI统治了人类,那11月30日就是新的圣诞节了)向公众开放;图片生成器,如Stable Diffusion和DALL-E,则比较老。在第一台网络服务器问世一年后,有多少公司拥有网站或正在尝试建立网站?当然不是三分之二。仅看AI用户,超过三分之一(38%)的人表示,他们的公司与AI合作不到一年,几乎可以肯定仍处于早期阶段:他们正在试验和研究概念验证性质的项目。即使使用像GPT-4这样基于云的基础模型,它可以让您不需要自己开发、训练模型,也不需要去建设和维护大量的服务器、GPU和网络等基础设施的需要。虽然为了各个行业应用需要而做的微调仍然是一项艰巨的任务。我们从未见过像生成式AI这么快的应用速度。
当26%的受访者使用一项技术的时间不到一年时,这是一个重要的发展势头标志。是的,可以想象AI——尤其是生成式AI——可能正处于技术成熟度曲线(Hype Cycle)的顶峰。
但是我们并不这么认为,尽管这些新项目的失败率无疑很高。但是,尽管采用AI的热潮势头强劲,但AI仍然需要向这些新采用者证明其价值,而且要快。它的采用者期待回报,如果没有,那好吧,要知道AI在过去可是经历过许多个“冬天”的。我们是否已经到了技术成熟度曲线的顶端,除了下降没有别的路可走了吗?还是说其实还有大量可增长的空间等待我们去探索?
我们相信还有很大的上升空间。
训练大模型和基于大模型开发复杂的应用程序变得越来越容易。许多新的开源模型要小得多,而且知识库权重不密集,但仍然提供了良好的结果(特别是在针对特定应用程序进行训练时)。有些可以很容易地在笔记本电脑上运行,甚至可以在网络浏览器上运行。一个健康的工具生态系统已经围绕着生成式AI成长起来——就像加州淘金热所说的那样,如果你想知道谁在赚钱,不要去看矿工,看看那些卖铲子的人。使用检索增强生成(RAG)等模式和LangChain、LlamaIndex等工具,自动化构建复杂prompts的过程已经变得很常见。还有用于归档和索引prompts以供重用的工具,用于检索文档的向量数据库,AI可以使用这些数据库来回答问题,等等。就像我们的TorchV等基于AI的应用,也让企业在AI应用的采用上更进一步。所以,就目前的态势来说,可能还在上升期,还不太可能像坐过山车一样进入Gartner的“幻灭低谷”。
是什么阻碍了AI的发展?
了解为什么公司不使用AI对我们来说很重要,所以我们向那些公司不使用AI的受访者询问了一个显而易见的问题:”为什么你们公司不使用AI?“ 我们向那些表示他们的公司正在使用AI的用户提出了类似的问题:”阻碍AI进一步采用的主要瓶颈是什么?“ 两组人都被要求从同一组答案中进行选择。在很大程度上,最常见的原因是难以找到合适的业务用例(非使用者为31%,使用者为22%)。
我们可以认为这是因为被调查者的想象力缺乏——但这不仅很没礼貌,而且还透露了你对于AI应用没有一个相对客观和有见地的思考。”快速行动,打破陈规“的带来的各种后果仍在世界各地上演,而且情况不乐观。考虑不周和执行不力的AI解决方案可能具有破坏性,因此大多数公司应该仔细考虑如何正确使用AI。我们不是在鼓励怀疑或恐惧,但公司应该在清楚了解风险的情况下开发AI产品,尤其是那些AI特有的风险。哪些用例是合适的,哪些不是?我们还必须认识到,这些用例中会有很多挑战传统的业务思维方式。了解AI的落地案例场景,以及理解AI是否有新的创新范式让你重构业务,都是非常重要的。
第二个最常见的原因是担心法律问题、风险和遵从性(非使用者占18%,使用者占20%)。这种担忧当然属于同一个问题:在考虑适当的用例时必须考虑风险。使用生成式AI的法律后果仍然未知。谁拥有AI生成输出的版权?模型的创建是否会侵犯版权,或者它是受美国版权法保护的“变革性”使用?我们现在还不知道,答案将在未来几年的法庭上揭晓。还有其他风险,包括模型产生不适当输出时的声誉损害、新的安全漏洞等等。
另一个难题是缺乏对AI使用的政策。这类政策将旨在减轻法律问题,并要求遵守规章制度,这可能不是一个重要的问题,因为只有6.3%的用户和3.9%的非用户选择了这一点。有关AI使用的企业政策将在明年出现并不断发展。到2023年底前,我们相信关心相关政策的公司相对较少。当然,不使用AI的公司也不需要AI使用政策,但是个人自行采用AI,会使公司面临未知的风险和责任吗?在AI用户中,缺乏全公司范围的政策并没有阻碍AI的使用,这是不言而喻的。但这可能不是一件好事。同样,AI带来的风险和责任应该得到解决,而不是被忽视。故意的无知只能导致不幸的后果。
另一个阻碍AI使用的因素是公司文化造成了认识上的障碍(非用户占9.8%,用户占6.7%)。在某些方面,认识不到需求类似于没有找到合适的业务用例。但还有一个重要的区别:“合适”这个词。AI带来风险,寻找”合适“的用例是一个合理的关注点。认识不到这种需求的文化是非常守旧的,可能表明缺乏想象力或远见:”AI只是一种赶时髦,所以我们只会继续做那些一直对我们有效的事情。“这是问题所在吗?很难想象一个企业不能使用AI,而忽视这一承诺对公司的长期成功是不健康的。
我们对那些担心缺乏技术人员的公司表示同情,9.4%的非用户和13%的用户表示存在这一问题。拥有AI技能的人一直很难找到,而且往往很贵。我们预计这种情况在不久的将来不会有太大变化。虽然经验丰富的AI开发人员开始离开像谷歌、OpenAI、Meta和微软这样的强大公司,但他们的离开不足以满足需求——他们中的大多数可能会被初创公司吸引,而不是加入老牌公司的AI人才队伍。然而,我们也感到惊讶的是,这个问题没有得到更突出的重视。
一小部分人(3.7%的非用户和5.4%的用户)认为“基础设施问题”是个问题。是的,构建AI基础设施是困难和昂贵的,AI用户对这个问题的感受更强烈也就不足为奇了。我们都知道像ChatGPT这样的公司对于高端GPU供不应求。在这个领域,云提供商已经承担了很大的负担,未来还将继续承担。目前,很少有AI采用者维护自己的基础设施,并受到提供商的保护,不受基础设施问题的影响。从长远来看,这些问题可能会放慢AI的企业使用率。我们相信,许多API服务都是亏本的——主要提供商故意压低价格以获取市场份额。这种定价是不可持续的,尤其是在硬件短缺推高了基础设施建设成本的情况下。当从AWS、微软或谷歌租用基础设施的成本上升时,AI采用者会作何反应?考虑到为数据中心配备高端GPU的成本,他们可能不会尝试构建自己的基础设施,而是选择放弃AI应用的开发。
很少有非用户(2%)表示缺乏数据或数据质量是一个问题,只有1.3%的人表示训练模型的难度是一个问题。事后看来,这是可以预见的:这些问题只会在你走上生成AI之路之后出现。AI用户确实面临着这些问题:7%的人表示数据质量阻碍了进一步的采用,4%的人表示在他们的数据上训练模型很困难。但是,虽然数据质量和训练模型的难度显然是重要的问题,但它们似乎并不是使用AI应用的最大障碍。开发人员正在学习如何找到规模更小但质量更高的数据来构建出色的模型。
企业如何使用AI
我们问了几个具体的问题,关于受访者如何与AI合作,以及他们是在“使用”它还是只是“实验”。
生成式AI最常见的应用是编程,使用GitHub Copilot或ChatGPT等工具,对此我们并不感到惊讶。然而,我们对采用程度感到“惊讶”:77%的受访者表示使用AI作为编程的辅助——34%的人正在试验,43%的人已经在工作中使用它。数据分析显示了类似的模式:70%的总数——32%的人在使用AI,38%的人在进行实验,可以看到在整体上,更高比例的用户正在进行实验,这可能反映了OpenAI在ChatGPT的测试版功能中增加了高级数据分析(以前称为代码解释器)。高级数据分析在探索和分析数据集方面做得很好——尽管我们希望数据分析师在检查AI的输出时要小心,不能完全信任被标记为“测试版”的软件。
使用生成式AI工具来完成与编程(包括数据分析)相关的任务几乎是一个广泛共识。对于没有明确禁止其使用的组织,它肯定会变得普遍。我们预计,即使在禁止使用AI的组织中,程序员也会使用它。程序员一直在开发能够帮助他们完成工作的工具,从测试框架(如JUnit)到源代码控制(Git)再到集成开发环境(IDE)。不管他们是否得到管理层的允许,他们总是采用这些工具。从程序员的角度来看,代码生成只是另一种节省劳动力的工具,可以使他们在不断变得更加复杂的工作中保持高效。在21世纪初,一些关于开源采用的研究发现,绝大多数员工说他们正在使用开源,尽管绝大多数CIO说他们的公司没有。显然,这些CIO/CTO要么不知道他们的员工在做什么,要么愿意睁只眼闭只眼。我们将看到这种模式重复出现:程序员会做必要的事情来完成工作,而管理者们会默契地”不知道“,只要他们的团队更有效率,目标得以实现。
在编程和数据分析之后,生成式AI的下一个最常见用途是对客问答服务的应用程序,包括客户支持:65%的受访者表示,他们的公司正在为此目的试验(43%)或已经在使用AI(22%)。虽然公司长期以来一直在谈论AI改善客户支持的潜力,但我们没想到客户服务排名如此之高。对客互动服务是非常危险的:不正确的答案,偏执或性别歧视的行为,以及许多其他与生成式AI有关的问题,很快就会导致难以挽回的损害,还有一些国家可能面临着严肃的敏感话题风险。也许这就是为什么这么大比例的受访者正在试验这项技术,而不是使用它(比任何其他类型的应用程序都多)。任何自动化客户服务的尝试都需要非常仔细地测试和调试。我们将调查结果解释为“谨慎但兴奋的采用”。很明显,自动化客户服务可以在很大程度上降低成本,如果做得好,甚至可以让客户更快乐。没有人想被抛在后面,但与此同时,没有人想要一场引人注目的公关灾难或一场官司。
中等数量的受访者表示,他们的公司正在使用生成式AI来生成文案。47%的人专门用它来制作营销文案,56%的人用它来制作其他类型的文案(比如内部备忘录和报告)。虽然网上这种”事故新闻“四起,但我们很少看到有人因为AI而失去工作的报道——但这些报道几乎全部来自生成的文案。AI还不能像有经验的人那样写得好,但如果你的公司需要数百种商品的目录描述,速度可能比精彩的散文更重要。机器生成文本还有许多其他应用:AI擅长总结文档(这是一个创举)。当与语音转文本服务相结合时,它可以完成创建会议记录甚至播客记录的工作。它也非常适合写一封快速的电子邮件。
用户最少的生成式AI应用是网页设计(占总数的42%:实验性质28%,已投入使用为14%)和艺术(总数36%;25%在试验,11%在使用)。这无疑反映了O ‘Reilly以开发者为中心的用户。然而,还有其他几个因素在起作用。首先,已经有许多低代码和无代码的网页设计工具,其中许多工具具有AI功能,但尚未使用生成式AI。在这个拥挤的市场中,生成AI将面临激烈的竞争。其次,虽然OpenAI去年3月发布的GPT-4演示了从手绘草图生成网站代码,但这项功能直到调查结束后才可用。第三,虽然为一个简单的网站粗略地编写HTML和JavaScript可以制作一个很棒的演示,但这并不是网页设计师真正需要解决的问题。他们想要一个可以在屏幕上编辑的拖放界面,这是生成式AI模型尚不具备的。适合专业使用的设计工具目前还不存在,但它们很快就会出现。
更少的受访者表示,他们的公司正在使用生成式AI来创作艺术。虽然我们读过创业公司的创始人使用Stable Diffusion和Midjourney来廉价地创建公司或产品的标志,但这仍然是一个专业的应用程序,我相信大部分人还依然很难去应用这些工具。但这并不是公司所需要的全部艺术:博客文章的“英雄形象”、报告和白皮书的设计、宣传照片的编辑等等都是必要的。生成式AI是答案吗:也许还没有。以Midjourney为例,虽然它的功能令人印象深刻,但它也会犯一些愚蠢的错误,比如把受试者的手指(或手臂)的数量搞错。虽然最新版本的Midjourney要好得多,但它问世的时间并不长,许多美工和设计师都不愿意处理这些错误。他们也更愿意避免法律责任。在生成艺术供应商中,Shutterstock、Adobe和Getty Images对其工具的用户进行版权索赔。微软(Microsoft)、谷歌(Google)、IBM和OpenAI都提供了更为普遍的赔偿。
我们还询问了受访者的公司是否正在使用AI来创建其他类型的应用程序,如果是的话,是什么。虽然这些内置应用程序中有许多复制了微软、OpenAI和谷歌等大型AI提供商已经提供的功能,但其他应用程序覆盖的范围非常广。许多应用涉及摘要:新闻、法律文件和合同、兽医和金融信息脱颖而出。一些受访者还提到了与视频相关的工作:分析视频数据流、视频分析以及生成或编辑视频。
受访者列出的其他应用程序包括欺诈检测、教学、客户关系管理、人力资源和法规遵从,以及更可预测的应用程序,如聊天、代码生成和编写。我们无法统计和列出所有的回应,但很明显,我们不缺乏创造力和创新。**很明显,很少有行业不会受到影响——AI将成为几乎所有行业不可或缺的一部分。**
生成式AI将成为最终的办公生产力工具。当这种情况发生时,它可能不再被认为是AI:它将只是微软Office、谷歌Docs或Adobe Photoshop的一个功能,所有这些都集成了生成式AI模型。GitHub Copilot和谷歌的Codey都已经集成到微软和谷歌各自的编程环境中。它们只是软件开发人员工作环境的一部分。20或25年前,网络也发生了同样的事情:用互联网连接办公室或家庭曾经是一件大事。现在我们期望Wi-Fi无处不在,即使这是不可能的。我们不“期待”它——我们假设它,如果它不存在,那就是一个问题。我们希望手机无处不在,包括地图服务,如果你在手机信号无法到达的地方迷路,那就麻烦了。我们希望搜索无处不在,AI也一样,人类终将会和AI共存,只是前沿从业者需要去替大家思考如何更好地让AI帮助我们工作和生活。
建造者和他们的工具
为了获得客户对AI的不同看法,我们询问了他们使用什么模型来构建自定义应用程序。36%的人表示他们没有构建定制应用程序。相反,他们正在使用预先打包的应用程序,如ChatGPT、GitHub Copilot、集成到Microsoft Office和Google Docs中的AI功能,或类似的东西。剩下的64%已经从使用AI转向开发AI应用。这一转变代表着一个巨大的飞跃:它需要对人力、基础设施和教育进行投资。
选择什么模型?
虽然GPT模型主导了大多数在线讨论,但可用于构建应用程序的大模型数量正在迅速增加。我们几乎每天——当然每周——都会读到一个新模型的消息,快速浏览一下Hugging Face,你会看到数不清的model(截至11月,其存储库中的模型数量接近40万个)。
开发者显然有选择,但是他们在做什么选择呢?他们使用哪些模型?
毫不奇怪,23%的受访者表示,他们的公司正在使用GPT模型(2、3.5、4和4V)中的一种,比其他任何模型都要多。更令人惊讶的是,21%的受访者正在开发自己的模型,这项任务需要大量的工作人员和基础设施资源。这将如何发展值得关注:公司会继续开发自己的模型,还是会使用AI服务来定制基础模型(如GPT-4) ?
16%的受访者表示,他们的公司正在开源模型的基础上进行构建。开源模型是一个庞大而多样的群体。其中一个重要的部分由Meta的Llama衍生的模型组成:LLama.cpp,Alpaca,Vicuna等。这些模型通常更小(70亿到140亿个参数),更容易调整,它们可以在非常有限的硬件上运行——许多可以在笔记本电脑、手机或树莓派等纳米计算机上运行。培训需要更多的硬件,但是在有限的环境中运行的能力意味着完成的模型可以嵌入到硬件或软件产品中。另一部分与Llama无关:RedPajama、Falcon、MPT、Bloom等,其中大部分都可以在Hugging Face上买到。使用任何特定模型的开发人员数量相对较少,但总数令人印象深刻,并展示了超越GPT的重要和活跃的世界。这些“其他”模式吸引了大批追随者。不过要小心——虽然这组模型经常被称为“开源”,但其中许多模型限制了开发人员可以从中构建的内容。在使用任何所谓的开源模型之前,请仔细查看许可证。一些国家将该模式限制在研究工作中,并禁止商业应用:有些禁止与模型的开发者竞争。我们现在被“开源”这个词困住了,但就AI而言,开源往往不是它看起来的那样。(译者:代码本身是严格按照开源协议来的,但是权重文件有时候是有限制的)。
只有2.4%的受访者使用Llama和Llama2进行构建。虽然Llama模型的源代码和权重可以在线获得,但Llama模型还没有由Meta支持的公共API虽然似乎有一些API是由第三方开发的,而且Google Cloud和Microsoft Azure都提供Llama2作为服务。Llama系列模型也属于“所谓的开放源代码”类别,它限制了您可以构建的内容。
只有1%的人在与谷歌的Bard合作,后者的曝光率可能比其他公司要低。许多作者声称Bard给出的结果比Llama和GPT模型更差,这可能对聊天是正确的,但我发现当GPT-4失败时,巴德通常是正确的。对于应用开发者来说,Bard最大的问题可能不是准确性或正确性,它是可用性。2023年3月,谷歌宣布了Bard API的公开测试程序。Bard API的使用无疑受到了能够访问它的相对较少的开发人员的阻碍。更少的人使用Claude,这是Anthropic开发的一个非常有用的模型。Claude没有像Meta、OpenAI和谷歌的模型那样得到那么多的新闻报道,但是Anthropic的AI宪法对AI安全的方法是一种独特而有前途的尝试,可以解决困扰AI行业的最大问题。
当前处于什么阶段?
当被问及公司在工作中处于什么阶段时,大多数受访者都表示他们仍处于早期阶段。鉴于生成式AI相对较新,这并不是什么新闻。如果说有什么不同的话,那就是我们应该对生成式AI渗透得如此之深、如此之快感到惊讶。34%的受访者正在进行概念的初步验证。14%从事产品开发,可能是在开发PoC之后——10%的人正在构建模型,这也是一种早期活动——还有8%的人正在测试,这意味着他们已经建立了一个概念验证,并正在走向部署——他们有一个至少看起来可行的模型。
值得注意的是,18%的受访者就职于生产中有AI应用的公司。考虑到这项技术是新的,许多AI项目都失败了,令人惊讶的是,18%的人表示他们的公司已经在生产中使用了生成式AI应用程序。我们不是怀疑论者;这表明,尽管大多数受访者表示公司正在进行概念验证或处于其他早期阶段,但生成式AI正在被采用,并正在开展实际工作。我们已经看到了AI与现有产品的一些重要整合,包括(我们自己的)期待其他人效仿。
风险和测试
我们询问了受访者,他们的公司正在与AI合作,他们正在测试哪些风险。前五名的回答介于45%到50%之间:意外结果(49%)、安全漏洞(48%)、安全和可靠性(46%)、公平、偏见和道德(46%)以及隐私(46%)。
重要的是,几乎一半的受访者选择了“意想不到的结果”,比其他任何答案都要多:任何使用生成式AI的人都需要知道,错误的结果(通常被称为幻觉)是很常见的。如果说这里有什么令人惊讶的,那就是这个答案并不是被100%的参与者选择的。意外、不正确或不恰当的结果几乎肯定是与生成式AI相关的最大风险。
我们希望看到更多的公司进行公平测试。在许多应用程序(例如,医疗应用程序)中,偏差是最重要的测试问题之一,在这些应用程序中,消除训练数据中的历史偏差是非常困难的,也是最重要的。重要的是要认识到,不公平或有偏见的输出可能非常微妙,特别是如果应用程序开发人员不属于有偏见的群体——对开发人员来说“微妙”的东西对用户来说往往是非常不微妙的。一个不懂用户口音的聊天应用程序是一个明显的问题(搜索“亚马逊Alexa不懂苏格兰口音”)。寻找不存在偏见的应用程序也很重要。ChatGPT已经将重点放在了个人用例上,但在许多应用中,偏见和公平性问题并不是主要问题:例如,检查图像以判断作物是否患病,或者优化建筑物的供暖和空调,以最大限度地提高效率,同时保持舒适。
很高兴看到安全和安保等问题排在榜单前列。公司逐渐意识到安全是一个严重的问题,而不仅仅是成本中心。在许多应用程序中(例如,客户服务),生成式AI除了产生法律责任外,还可能对声誉造成重大损害。此外,生成式AI也有其自身的漏洞,例如prompt注入,目前还没有已知的解决方案。模型吸血,攻击者使用特殊设计的prompts来重建模型训练的数据,这是AI特有的另一种攻击。虽然48%还不错,但我们希望看到更多的人意识到需要测试AI应用程序的安全性。
模型可解释性(35%)和模型退化(31%)不是大问题。不幸的是,可解释性仍然是生成式AI的一个研究问题。至少在目前的语言模型中,很难解释为什么生成模型会对任何问题给出特定的答案。可解释性可能不是大多数当前应用程序的要求。如果ChatGPT为您编写了一个Python脚本,您可能不会关心它为什么编写这个特定的脚本而不是其他脚本。(同样值得记住的是,如果您问ChatGPT为什么会产生任何响应,它的答案将不会是前一个响应的原因,而是与往常一样,最可能是对您的问题的响应。)但可解释性对于诊断偏见问题至关重要,当涉及生成式AI的案件最终进入法庭时,可解释性将极其重要。
模型退化是另一个问题。任何AI模型的性能都会随着时间的推移而下降,据我们所知,大型语言模型也不例外。一项备受争议的研究认为GPT-4的反应质量随着时间的推移而下降。语言以微妙的方式变化;用户提出的问题会改变,并且可能无法用旧的训练数据回答。甚至AI回答问题的存在也可能导致问题的变化。另一个有趣的问题是,当生成模型在其他生成模型生成的数据上进行训练时会发生什么。“模型崩溃”是真的吗?当模型被重新训练时,它会产生什么影响?
如果您只是在现有模型的基础上构建应用程序,那么您可能无法对模型退化做任何事情。对于正在构建自己的模型或进行额外训练以微调现有模型的开发人员来说,模型退化是一个更大的问题。训练一个模型是昂贵的,而且可能是一个持续的过程。
缺少的技能
开发AI的公司面临的最大挑战之一是专业知识。他们是否有具备必要技能的人员来构建、部署和管理这些应用程序?为了找出技能不足的地方,我们询问了受访者,他们的组织需要为AI项目获得哪些技能。AI编程(66%)和数据分析(59%)是最需要的两个技能,这一点并不奇怪。AI是我们几年前所说的“数据科学”的下一代,数据科学代表了统计建模和软件开发之间的合并。该领域可能已经从传统的统计分析发展到人工智能,但其整体形态并没有太大变化。
下一个最需要的技能是AI和机器学习的操作(54%)。我们很高兴看到人们认识到这一点:长期以来,我们一直认为操作是AI和机器学习的“房间里的大象”。部署和管理AI产品并不简单。这些产品在许多方面与更传统的应用程序不同,虽然持续集成和部署等实践对传统软件应用程序非常有效,但AI需要重新思考这些以代码为中心的方法。模型(而不是源代码)是任何AI应用程序中最重要的部分,模型是大型二进制文件,不支持Git等源代码控制工具。与源代码不同的是,模型会随着时间的推移而变得陈旧,并且需要不断的监控和测试。大多数模型的统计行为意味着简单的、确定性的测试是行不通的;您不能保证给定相同的输入,模型将生成相同的输出。其结果是,AI操作本身就是一门专业,除了更传统的操作外,还需要对AI及其需求有深入的了解。我们需要什么样的部署管道、存储库和测试框架来将AI应用程序投入生产?我们不知道;我们仍在开发成功部署和管理AI所需的工具和实践。
45%的受访者选择基础设施工程,但其排名并不高。这有点令人困惑:在生产环境中运行AI应用程序可能需要巨大的资源,就像微软这样的大公司正在发现的那样。然而,大多数组织还没有在他们自己的基础设施上运行AI。他们要么使用OpenAI、微软、亚马逊或谷歌等AI提供商提供的API,要么使用云提供商运行自己开发的应用程序。但在这两种情况下,都有其他提供商构建和管理基础设施。OpenAI特别提供企业服务,其中包括用于培训自定义模型的API,以及对企业数据保密的更强保证。然而,随着云提供商接近满负荷运行,投资AI的公司开始考虑自己的基础设施,并获得构建基础设施的能力,这是有道理的。
超过一半的受访者(52%)将一般AI素养作为必要的技能。虽然这个数字可能会更高,但我们很高兴我们的用户认识到熟悉AI和AI系统的行为方式(或不当行为)是必不可少的。生成AI有一个很棒的惊喜因素:通过一个简单的prompt,你可以让ChatGPT告诉你关于麦克斯韦方程或伯罗奔尼撒战争的事情。但是简单的prompts并不能让你在工作中走得很远。AI用户很快就会发现,好的prompts通常非常复杂,详细描述了他们想要的结果以及如何得到它。prompts可能很长,并且可以包含回答用户问题所需的所有资源。研究人员争论这种水平的prompt工程在未来是否必要,但它显然将在未来几年与我们同在。AI用户还需要预料到错误的答案,并准备好检查AI产生的几乎所有输出。这通常被称为批判性思维,但它更像是法律发现的过程:对所有可能证据的详尽搜索。用户还需要知道如何为AI系统创建prompt,从而生成有用的答案。
最后,聚焦业务
那么底线是什么呢?企业如何从AI中受益?超过一半(54%)的受访者预计他们的企业将从生产力的提高中受益。21%的人预计收入会增加,这可能确实是生产率提高的结果。加起来,这是四分之三的受访者。另有9%的人表示,他们的公司将受益于更好的计划和预测。
只有4%的人认为主要的好处是减少人员数量。长期以来,我们一直认为AI会让你失去工作的恐惧被夸大了。虽然由于一些工作被淘汰,短期内会出现一些混乱,但AI也会创造新的工作岗位——几乎所有重要的新技术,包括计算本身,都是如此。大多数工作都依赖于大量的个人技能,而生成式AI只能替代其中的一小部分。大多数员工也愿意使用工具,使他们的工作更容易,提高生产力的过程中。我们不相信AI会取代人类,我们的受访者也不相信。另一方面,员工需要接受培训,以便有效地使用人工智能驱动的工具,而雇主有责任提供这种培训。
我们对生成式AI的未来持乐观态度。很难意识到ChatGPT只存在了一年:在这么短的时间里,科技世界发生了如此大的变化。我们从未见过一项新技术如此迅速地引起如此多的关注:个人电脑、互联网、网络都不是。如果对生成式AI的投资不成功,我们当然有可能滑入另一个AI冬天。肯定有一些问题需要解决——正确性、公平性、偏见和安全性是其中最大的问题——一些早期采用者会忽视这些危险,并承受后果。另一方面,我们认为,担心一个通用AI决定人类是不必要的,要么是那些读了太多科幻小说的人的痛苦,要么是一种鼓励监管的策略,这让现有的现有企业比初创企业更有优势。
现在是时候开始学习生成式AI,思考它如何改善你公司的业务,并规划战略。我们不能告诉你该怎么做;开发人员正在将AI推向商业的几乎每一个方面。但企业需要投资培训,包括软件开发人员和AI用户,他们需要投资开发和运行应用程序所需的资源,无论是在云端还是在他们自己的数据中心,他们需要创造性地思考如何让AI发挥作用,并意识到答案可能不是他们所期望的。
AI不会取代人类,但利用AI的公司将取代不利用人工智能的公司。
脚注
- Meta取消了Llama2的奇怪大写。在本报告中,我们一般使用Llama来指代LLaMA模型:Llama、Llama 2和Llama n,如果将来有版本的话。尽管大写有所变化,但我们使用Claude指代最初的Claude和Claude 2,而Bard指代谷歌的Bard模型及其后继模型。
- 许多文章引用Gartner的话说,AI项目的失败率为85%。我们还没有找到源头,但在2018年,Gartner写道 85%的AI项目“产生了错误的结果”。这与失败不一样,2018年明显早于生成AI。生成式AI当然容易产生“错误的结果”,我们怀疑失败率很高。85%可能是一个合理的估计。
附录
方法和统计口径
这项调查从2023年9月14日持续到9月27日。它通过O ‘Reilly的学习平台向我们所有的用户,包括企业和个人发布。共收到4782份反馈,其中2857份回答了全部问题。正如我们通常做的那样,我们消除了不完整的回答(在问题进行到一半时退出的用户)。那些表示没有使用生成式AI的受访者被问及最后一个问题,即他们为什么没有使用它,并被认为是完整的。
任何调查都只能给出部分情况,考虑偏见是非常重要的。到目前为止,最大的偏见是O ‘Reilly的观众的性质,主要是北美和欧洲。42%的受访者来自北美,32%来自欧洲,21%来自亚太地区。来自南美或非洲的受访者相对较少,尽管我们知道AI在这些大陆的应用非常有趣。
使用我们平台最多的行业也扭曲了这些反应。在完成调查的所有受访者中,有34%来自软件行业,另有11%从事计算机硬件工作,两者加起来几乎占了受访者的一半。14%的人从事金融服务,这是我们平台拥有众多用户的另一个领域。5%的受访者来自电信行业,5%来自公共部门和政府,4.4%来自医疗保健行业,3.7%来自教育行业。这些仍然是健康的数字:每组都有超过100名受访者。剩下的22%代表其他行业,从采矿业(0.1%)、建筑业(0.2%)到制造业(2.6%)。
如果你只看雇主使用AI的受访者,而不是所有完成调查的受访者,这些百分比变化很小。这表明AI的使用并不依赖于特定的行业;不同行业之间的差异反映了O ‘Reilly的用户群。