胡泳：“万模大战”下的冷思考：大型语言模型和人工智能的未来

1、大型语言模型成新宠

由于ChatGPT爆火的缘故，大型语言模型（LLM，Large Language Model）集万千宠爱于一身。但它们是什么呢？

简单地说，LLMs是一种计算机系统，被设计用来学习文本语料库的统计属性，以生成模仿原始文本的风格和内容的新文本。换句话说，LLMs能够生成现实而较为准确的新文本，看起来像是由一个真实的人写的。

LLMs的核心基于一种强大的机器学习技术，即深度学习。深度学习是人工智能的一个子集，能够自动学习数据中的复杂模式。深度学习算法的灵感来自于大脑从经验中学习的能力，它们通常使用神经网络来实现——计算系统的结构与大脑非常相似。事实上，如果不使用先进的水印策略，就不可能准确区分由人类头脑所写的文本和由高度可并行的人工神经网络所产生的文本，后者的神经连接数要少得多。

传统机器学习算法和深度学习算法之间的一个关键区别是，深度学习算法可以扩展到更大的数据集，它们可以从非结构化或未标记的数据中学习。这使得它们非常适合于自然语言处理（NLP, natural language processing）等任务，这也是LLMs的用途。它现在被认为是人工智能的前沿，因其有可能执行需要创造力、推理和理解自然语言的任务。

LLM于2017年在谷歌大脑（Google Brain）开始使用，研究人员推出了transformer（转换器）架构，它是自然语言处理中使用的一个基于深度学习模型的神经网络，训练可以实现并行化，这为训练真正的大模型首次提供了机会。

此后，大型语言和文本-图像模型在领先的技术公司中激增，包括谷歌（BERT、GLaM、LaMDA、Chinchilla、PaLM）、Facebook（OPT-175B、Galactica、BlenderBot、LLaMA）、英伟达和微软（Megatron-Turing），当然还有OpenAI，微软是主要的投资者（GPT-3/4用于文本，DALL-E2用于图像，Whisper用于语音）。在线社区，如Midjourney，以及HuggingFace等开源供应商，也创造了生成模型。

新的玩家还在不断进场。2023年3月，彭博社推出BloombergGPT，系根据专有来源的金融数据训练的LLM，“在金融任务上比现有的模型有明显的优势，而不影响一般LLM的基准性能”。彭博社计划将其整合到通过终端软件提供的功能中。4月，资助开发“稳定扩散”（Stable Diffusion）等开源生成式人工智能模型的Stability AI宣布推出其StableLM语言模型套件。在为多个领域（包括图像、音频、视频、3D和生物学）开发模型之后，这是该开发商首次跳入目前由技术大腕主导的语言模型游戏。

同在4月，亚马逊在AWS中推出Bedrock服务，在一个平台上提供多种生成式人工智能模型。例如，Stability AI的Stable Diffusion图像生成器，可以将文本变成图像；AI21实验室的Jurassic-2模型是一个多语言LLM，可以生成德语、西班牙语、法语、葡萄牙语、荷兰语和意大利语文本。Anthropic的Claude是一个ChatGPT的对手，可以自动化工作流程，回答问题，并与用户进行交流。与微软和Alphabet相比，亚马逊可能看起来姗姗来迟，但它的打法相当精明。通过Bedrock，亚马逊不只是提供对上述第三方平台的访问，也提供对其专有的大型语言模型Titan的访问，这可能使亚马逊变成那些希望使用LLMs并根据其需求构建应用程序的企业的首选平台。

时至今日，除了苹果之外，美国每家主要科技公司都宣布了自己的LLM。中国的科技公司当然亦不甘落后：2023年3月，百度推出文心一言并在官宣后为新浪财经、澎湃新闻、爱奇艺、美的集团、东风日产等一系列企业提供接入服务；2022年，阿里达摩院发布通义大模型，并在2023年4月正式推出通义千问；再加上2022年腾讯对外披露的混元大模型和2021年华为发布的盘古大模型等等，不一而足，人称“万模大战”。

LLMs对大型科技公司很重要，因为它们可以实现新的产品和服务，从而吸引更多的用户，产生更多的收入，并创造更多的价值。例如，LLMs可用于改进搜索引擎、社交网络、云计算、数字助理、电子商务、游戏、教育、医疗保健等。此外，科技公司可以用LLMs来改进企业的现有产品线，生成式模型的重要价值之一是它们与生产力应用程序的整合。例如，微软在企业Office套件市场中有明显的优势，正在将生成式模型整合到Word、Outlook和Teams等应用程序中。中国科技巨头阿里巴巴在生成式人工智能方面的最新努力，在某种程度上让人联想到微软，即通过让人们用自然语言来描述他们想要建立的东西，令使用各种应用程序变得更容易。阿里巴巴宣布，通义千问将被整合到公司的各项业务中，以改善用户体验，客户和开发人员可以通过利用该模型创建定制的人工智能功能。

2、人工智能为什么非得是大模型？

就这样，大型通用人工智能模型被业界宣传为“基础性的”，是该领域科学进步的主要转折点。这类叙述分散了“规模病症”的注意力，这些病症每天都变得更加根深蒂固：大规模的人工智能模型主要由大科技公司控制，因为它们需要巨大的计算和数据资源，并且还引发了围绕歧视、隐私和安全漏洞以及负面环境影响等多方面的担忧。

例如，GPT-3最初是在45TB的数据上训练的，并采用了1750亿个参数来进行预测；GPT-3的一次训练就花费了1200万美元。另据报道，ChatGPT每天给OpenAI带来70万美元的成本。大多数公司没有数据中心能力或云计算预算来从头开始训练这类模型，包括许多现成的、预训练的人工智能模型，作为云人工智能服务的一部分提供，而此市场本已集中在大科技公司手中，如AWS（亚马逊）、GCP（谷歌云平台）和Azure（微软）。这些云供应商每年总共花费超过1000亿美元的资本支出，确保拥有最全面、最可靠和最具成本竞争力的平台。特别是在生成式人工智能方面，它们也受益于供应限制，因为它们可以优先获得稀缺的硬件（如Nvidia A100和H100 GPU）。

大科技公司可能会保持先发优势，因为它们有时间和市场经验来磨练基础语言模型，并发展宝贵的内部专业知识。因此，较小的企业或初创公司可能难以成功进入这一领域，从而使得LLM的巨大处理能力集中在少数几家大科技公司手中。

2021年，埃米莉·本德（Emily M. Bender）博士、蒂姆尼特·盖布鲁（Timnit Gebru）博士、安吉丽娜·麦克米兰-梅杰（Angelina McMillan-Major）和玛格丽特·米切尔（Margaret Mitchell）博士在一篇题为《论随机鹦鹉的危险》的论文中对LLM的潜在成本和危害提出警告，这篇论文导致谷歌将盖布鲁和米切尔从人工智能伦理团队的共同领导位置上赶走。

该论文在确定困扰LLM的规模病症方面有先见之明。当公众讨论被围绕着ChatGPT和其他LLMs的令人窒息的炒作所吞噬，这项研究提出了清醒的警告：我们需要讨论社会是否应该建立这类技术，而不是如何建立，更不是不加批判地将其作为进步的同义词而加以全盘接受。本德等人问道：“越来越大的语言模型是不可避免的还是必须的？这一研究方向有什么成本，我们在追求它之前应该考虑什么？”

择其要者，大型语言模型可见的成本就有：

● 环境和财务成本。

LLMs的训练需要大量的能源，并产生大量的二氧化碳排放。环境问题与种族问题的交汇，意味着被边缘化的人和来自多数世界/全球南方的人更有可能体验到能源消耗和二氧化碳排放增加所带来的伤害，尽管他们也是最不可能体验到这种模型的好处的一群。此外，进入和训练这些模型的成本很高，这意味着只有一小部分全球精英能够发展并受益于LLMs。所以，环境和财务成本应该成为自然语言处理研究中的首要考虑因素。

● 不负责任的训练数据。

使用大量未经整理的训练数据集有可能创造出巩固主导性、霸权性观点的语言模型。这些训练数据集的庞大规模并不能保证多样性，因为它们往往是从网站上刮来的，而这些网站由于互联网接入不足、代表性不足、过滤或骚扰等问题而排除了边缘化人群的声音。这些数据集有“价值锁定”的风险，或将有害的偏见编码到难以彻底审计的语言模型中。

如果模型是在过滤有限的大量互联网数据上训练出来的，它们就会吸收事实和错误信息，有偏见的内容和公平的内容，有害的材料和无害的材料。如果没有办法在回答提示之前评估这些标准，LLMs就有可能陷入复制、放大和传播有问题的内容和错误信息的危险。

● 随机鹦鹉的诞生。

本德等人进一步警告说，对语言模型的追求可能是一个误导性的研究方向。她们观察到，语言模型就好比“随机鹦鹉”（stochastic parrot），“根据关于如何组合的概率信息，胡乱地将它在庞大的训练数据中观察到的语言形式序列[缝合]在一起，但没有任何对意义的参考”。

最终，我们需要问自己，为什么要把人工智能的未来全部押注在大型语言模型一条路上？纽约大学教授兼Meta首席AI科学家杨乐昆（Yann LeCun）就认为LLM是“一个下坡路”，远离了通往更强大的AI的道路。“大型语言模型能有多聪明，能有多准确，都是有限度的，因为它们没有现实世界的经验，而这确实是语言的基本现实。”他指出，人类所学的大部分内容都与语言无关。“我们学习如何投掷篮球，让它穿过篮圈”，深度学习的另一位先驱者杰弗里·辛顿（Geoffrey Hinton）说。“我们根本不使用语言来学习。我们从试验和错误中学习。”

就算语言是发展人工智能的重要途径，事情也很明显：无论 LLMs及其训练数据集变得多么庞大，它们也永远无法像我们一样学习和理解我们的语言。吊诡的是，语言模型的限制导致了一种研究趋势，即专注于研究这类模型的知识和行为。换言之，人类正在学习 LLMs 的语言，并寻找更好地与它们沟通的方法。

这是因为，语言模型是神经网络，根据从网络收集的数据进行训练。经过训练后，模型可以接收提示并预测其后的单词。神经网络越大，模型的学习能力就越强。数据集越大，模型接触不同单词序列的机会就越大，生成文本时就越准确。

可问题是，人类语言不仅仅是文本。事实上，语言是一种将信息从一个大脑传输到另一个大脑的压缩方式。我们的谈话经常忽略共享知识，例如视觉和听觉信息、世界的物理体验、过去的谈话、我们对人和物体行为的理解、社会结构和规范等等。

正如杨乐昆和纽约大学计算机科学系博士后雅各布·布朗宁（Jacob Browning）在最近的一篇文章中所写到的，“仅靠语言训练的系统永远不会接近人类智力，即使从现在开始训练直到宇宙热寂”。但两位科学家也指出，如果我们停留在表面上，语言模型“无疑会接近[人类智能]。而且，在许多情况下，表面就足够了”。

3、大型语言模型的三大发展方向

像LLMs这样的大规模人工智能模型，在过去一段时间里中受到了最多的炒作，也带来了最大的恐惧。围绕这些系统的兴奋和焦虑都有助于强化如下概念，即这些模型是“基础性的”，尽管它们无法对人类提示作出有意义的回应的例子数不胜数。值得注意的是，这些模型之所以作为“基础性”的技术而引入，意在将它们等同于无可置疑的科学进步，成为“通用人工智能”（这是另一个模糊的术语，让人联想起科幻小说中关于取代或超越人类智能的概念）道路上的踏脚石，从而使其广泛采用成为必然。

在最近的一次采访中，OpenAI首席执行官山姆·阿尔特曼（Sam Altman）说：“我认为我们正处于时代的尽头，那里将会是这些巨大的模型，我们将以其他方式让它们变得更好。”这些“其他方式”是什么？一个可能的途径是在更多的高质量数据上对模型进行微调，创造更好的训练技术。人工管策的数据集可能是非常有价值的，但创建成本高，速度慢。

正因如此，我来斗胆预测一下大型语言模型的三大发展方向：

第一，我们需要致力于教会语言模型表达不确定性。

在大多数情况下，人类知道他们知识的局限性（即使他们不直接承认）。他们可以表达不确定和怀疑，并让他们的对话者知道他们对自己所传授的知识有多自信。另一方面，语言模型总是对任何提示都给出现成的答案，即使它们的输出是毫无意义的。神经网络通常提供某个预测正确概率的数值。然而就语言模型而言，这些概率分数并不代表模型对提示响应的可靠性的信心。

OpenAI和牛津大学的研究人员最近发表的一篇论文表明，可以通过教LLMs“用语言表达它们的不确定性”来弥补这一缺点。可以对 LLMs进行微调，以使用自然语言表达认知上的不确定性，研究者将其描述为“语言化概率”（verbalized probability），即用语言表达出来的概率。这是一个重要的发展方向，尤其是在用户希望将语言模型的输出转化为某个动作的应用程序中。研究人员建议，表达不确定性可以令语言模型诚实。“如果一个诚实的模型出现一个误导或恶意的内部状态，那么它可以将这种状态传达给可以采取相应行动的人类。”

第二，与其致力于模型之大，不如专攻特定模型。

鉴于LLMs不理解它们所处理的语言，也不理解所收到的提示和自己的回应，所以补救办法一是靠规模的力量，即训练数据和模型参数的巨大规模，二是靠专业的力量，即在为特定行业或领域（如医疗保健和医学）定制开发更专门的模型的情况下，有针对性地管策训练数据，这将有助于解决LLMs在涉及特定问题时的某些局限性。

想象一下，像ChatGPT这样的LLM已经在最好的医学文献上接受了训练，但训练数据当中也有讨论健康问题的Reddit线程。人工智能有时可以通过检索和参考高质量的信息来回应，但其他时候它通过使用完全不可靠的Reddit信息来回应。事实上，假如医学文献中没有这些信息（例如一种非常罕见的疾病），它更有可能编造这些信息（此即人工智能行业常说的幻觉）。

所以我们需要通过使用较小和较高质量的数据集为特定的知识领域进行训练。例如，拥有数十亿参数的大型临床语言模型可以利用电子健康记录中的非结构化文本帮助提取医学概念和回答医学问题，预测疾病或再入院风险，并总结临床文本。而一个专门为法律行业设计的模型可以接受法律术语和行话的训练，使其更好地处理法律文件。

第三，高质量的数据将成为LLM称霸的新战场。

限制LLM持续改进的最重要限制是可用的训练数据量。《经济学人》报道说，2022 年 10 月发表的一篇论文得出的结论是，“高质量语言数据的存量将很快耗尽，可能在 2026 年之前”。肯定有更多可用的文本，但它们被一小块一小块地锁定在公司数据库或个人设备上，无法以Common Crawl允许的规模和低成本加以访问。这种数据稀缺对LLM的进一步发展提出了挑战。

2023年4月18日，Reddit宣布，它将开始对其API的访问收费。这一决定是在Twitter对其API实施类似限制之后作出的。近年来，Reddit的系列聊天成为谷歌、OpenAI 和微软等公司的免费教具。这些公司使用 Reddit 的对话来帮助开发巨型人工智能系统。然而现在Reddit联合创始人兼首席执行官史蒂夫·赫夫曼（Steve Huffman）称：“我们不需要把所有这些价值免费提供给世界上最大的一些公司。”

随即，Stack Overflow 也宣布将开始对其 API收费。首席执行官普拉桑斯·钱德拉塞卡尔（Prashanth Chandrasekar）表示：“我们非常支持 Reddit 的做法。”“为 LLM 提供动力的社区平台绝对应该因其贡献而得到补偿，这样像我们这样的公司就可以重新注资到社区，让其继续蓬勃发展。”

Reddit和Stack Overflow等平台为微调LLM提供了快速访问具体主题和问题的宝贵数据。而这些平台的所有者正意识到它们所掌握的数据的价值。数据市场日益激烈的竞争可能推动行业走向更少的共享和更多的货币化。

不幸的是，激进的货币化将进一步增强能够负担 API 成本的大型科技公司的能力。另一方面，小型实验室和资金紧张的初创公司将不得不处理手头可用的低质量数据。

胡泳：“万模大战”下的冷思考：大型语言模型和人工智能的未来

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏