AGI离我们还有多远？大模型不是最终解，世界模型才是未来

在科幻电影中，类似于贾维斯（J.A.R.V.I.S.）一般的 AI 系统，几乎无所不能，是帮助人类解决各种各样难题的终极助手。

它们的背后，是一种人们追求最高级 AI 的追求，而这一概念，被称为通用人工智能（Artificial General Intelligence，AGI）。

AGI的概念可以追溯到20世纪中期，当时许多计算机科学家和 AI 研究人员开始思考如何构建具有人类智能的计算机程序，与狭义 AI（Narrow AI）系统专注于解决特定任务不同，AGI被赋予了更广泛的认知和推理能力，能够在多个领域进行学习、适应和执行任务。

(资料图片仅供参考)

然而，在很长一段时间里，AI 的相关研究主要集中在解决特定问题和任务上，而AGI的实现一直被认为是一个更为复杂和遥远的目标。

近日，花旗银行数据科学副总裁 Valentino Zocca 博士在一篇题为《我们离AGI还有多远？》（How far are we from AGI?）的文章中，就 AGI 和其他有关的重要议题展开了深度分析。核心观点如下：

与目前的狭义人工智能相比，AGI 需要能够在多个认知领域进行推理和学习。然而，实现 AGI 仍然存在许多挑战，如构建世界模型、进行因果推理等。

大型语言模型（如 GPT-4）在解决特定任务和提取因果关系方面表现出色，但缺乏抽象的因果推理能力。它们倾向于从数据中提取已知的因果模式，而无法生成新的因果见解。

一些研究者认为，现有的大型语言模型（如 GPT-4）可能是迈向 AGI 的一步，但仍然存在许多未解决的问题，如创建世界模型、实现自我探究和进行因果演绎等。

大型语言模型善于从数据中识别和提取因果关系，但缺乏自己主动推理新的因果场景的能力。它们具备通过观察进行因果归纳的能力，但不具备因果演绎的能力。

AI 可能无法真正“学习”，而只能提炼信息或经验。AI 不是形成一个全面的世界模型，而是创建了一个概要。

将分数当作能力的标志，AI 就好像只看到了世界的一个粗略概述，而没有真正理解整个世界的本质。

我们不应将智能仅仅视为一种抽象的能力，即找到解决一般问题的方法，而应将其看作是一种具体的能力，即将从先前经验中学习到的解决方案应用于我们所处环境中可能出现的不同情况。

只有当我们能够创造出一个可以怀疑自身现实的系统，进行自我探索，至少能够应用因果演绎来建立一个合理的世界模型时，我们才能真正实现 AGI。

学术头条在不改变原文大意的情况下，做了简单的编译。内容如下：

大约 20 万年前，我们人类开始在地球上行走，同时也在思想和知识的领域中探索。人类历史上的一系列发现和发明塑造了这段历史。其中一部分不仅影响了我们的历史走向，还潜移默化地影响了我们的生物学。例如，火的发现赋予我们祖先烹饪食物的能力，从而将热量转移到大脑的进化上，而非仅用于消化道，这推动了人类智力的进步。

从车轮的发明到蒸汽机的诞生，人类迎来了工业革命。在这段变革的历程中，电力大大催生了我们熟知的技术进步。而印刷术则加速了新思想和新文化的广泛传播，进一步推动了创新的步伐。

然而，人类的进步并不仅仅源于新的物质发现，它还源于新的思想。所谓西方世界的历史，是从罗马帝国灭亡到中世纪，在文艺复兴和启蒙运动期间经历了一次重生，它强调人类思想的中心地位，而不是所谓万能的神灵。然而，随着人类知识的进步，人类这开始认识到自身的渺小。在苏格拉底之后的两千多年里，人类开始“知道自己一无所知”，我们的地球不再被视为宇宙的中心。宇宙本身在扩张，而我们只是其中的一粒微尘。

改变对现实的看法

然而，就重塑我们对世界的认识而言，20 世纪可能是争论最多的一百年。1931 年，哥德尔（Kurt Gödel）发表了不完备定理。

仅仅四年后，爱因斯坦、波多尔斯基（Boris Podolsky）和罗森（Nathan Rosen）以“完备性”为主题，在题为“Can Quantum-Mechanical Description of Physical Reality Be Considered Complete？”的论文中提出了“EPR吊诡”。随后，波尔（Niels Bohr）对这篇论文进行了反驳，他证明了量子物理学的实际有效性。

哥德尔不完备定理表明，即使是数学也无法最终证明一切，我们总会面临一些无法证明的事实存在的情况。而量子理论则认为，我们的世界缺乏确定性，我们无法预测某些事件，如电子的速度和位置，尽管爱因斯坦曾说“上帝不会掷骰子”这一著名的立场。从根本上讲，我们的局限性已经超越了仅仅预测或理解物理领域内事件的范围。即使我们努力构建一个完全由我们所设想的规则支配的数学宇宙，这个抽象的宇宙仍然会存在不可否认的事实。

然而，除了数学陈述之外，我们的世界还充满了描述现实的哲学陈述，我们发现自己无法描述、完全表达、理解甚至只是定义这些现实。

类似于20世纪初“真理”概念的不确定性，其他诸如“艺术”“美”和“生命”等概念的定义同样缺乏根本性的共识。然而，这些并非孤立的案例，“智慧”和“意识”等其他概念同样处于这一困境之中。

智力的定义

为了弥补这一差距，Legg 和 Hutter 于 2017 年在“Universal Intelligence: A Definition of Machine Intelligence”中提出了智能（intelligence）的定义：认为“智能衡量的是一个代理在各种环境中实现目标的能力”。同样，在“Problem-Solving and Intelligence”中，Hambrick、Burgoyne 和 Altmann 认为，解决问题的能力不仅是智能的一个方面或特征，而且是智能的本质。这两种说法在字面上有相似之处，因为实现目标可以与解决问题联系起来。

Gottfredson 在“An Editorial with 52 Signatories”中总结了几位研究者的观点：智能是一种非常普遍的心理能力，包括推理能力、计划能力、解决问题的能力、抽象思维能力、理解复杂思想的能力、快速学习的能力以及从经验中学习的能力。它不仅仅是书本知识、狭隘的学术技能或应试技巧。相反，它反映了一种更广泛、更深层次的理解周围环境的能力。一种“抓住”“理解”事物，或者“构思”应对方法的能力。

这一定义引入了两个关键维度，即从经验中学习和理解周围环境的能力，从而使智能的概念超越了单纯的“解决问题的技能”。换句话说，我们不应将智能仅仅视为一种抽象的能力，即找到解决一般问题的方法，而应将其看作是一种具体的能力，即将从先前经验中学习到的解决方案应用于我们所处环境中可能出现的不同情况。

这突出了智能与学习之间的内在联系。在“How we learn”中，Stanislas Dehaene将学习定义为“学习就是形成一个世界模型”，这意味着智能也需要理解我们周围环境并建立一个内部模型来描述它们的能力。因此，智能同样需要具备创建世界模型的能力，即便这种能力可能并不全面。

当前的机器有多智能？

在讨论通用 AGI 与狭义 AI 时，我们经常会强调它们之间的区别。狭义 AI（或称弱 AI）非常普遍，也很成功，在特定任务上的表现往往能超越人类。一个很好的例子是，2016 年，AlphaGo 以 4 比 1 的比分击败了当时的围棋世界冠军李世石。然而，即便如此，2023 年的一个事件也凸显了狭义 AI 的某些局限性。在围棋比赛中，业余棋手 Kellin Perline 利用 AI 没有发现的战术获胜。可见，AI 缺乏人类识别不常见策略并做出相应调整的能力。

实际上，在最基本的层面上，即使是缺乏经验的数据科学家也能明白，AI 所依赖的每个机器学习模型，甚至包括最简单的模型，都需要在偏差和方差（bias and variance）之间取得平衡。这意味着 AI 需要从数据中学习，以便理解和归纳解决方案，而不是死记硬背。狭义 AI 利用计算机的计算能力和内存容量，可以相对轻松地根据大量观察到的数据生成复杂的模型。然而，一旦条件稍有变化，这些模型往往就无法通用。

这就好比我们根据观测结果提出了一个只在地球上有效的引力理论，然后却发现物体在月球上要轻得多。如果我们在引力理论知识的基础上使用变量而不是数字，我们就会明白如何使用正确的数值快速预测每个行星或卫星上的引力强度。但是，如果我们只使用没有符号的数字方程，那么在不重写这些方程的情况下，我们将无法正确地将这些方程推广到其他天体。

换句话说，AI 可能无法真正“学习”，而只能提炼信息或经验。AI 不是形成一个全面的世界模型，而是创建了一个概要。

我们真的实现了AGI吗？

人们普遍理解的 AGI 定义是，AI 系统能够以人类水平或更高水平在多个认知领域进行理解和推理。这与目前专门从事特定任务的狭义 AI 系统（如 AlphaGo）形成了鲜明对比。AGI 指的是一种 AI 系统，具备全面的、人类水平的智能，能够跨越不同的抽象思维领域。

如前所述，这就要求我们有能力创建一个与经验相一致的世界模型，并允许对预测进行准确的假设。

与大多数 AI 研究人员和权威人士的观点一致，要实现真正的 AGI 还需要几年时间，尽管大家对它何时出现的预测各不相同。在“AGI Safety Literature Review”一文中，Everitt、Lea、Hutter 提到：“我们问了很多研究人员，他们认为 AGI 可能会在 2040-2061 年之间出现，但大家的猜测差异很大，有人觉得可能永远不会出现，也有人觉得未来几年可能就会出现”。总之，可以肯定的是，AGI 还没有出现在我们身边。

微软在最近发表的“Sparks of Artificial General Intelligence: Early experiments with GPT-4”论文中指出：

“我们认为 GPT-4 是新一批 LLMs的一部分，它们比以前的 AI 模型表现出更多的通用智能。我们讨论了这些模型不断提升的能力和影响。我们证明了，除了精通语言之外，GPT-4 还能解决新颖而困难的任务，这些任务涉及数学、编码、视觉、医学、法律、心理学等，而且不需要任何特殊提示。此外，在所有这些任务中，GPT-4 的表现都非常接近人类水平，而且往往远远超过 ChatGPT 等先前的模型。鉴于 GPT-4 的强大能力，我们认为有理由将其视为一个接近（但仍不完整）的通用人工智能（AGI）系统的版本”。

问题是什么？微软是 OpenAI 的合作伙伴。

《纽约时报》的一篇文章援引卡内基梅隆大学教授 Maarten Sap 的话说：“这是其中一些大公司将研究论文格式用于公关宣传的一个例子”。研究人员兼机器人企业家 Rodney Brooks 在接受 IEEE Spectrum 采访时强调，在评估 ChatGPT 等系统的能力时，我们经常“误把性能当能力”。

换个方式来解释，将分数当作能力的标志，AI 就好像只看到了世界的一个粗略概述，而没有真正理解整个世界的本质。

AI 面临一个重要问题，就是它们的训练数据。大多数模型仅在文本基础上进行训练，不具备在现实世界中说话、听觉、嗅觉或生活的能力。正如我之前提出的，这种情况有点像柏拉图的洞穴寓言。在那个故事里，人们只能看到洞穴墙上的影子，无法直接体验真实的世界。即使能够创建一个世界模型，他们的世界也只是一个纯文字的世界，句法上正确，但语义上并不全面。这种环境缺乏直接感知所产生的“常识”，所以显得乏善可陈。

大语言模型有哪些主要局限性？

ChatGPT 或 GPT-4 等大型语言模型（LLMs）面临的另一个最有争议的挑战是，它们容易产生幻觉。所谓幻觉，就是这些模型会编造出一些假的引用和事实，有时甚至是毫无意义的内容。出现幻觉的原因在于，它们缺乏对事件之间原因和结果的理解。

在“Is ChatGPT a Good Causal Reasoner? A Comprehensive Evaluation”一文中，作者得出结论：“ChatGPT 存在严重的因果幻觉问题，它倾向于假设事件之间的因果关系，而不管这些关系是否实际存在”。他们进一步指出：“ChatGPT 不是一个好的因果推理者，而是一个好的因果解释者”，再次强调了它在解释时提炼联系的能力，但却无法通过构建一个现有的世界模型来推断这些联系，而这些联系就自然而然地存在于这个世界模型中。虽然这篇文章的重点是 ChatGPT，但可以扩展到任何 LLMs。

从根本上说，我们可以发现，LLMs 善于从数据中识别和提取因果关系，但缺乏自己主动推理新的因果场景的能力。它们具备通过观察进行因果归纳的能力，但不具备因果演绎的能力。

这种区别凸显了一个局限性，系统可以识别因果模式，但缺乏抽象的因果推理能力。它并不能产生新的因果见解，而只是从数据中解释因果联系。

然而，如果智能需要从经验中学习，而学习又转化为创建一个我们可以用来理解周围环境的世界模型，那么因果演绎就构成了学习的一个基本要素，从而也构成了智能的一个基本要素，而这正是现有模型所缺少的一个方面。这是我们朝着 AGI 前进的关键步骤之一。

结论

正如在20世纪初所展示的那样，实际情况常常与我们日常观察所形成的直觉不同。就像20世纪初的物理学家因为量子力学与人类直觉相悖而难以理解它一样，我们现在构建的 AI 系统也受限于现实的一小部分，甚至比我们人类所能体验到的范围还要窄。

就像我们最终理解了一个与我们日常经验相矛盾的真实世界一样，只有当我们能够创造出一个可以怀疑自身现实的系统，进行自我探索，至少能够应用因果演绎来建立一个合理的世界模型时，我们才能真正实现 AGI。

这一展望可能是人类历史迈向新阶段的一个标志，我们开始逐渐承认，人类在整个宇宙中的重要性正在减少。

原文作者：Valentino Zocca

原文标题：How far are we from AGI?

编译：云婧

关键词：