迷人又危险，谁来为大模型设好“紧箍咒”？

(相关资料图)

“随着以大模型为核心的AI技术快速发展，一些新的事件不断发生，我们做人工智能AI就好像生活在一个早期的黑暗丛林里面，到处都是风险，但是我们又不看清安全的全貌，只能逐步进行探索。”9月7日开幕的2023 INCLUSION·外滩大会上，中国科学院院士何积丰抛出了对大模型时代的安全问题的思考。

大模型进入我们的视野不到一年，但关于大模式时代的安全问题已经引发了不少忧虑。一个好的技术才刚刚走入我们的生活，为何就有如此多的安全问题？AI的安全问题和我们已知的互联网生产安全问题又有什么差别？何积丰认为，以大模型为核心的AI技术是人工智能发展中的一个拐点，大模型是真正像人的智能，有自主学习能力，进化速度非常快，经过多代迭代升级以后我们最终可能会有一个在多方面超过人类智能的超级智能。

在这样一个迷人又危险的大模型发展未来图景面前，人们不得不思考一个问题：一旦“奇点”到来，人类怎么去应对这超过我们的智能，我们是不是有能力来管理这个智能？

还有一个问题是，当大模型技术深入到社会生产生活的各个方面，用户对大模型越来越依赖和信任后，一旦大模型出现了问题，它的不精确或是错误部分也可能产生极大的影响。

机器学习泰斗，美国科学院、美国工程院院士迈克尔·乔丹也以AlphaFold预测蛋白质结果产生系统性偏差后可能带来的许多问题，指出了人类需要应对人工智能系统的“不确定性”。他表示，一个小的系统性偏差可能对研究结果带来极大的影响，但机器对它的预测是非常自信的，即便这个预测完全错误。

目前，大模型的发展有哪些安全问题需要重点关注？何积丰认为，主要是隐私和“对齐”的问题。隐私问题是指大模型可能在未经同意的情况下，收集、使用和泄露个人信息。大模型的训练过程中，可能涉及大量用户的个人信息和数据，在使用过程中，大模型也非常有能力嗅出用户的各种私密信息，这些信息有没有得到应有的保护，如何既保护用户隐私又不失去为用户服务的可能，是业界需要思考的问题。

同时，何积丰也提出了发展大模型“对齐”技术的重要性。他认为人类需要使大模型系统的目标和人类价值观一致，使其符合设计者的利益和预期，不会产生意外的有害后果。“如果把人工智能看作西游记里的孙悟空，那么对齐技术就像是唐僧口中的紧箍咒，可以保证孙悟空不任意使用他的能力去闯祸。”何积丰表示，对齐技术是控制人工智能安全的核心技术。

在实现“对齐”的技术途径中，何积丰重点介绍了反馈强化学习，主要通过人工反馈给模型不同的奖励信号，引导模型的高质量输出和事先给大模型提供明确的原则，系统自动训练模型对所有生成的输出结果提供初始排序两种方式进行。

在AI的安全讨论如火如荼进行的同时，何积丰同时强调，目前的AI安全工作还是集中在发现问题，还没有一个解决全部问题的答案。

尽管期待着对齐技术能够发挥“紧箍咒”般的魔力，但一个现实的问题是，对齐的基础建立在多元且动态变化的“人类价值观”上，而人类的价值与判定系统本身便充满了偏见和盲点，有非常多互相矛盾的地方和没有明确指出的潜在条件，这导致对齐成为一项令人眼花缭乱的跨学科研究。何积丰表示：“对齐不仅仅在考验我们的技术，也在审视我们的文化。”

关键词：