罗素：大模型只是AGI的一块孤立拼图，还有拼图没找到

“人工智能就像是一块来自未来的巨大磁铁在牵引我们前进，如何确保自己不会被超越人类的智能所控制？”6月10日，美国加州大学伯克利分校计算机科学教授、人类兼容人工智能中心（Center for Human-Compatible AI）主任斯图尔特·罗素（Stuart Russell）在2023北京智源大会上发表演讲称，人工智能系统的设计必须遵循两个原则。首先，AI的行为必须符合人类的最大利益；第二，AI自己不应该知道这些利益是什么。

在对话环节，罗素与图灵奖得主、中国科学院院士姚期智共同探讨了人工智能的长期未来及其与人类的关系，罗素引用中国古代哲学家孟子“博爱”的观点，“未来，当人工智能系统在代表社会做出决策时，应当合理地考虑到每个人的利益。”

【资料图】

罗素与他人合著的《人工智能：一种现代的方法》被誉为人工智能领域最受欢迎的教科书，被135个国家的1500多所大学采用。2022年，国际人工智能联合会议（IJCAI）授予罗素卓越研究奖，他此前已获得IJCAI计算机与思想奖，由此成为世界上第二个能够同时获得两项IJCAI主要奖项的科学家。

通用人工智能还很遥远

在北京大会现场，罗素在题为《AI: Some Thoughts?（一些关于AI的思考）》的演讲中对通用人工智能（AGI）做出了定义：通用人工智能是指在大多数经济有价值的任务上超越人类能力的人工智能系统。这种人工智能系统可以比人类更好更快地学习和执行任何任务，包括人类无法处理的任务，并且由于机器在速度、内存、通信和带宽方面的巨大优势，未来，通用人工智能在几乎所有领域都将远远超过人类的能力。

那么，人类距离通用人工智能还有多远的距离呢？罗素表示，我们离通用人工智能还很遥远。“事实上，仍然存在许多尚未解决的重大问题。”

罗素在演讲中指出，ChatGPT和GPT-4并不理解世界，也没有在“回答”问题，“如果说通用人工智能是一件完整的拼图，大语言模型仅仅只是其中的一块，但我们并不真正了解如何将它与拼图的其他部分连接起来，以真正实现通用人工智能。”他说，“我相信甚至还有部分缺失的拼图没有被找到。”

罗素认为，目前的人工智能系统存在一个根本性的弱点，即它们使用电路来生成输出。“我们正试图从电路中获得高度智能的行为，而电路本身是一种相当有限的计算形式。”他认为，电路无法准确地表达和理解一些基本的概念，这意味着这些系统需要大量的训练数据来学习一些可以用简单的程序定义的函数。他认为，未来人工智能的发展方向应该是使用基于明确的知识表征的技术。

“抛开技术问题不谈，如果我们确实创造了通用人工智能。接下来会发生什么？”罗素引用现代计算机科学奠基人艾伦·图灵的话说，“机器思维方法一旦开始，用不了多久就会超越我们微弱的力量，这似乎很可怕。”

“我们如何永远确保自己不会被人工智能所控制？这是我们面临的问题——如果找不到这个问题的答案，那么我认为别无选择，只能停止开发通用人工智能。”罗素表示。

今年3月，罗素曾与特斯拉CEO埃隆·马斯克、“AI教父”杰弗里·辛顿（Geoffrey Hinton）等上千人签署公开信，呼吁暂停训练比GPT-4更强大的AI系统至少六个月。

罗素在会上强调，解决问题的答案是有的。人工智能系统的设计必须遵循两个原则。首先，AI的行为必须符合人类的最大利益；第二，AI自己不应该知道这些利益是什么。因此，它们不确定人类的偏好和未来，这种不确定性会给人类控制权。

罗素称，人们需要改变观念，不要追求“机器必须是智能的”，而要注重机器的“有益性”，使之符合人类的根本利益。“外星人是非常智能的，但我们并不一定希望它们来到地球。”

AI与孟子的博爱思想

在对话环节中，罗素与姚期智进行了一场深刻而富有洞见的讨论。

在被姚期智问及人工智能与人类关系的长期未来时，罗素表示，人类利用AI满足自身利益，从而导致AI不可控的现象源于功利主义，“功利主义是人类进步的一个重要步骤，但也导致了一些问题。”例如，当一个决定会影响到多少人的实际存在时，如何做出决策？人们想要一个不太幸福的大群体还是一个很幸福的小群体？“对于这类问题，我们没有很好的答案，但我们需要回答这些道德哲学的核心问题，因为人工智能系统将拥有强大的力量，而我们最好确保它们以正确的方式使用这种力量。”

罗素与图灵奖得主、中国科学院院士姚期智（右）共同探讨了人工智能的长期未来及其与人类的关系。

罗素在回答中引用了中国古代哲学家孟子的观点，“孟子在中国谈到了博爱的概念，意思是在做道德决定时，每个人的利益都应该被考虑在内。而每个人的偏好都应该被平等对待。”他相信有一种基于复杂形式的偏好功利主义（preference utilitarianism）的方法，可以使人工智能系统在代表社会做出决策时，能合理地考虑到每个人的利益。

罗素问，当有一个人和许多机器时，如何确保这些机器相互协作来帮助人类？当许多人有许多机器时，这就涉及到道德哲学的基本问题。他认为，AI系统应该被设计为代表全人类工作。“如果你想让AI系统顺应个人的愿望，那么你必须证明该AI系统的行动范围被限制在个人关注的范围内，它不能通过追求个人利益来伤害其他个人，因为它并不关心其他个人。因此，我认为默认情况应该是，人工智能系统是代表人类工作的。”

此外，在讨论中，罗素提到了经济学术语“位置性商品”，“位置性商品”指的是人们重视的并非物品本身，而是它们隐含了优于其他人的意义。“为什么诺贝尔奖是有价值的？因为别人都没有，这证明你比世界上几乎所有人都聪明。”他说。

“位置性商品的性质是，在某种意义上存在零和游戏。简单地说，不是每个人都能进入前1%的行列。因此，如果你从成为1%的人中获得个人价值、自豪感和自尊心，我们就不能把这种自豪感和自尊心给所有人。”罗素说。

那么，AI系统在代表社会做决定时，是否应该考虑到位置性商品？“如果我们说不应该，那就会造成社会运行方式的巨大变化。这是一个更加困难的问题。我认为社会中的许多内部摩擦实际上是由这些位置性商品引起的，这些商品根本不可能由每个人实现。”

像社交媒体算法一样危险

姚期智问道，未来是否有可能制定一个“白名单”，允许人工智能系统被用来做有利于人类福祉的事，例如，使用人工智能方法来设计药物和解决癌症问题。

罗素表示，纳米技术的创始人之一金·埃里克·德雷克斯勒（K. Eric Drexler）在过去几年里一直致力于人工智能安全，他提出了全面人工智能服务（Comprehensive AI services，CAIS），即建立人工智能系统不是为了通用目标，而是为了解决特定、狭窄的问题，比如蛋白质折叠、交通预测等。比起通用人工智能，这些系统带来的大规模风险相对较小。

罗素称，“在短期内这是一个合理的方法”，但是，“我不认为了解人工智能安全的唯一途径，是在现实世界中部署一个系统的数亿个副本，然后观察结果。”他表示，人类不会对疫苗这么做，“我们在部署疫苗之前必须先测试它，因为我们将把它注射到数亿人身上。”

因此，目前还需要更多的工作来确保人们使用这些系统的安全性。罗素指出，人工智能系统可能会通过对话来改变数亿人的观点和情绪。OpenAI等科技公司应该停止在不告知的情况下向数亿人发布新的人工智能系统，这些系统可能会通过对话来操纵和影响人类的思想和行为，导致一些灾难性的后果，例如核战争或气候灾难。“如果你能与数亿人对话，你就能说服这数亿人对其他国家不那么友好，也能说服人们不那么关心气候变化。”

罗素说，“这种情况类似于社交媒体算法，我们甚至没有意识到它正在改变公共话语、情绪，以及我们如何看待他人和未来，这是非常危险的。”“从系统来看，有一些我们没有办法检测到的内部目标，导致AI把我们推向这个方向。”

那么，如何保证人工智能技术的安全性和可控性？

“如果AI这项技术与核武器一样强大或更强大，我们可能需要以类似的方式管理它。”罗素称，“在核武器技术发明之前，曾有物理学家认为，我们需要有一个治理结构，以确保技术只用于人类利益，而不是以武器的形式使用。不幸的是，物理学界和政府都没有听取他们的意见。”他强调，AI这项技术与核武器、航空技术一样强大，各个国家应该努力尽快开展这种AI安全方面的合作。

罗素认为，保证发挥AI的潜在好处需要全面变革，不能仅仅靠监管和确立严格的规则及安全标准，还需要整个AI领域的文化转变。

他给出了建议：首先，要建立人类能够理解的AI系统。“我们不了解大型语言模型以及它们如何工作。我们需要有这种理解，以便对安全有信心。人类构建AI系统的技术，不应该依赖大量的数据训练和内部结构未知的黑箱。”

此外，要阻止不安全的人工智能系统被部署，特别是被恶意行为者使用，“需要改变整个数字生态系统，从计算机的运行模式入手，即计算机不会运行它所认为的不安全的软件。”

罗素在讨论最后总结道，人工智能是一门科学，因此在使用它之前，需要了解它的内部结构和工作原理。“就像我们制造飞机一样，我们可以根据飞机的物理形状和发动机等来说明它们是如何保持在空中的。”他表示，“目前，特别是在大型语言模型领域，人工智能还没有达到这样的水平。我们不知道它们是如何产生这些特性的。事实上，我们甚至不知道它们具有什么特性，所以不能将这些现象与它们内部的工作原理联系起来。”因此，人工智能是一门需要继续深入探索的科学。