DeepMind:人工智能是如何学坏的
发布时间:2017-02-17?
很难想象,达到人类等级的人工智能会如何造福人类,同样也难以想象不恰当地使用它,会酿成什么样的恶果。
AI有做坏事的本领,在空战模拟器上,阿尔法人工智能程序在与美国空军退休上校吉恩?李的较量中,获得完胜。此类例子已经不胜枚举。
所以,如何使用机器人是个大问题。即便你为机器人设定了一个目的纯良的任务,但机器人在实现目标的过程中,如何选择实现路径仍然是个问题,它会不会为达目的而不择手段呢?
因此,为考验AI在两难境地下如何做出策略选择,谷歌的DeepMind 团队进行了针对性实验,实验中的两款游戏都是以博弈论的囚徒困境理论为基础开发的。
囚徒困境是指两个共谋犯罪的人被关入监狱,不能互相沟通。如果两个人都不揭发对方,则由于证据不确定,每个人坐牢一年;若一人揭发,而另一人沉默,揭发者立即获释,沉默者入狱五年;若互相揭发,则因证据确实,二人都判刑两年。由于囚徒无法信任对方,因此倾向于互相揭发,而不是同守沉默。这一经典理论说明了即便合作对双方都有利,但合作仍然是困难的。
DeepMind为此设计的第一款游戏名为"采集"。他们将一个以"收集水果"为目的的电脑游戏运行了4000万次,并要求两个AI互相竞争,看谁能收集更多的虚拟苹果。他们发现,在有足够的苹果时AI还相安无事,但随着苹果减少,两个AI就有攻击性了。为了将对手踢出游戏,独吞所有苹果,它们开始使用激光束来攻击对手。有趣的是,AI用激光束攻击对手获得成功的行为并不能直接获得奖励。它只是让对手在游戏中消失一会儿,以便自己可以收集更多的苹果。如果两方AI都不使用激光束,理论上他们可以平分所有的苹果。这是"没那么聪明"的旧版本AI所作的选择。随着谷歌团队测试形式的愈加复杂,DeepMind也变得更贪婪、更具侵略性和攻击性。"在苹果相对丰富的环境中,彼此攻击的代价更大,因此AI会采用更温和的策略。在苹果较少时,AI击败对手独吞苹果的贪婪欲望就出现了。"
第二个游戏叫作"狼群"。这一次,有三个人工智能参与——它们中的两个扮演狼,另一个扮演猎物。和前一个游戏不同的是,这个游戏鼓励合作。如果猎物被捕获时,两只狼在都在猎物旁边,他们都会得到奖励——不论哪一只抓获了猎物。"这是捕猎有风险性的观点——一只独狼可以战胜猎物,但可能会因食腐动物的抢夺而丢掉这份战利品",该团队在他们博客的文章中解释道。"然而,当两只狼一同捕猎时,它们可以更好地对抗食腐动物,保护手中保护猎物,因此得到更高的回报。"
因此,在第一个游戏中,AI认识到侵略和自私可以获得最有利自己的结果;从"狼群"游戏中,它们也学习到,有时合作会对自己更有利。
通过以上实验,也让我们得出一个结论:AI 会根据自己所处的环境进行抉择。"在现实生活中,无论是合作还是相互攻讦,都是复杂的行为。因此AI 需要掌握执行一系列动作的先后顺序。"DeepMind 团队在博客中写道。"我们将这一全新设定看作连续的社会困境,并利用深层强化学习训练的AI对其进行研究。"我们应考虑到,虽然这些只是简单的、信息明确的电脑游戏,但在现实情况下,这些职责不同、利益冲突、相互竞争的人工智能系统,如果不能将各自的目标统合于人类利益高于一切的最高目标之下,后果将是灾难性的。
设想一下,交通信号灯的目的是让汽车减下速来,无人驾驶汽车的目标是找到速度最快的路线。但在二者合力下,想要保证安全和有效的交通,它们需要考虑彼此的目的才行。
DeepMind 的研究团队表示:"这样的模型能够让我们在模拟系统中测试策略和干预措施。"如果一切顺利,未来人类对复杂的、多因素系统,如经济、交通或生态都能有深刻的把握。
参考文章:LEARNING TO PROTECT COMMUNICATIONS WITH ADVERSARIAL NEURAL CRYPTOGRAPHY
参考论文:Multi-agent Reinforcement Learning in Sequential Social Dilemmas
来源:澎湃社、谷歌博客