人类地位不保:谷歌计算机开始像人类一样推理!
正在考虑入手的新家附近有多少公园?餐馆里最佳的晚餐-酒搭配是什么?这些日常问题都需要关系推理——一种更高级思考的重要成分,而这却是人工智能(AI)难以掌握的。现在,谷歌DeepMind的研究者提出了一种处理这种推理的简单方法,并在复杂图像理解测试中击败了人类。
人类通常很擅长关系推理,利用逻辑连接和比较位置、顺序和其他实体。但两种主要AI——统计和符号,在发展类似的能力方面一直进展缓慢。统计AI,或者叫机器学习,善于模式识别,但不善于使用逻辑。而符号AI则能利用预定规则推理关系,但不善于学习。
新研究提出了一种缩小差距的方式:进行关系推理的人工神经网络。类似于大脑中神经元的连接方式,神经网络利用小型程序合作发现数据中的模式,针对图像处理、语法分析或者游戏学习有特定的架构。在这种应用中,新的“关系网络”单独比较场景中的每一对目标。论文共同作者、在伦敦的DeepMind计算科学家Timothy Lillicrap说道:“我们明确要求网络发现目标之间存在的关联。”
他和他的团队利用几个任务测试了关系网络。第一个是回答单幅图像内物体之间的关系,比如立方、球形和圆柱的图形。例如:“在这个蓝色的东西前面有个物体,它的形状和那个灰色金属球右边的小型青色物体的形状一样吗?”针对这个任务,关系网络与其他两种神经网络相结合了:一个识别图像中的物体,另一个翻译这个问题。研究者在上周发表在预览商arXiv的论文中称,通过进行众多图像和问题测试,发现其他机器学习方法的正确率大概是42%到77%,人类的正确率则是可敬的92%。而新的关系网络正确率是96%,真是一个超越人类的成绩。
DeepMind团队还利用一个语言任务进行了测试。这个任务中网络将接收到一些陈述,比如“Sandra捡起了那个足球”和“Sandra去办公室了”。随后就会提出一些问题比如:“球在哪里?”(办公室)。该网络在这些问题上的表现和其他类型问题上的一样好,但最大放异彩的是所谓的推理问题:“Lily是一只天鹅。Lily是白色的。Greg是一只天鹅。Greg是什么颜色?”在这些问题上,关系网络正确率为98%,而其竞争者的正确率约为45%。最后,该方法分析了10个到处乱蹦的球体的动画,其中某些球体之间被不可见的弹簧或者棍子连接到一起。单单使用运动模式,该网络就能鉴定出90%多的连接。然后使用相同的训练去鉴定仅利用移动点表示的人类形态。
波士顿大学计算科学家Kate Saenko并未参与该新网络的设计,但最近也合作提出了一种回答关于图像的复杂问题的方法。他说道:“他们方法的一个优点是概念上十分简单。” Lillicrap称其中大部分进步都可以用一个简单的方程来表示,这种简单性使其容易与其他网络相结合,正如在上述物体比较任务中那样。论文将其称为“一个即插即用的模块”,能使系统的其他部分专注于它们擅长的方面。
加利福尼亚帕洛阿尔托的斯坦福大学计算机科学家Justin Johnson合作设计了上述物体比较任务,并且合作提出了一种在该任务上表现良好的方法,他说道:“我深深为此成果而折服。” Saenko补充道,关系网络未来可以帮助研究社交网络,分析监视视频,或者导引交通流中的汽车。
Johnson说道,为了接近类人灵活性,该网络还需要学会回答更多挑战性的问题。做到这一点可能需要不仅仅比较一对事物,而是三个,四个或者更大集合中的某些对。他说道:“我对研究能自己提出新策略的模型很感兴趣。DeepMind正在建立特殊类型推理的模型,而不是追求更一般化的关系推理。但这仍然是正确方向上的重要一步。”