济南全搜索

济南全搜索

>研究人员认为人工智能可以从动物身上学习常识

研究人员认为人工智能可以从动物身上学习常识

AI研究人员开发强化学习代理可以从动物中学到很多东西。这是根据Google DeepMind,伦敦帝国理工学院和剑桥大学研究人员对AI和非人类动物进行评估的最新分析得出的。

在数十年的发展机器智能的冒险中,AI研究界经常寻求神经科学和行为科学的启发,并更好地理解智能的形成方式。但是,这种努力主要集中在人类的智力上,特别是婴儿和儿童的智力。

研究人员在论文中写道:“在强化学习的环境中尤其如此,由于深度学习的进步,现在有可能直接将比较认知方法带入现实。”“动物认知提供了一个易于理解的,非语言的,聪明的行为的纲要;它提出了评估和基准测试的实验方法;它可以指导环境和任务设计。”

DeepMind引入了一些将深度学习和强化学习相结合的AI的首批形式,例如深度Q网络(DQN)算法,该系统以超人的水平玩过许多Atari游戏。AlphaGo和AlphaZero还使用深度学习和强化学习来训练AI击败人类围棋冠军并取得其他成就。最近,DeepMind生产了可自动生成强化学习算法的AI。

在本月初的Stanford HAI会议上,DeepMind神经科学研究总监Matthew Botvinick敦促机器学习从业者与神经科学家和心理学家进行更多的跨学科研究。

与其他训练AI的方法不同,深度强化学习为代理提供目标和奖励,这与使用食物奖励训练动物的方法类似。先前的动物认知研究已经研究了许多物种,包括狗和熊。认知行为科学家发现动物的智力水平高于先前的假设,包括海豚之间的自我意识和乌鸦的复仇属性。

探索动物认知能力的研究也可能激发AI研究人员以不同的方式看待问题,尤其是在深度强化学习领域。随着研究人员在测试场景和增强学习剂之间划分动物之间的相似性时,测试AI系统的认知能力的观念已经演变。例如,其他形式的AI(例如助手Alexa或Siri)无法在迷宫中搜索包含奖励或食物的盒子。

研究小组发表在《 CellPress评论》上的论文“人工智能与动物常识”引用了鸟类和灵长类动物的认知实验。

论文写道:“理想情况下,我们希望构建的人工智能技术能够将这些相互关联的原理和概念作为一个系统整体加以掌握,并将这种掌握体现在人类层面的概括和创新能力上。”“如何构建这样的人工智能技术仍然是一个悬而未决的问题。但我们提倡一种方法,在这种方法中,RL代理(也许是尚未开发的架构)通过与丰富的虚拟环境进行扩展交互来获得所需的东西。”

当涉及到构建像论文中提到的那样的系统时,挑战包括帮助代理意识到它们存在于一个独立的世界中。训练代理人员掌握常识的概念是另一个障碍,此外还有识别最适合这项任务的环境和挑战类型。

训练特工使用常识的先决条件是使用真实物理的3d模拟世界。它们可以模拟日常用品,比如可以撕开的贝壳,可以拧开的盖子,可以撕开的包装袋。

“这是在今天的物理引擎的技术能力范围内,但是这样丰富和现实的环境还没有大规模部署用于训练RL代理,”这篇论文写道。

研究人员认为,虽然常识不是人类独有的特征,但它取决于一些基本概念,比如理解一个物体是什么,这个物体如何占据空间,以及因果关系。在这些原则中,有一种能力,将一个物体视为一个半永久的东西,可以在一段时间内相当持久。

动物表现出的认知形式包括对物体持久性的理解,以及对容器中奖励的可能性的理解,就像贝壳中的种子。赋予代理这样的常识原则的挑战可以被描述为寻找任务和课程的问题,在正确的架构下,将导致经过训练的代理能够通过适当设计的转移任务。

尽管当代深层RL代理可以非常有效地学习解决多个任务,而且一些架构显示出基本的迁移形式,但目前还不清楚任何RL架构是否能够获得这样一个抽象概念。但假设我们有一个候选代理,我们如何测试它是否获得了容器的概念?”

研究人员认为,训练应该依靠不接触大量实例而需要理解的方法,也被称为少弹或零弹学习。

这项研究是集中在物理常识的一个方面,不占其他表达式的常识,比如心理概念,能够确定不同形式的对象(如液体或气体),或者可以操纵对象的理解(如纸或海绵)。

在最近强化学习的其他发展中,加州大学伯克利分校的Ion Stoica教授在VentureBeat的变革会议上谈到了为什么监督学习比强化学习更常用。斯坦福大学的研究人员还引入了丁香来改善动态环境中的强化学习,佐治亚理工学院的研究人员将NLP和强化学习结合在一起,创造出了在文本冒险游戏中表现出色的人工智能。

责任编辑:JNQSS