您的位置:主页 > 今期管家姿报码彩图 > 玩躲猫猫游戏 AI学会攻防术

玩躲猫猫游戏 AI学会攻防术

发布日期:2019-10-08 10:54   来源:未知   阅读:

  尽管机器学习在诸如围棋和Dota 2等复杂游戏中取得了显著进步,但在这些领域掌握的技能并不一定能推广到真实场景中实际应用。越来越多的研究人员正在寻求建立一种机器智能,使其行为、学习和进化更像人类。

  总部位于旧金山的OpenAI公司近日发表的一篇新论文提出,在儿童的“躲猫猫”游戏中训练模型,并在数以千万计的竞赛中使它们相互对抗,可导致模型自动发展出类似人类的行为,从而提高智力并改善后续行动的性能。

  该论文的第一作者、OpenAI研究员博文·贝克认为,躲猫猫被选为一个有趣的起点,主要是因为其规则很简单。所有游戏中的代理(Agent,也称智能体,指能自主活动的软件或硬件实体)都被模拟为球形对象,可执行3种类型的操作:导航、抓住并移动物体、锁定对象,且只能由该代理的队友解锁。

  研究人员在模拟的、物理接地的环境中放置了1—3个“躲藏者”和1—3个“寻找者”,房间的边界是静态墙。环境中还包括不同尺寸的可移动箱子和可移动坡道。

  研究人员使用强化学习来训练游戏代理,并遵循简单的躲猫猫规则:隐藏者成功躲过寻找者的追逐,或是寻找者成功找到躲藏者。

  在初始阶段,躲藏者(蓝色)和寻找者(红色)通过在空间中移动而不操纵任何物体,制定了非常粗糙的躲避和追逐策略。

  在经历2500万个回合后,游戏变得更加复杂。躲藏者学会了移动和锁定在环境中的箱子和路障,以在自己周围建立堡垒,这样寻找者就永远看不到它们了。不仅如此,他们还制定了协调战略,例如相互传递物体,以加快建造堡垒的进程。

  然而,在游戏进行了7500万回合之后,寻找者发现了一个反策略。他们学会了在躲藏者的要塞旁边移动一个坡道,并用它来爬过墙壁。

  作为回应,躲藏者学会了将坡道移入他们的房间,因此寻找者无法用它来越过墙壁。

  随着环境变得越来越复杂,躲藏者学会了使用细长箱子建造更强大的“堡垒”。虽然OpenAI认为这将是最终的策略,但在游戏进行到3.8亿回合时,寻找者再次成功反击,找出一种方法来跳到一个盒子上并利用动力在它上面“冲浪”,越过墙壁进入堡垒。

  研究人员将这些不同策略的演变称为“来自多智能体自动课程的紧急技能进展”。“自动课程”这一术语是今年由DeepMind创造的,适用于多个代理逐渐创造新任务以在特定环境中相互挑战。OpenAI的研究人员认为,这个过程在自然选择方面具有相似之处。

  鉴于躲猫猫相对简单的目标,通过竞争性自我游戏训练的多个代理学会了使用工具,并采用人类相关技能来获胜。OpenAI认为,这为未来的智能代理开发和部署提供了一个有前景的研究方向。OpenAI正在开源其代码和环境,以鼓励在该领域进一步研究。

  OpenAI的最终目标是构建能够在一个通用系统中执行多项任务的人工通用智能(AGI)。虽然可能会有不同的目标,但OpenAI正在大力投资由大规模计算能力实现的强化学习研究。OpenAI最近与微软签署了一份价值10亿美元的为期10年的计算合同。

  躲猫猫游戏研究也激发了OpenAI,因为随着环境复杂性的增加,游戏中的代理不断地通过新策略自我适应新的挑战。贝克表示:“如果扩展像这样的流程,并将其放入更复杂的环境中,那么你可能会得到足够复杂的代理,以便为我们解决实际任务。”

  游戏代理有时会表现出令人惊讶的行为。例如,躲藏者试图完全逃离游戏区域,直到研究人员对此施加惩罚。

  其他挑战可能归因于模拟环境设计中的物理缺陷。例如,躲藏者了解到,如果他们在拐角处向墙壁推动斜坡,斜坡将由于某种原因穿过墙壁然后消失。这种“作弊”说明了算法的安全性如何在机器学习中发挥关键作用。研究人员说:“在它发生之前,你永远不会知道。这类系统总是存在缺陷。我们所做的基本上是观察,以便我们可以看到这种奇怪的事情发生,然后试着修复物理缺陷。”

  预计今明天(19-20日)冷空气将继续影响我国,自北向南多地最低气温将创今年下半年以来的新低,早晚凉意十足,南方高温范围也将缩减,“秋老虎”消退。中央气象台预计,9月19日08时至20日08时,内蒙古中东部、西藏中东部、西北地区中东部、华北西部、西南地区大部、华...[详细]

  距离今年4月京东宣布调整快递员薪酬结构,取消底薪,增加快递收件任务已过去近半年。”肖师傅表示,在取消底薪后,他们的薪资水平目前变化不大,但薪酬制度中也规定必须每天到站点打卡。[详细]

  晚11点,重庆合川一家便利店店员正在收银。从贫瘠的山乡走进繁华都市,李红们在灯火不眠的大都市里为深夜顾客提供便利,点亮顾客的黑夜。劳动法专家周斌表示,便利店店员流失率高其实是个普遍的社会问题,需要特别注意有没有劳动者侵权问题。[详细]

  “传统冷门学科受到00后追捧,这反映了00后在学业和职业选择上趋向个性化、更加注重以个人学习兴趣为中心。让学生和家长对于每个专业都有一个全方位、多维度的了解,从而在选择专业时更加的得心应手、事半功倍。[详细]

  近日,新加坡法院审理了一起中国籍女护士遭残忍杀害的案件。51岁的马来西亚男子莫顺和对来自中国的张姓女子求爱不成,在得知对方与其他男子交往后竟醋意大发,残忍用毛巾勒死对方。被告莫顺和与比他小19岁的死者张女士在2011年左右,于新加坡滨海湾金沙当餐厅职员时...[详细]

  联合国大会第74届会议开幕 多边主义有助应对全球挑战。联大主席班迪和联合国秘书长古特雷斯在开幕式上共同指出,在当今世界面临多重挑战之际,各国之间却存在着信任赤字,唯有加强多边主义才能够真正解决这些挑战。班迪发表主席致辞表示,本届联大愿景宣言关注的是...[详细]

  【山东手机报订阅:移动/联通/电信用户分别发送短信SD到10658000/8/106597009】

  幼儿园年度大型“哭戏”全面上演: 坐着哭、躺着哭、群哭…萌娃“演技”都是实力派

------分隔线----------------------------