我的世界|经过7万小时训练,OpenAI宣布做出了最强的《我的世界》AI

我的世界|经过7万小时训练,OpenAI宣布做出了最强的《我的世界》AI

文章图片




视频是种潜力巨大的培训资源 。

Open AI最近公布了一项他们在人工智能领域的最新成果——最擅长玩《我的世界》的AI 。
厉害到什么程度?无论是建造地堡、金字塔这些复杂的建筑 , 跟游戏里的恶龙战斗 , 亦或是“白手起家” , 制造出稀有的钻石工具都不在话下 , 这些任务即使是交给熟练的人类玩家来做 , 往往也需要数十分钟的流程以及上万个点击操作 。
AI学会自己建造传送门:

而该AI在经过训练后 , 则可以在没有任何外力辅助的情况下自主完成这一系列事件 , 这是此前其他AI都无法做到的 。 根据Open AI的介绍 , 能够实现这一成果 , 依靠的是在模仿学习(imitation learning)技术上的新突破 。
在这项技术中 , AI会被训练成通过观察并模仿人类的行为来完成相应的任务 , 此前很多效果都运用到了类似的原理 , 比如控制机械手臂或者驾驶汽车 。
既然AI需要观察模仿 , 那么就势必需要一定量的素材 , 而单就“熟练操作《我的世界》”而言 , 各大视频网站上的学习素材其实已经非常多 , 完全能够满足AI的学习需要 。

但问题是 , 还需要另一项额外的工作 , 即“让AI准确理解视频里的内容” 。
《我的世界》是一款没有明确目标的游戏 , 虽然网上素材繁多 , 可并不能直接拿来当作学习资料 , 因为视频里的每个动作和操作 , 其实都需要人类为其贴上“标签” , 也就是做出相应的注释 , 才能AI明白操作的含义 。
如果每个动作都需要人工注释 , 那效率自然会降低 , 为了解决这个问题 , 研究人员想出了一项新方法——训练能够自动为视频操作贴标签的AI 。
【我的世界|经过7万小时训练,OpenAI宣布做出了最强的《我的世界》AI】他们先是召集了一批志愿者玩家来操作游戏 , 并保留了玩家们的按键记录 , 在得到2000个小时的游戏数据后 , 研究人员训练了一个新的模型 , 并人工将按键操作与游戏里的效果一一对应 , 比如在什么情况下点击鼠标会让人物挥动斧头 。
下一步便是用这个模型来处理网上海量的《我的世界》视频 , 为他们贴上让AI能够理解的标签 。 根据公布的数据 , 为了得到理想的效果 , 科研人员提供的视频素材长达70000个小时 。
而这确实也获得了一定的成果 , 比如像开头说的那样 , AI已经学会了如何自己制作钻石工具 。 而Open AI的负责人Bowen Baker表示:“我们觉得《我的世界》是一个很好的研究领域 。 ”
由于《我的世界》没有明确的输赢且自由度极高 , 所以研究人员可以训练AI执行更多复杂的任务 , 而他们认为这些工作最终可以反哺到现实——如果AI能在游戏里设计一张桌子 , 那么在现实里没准也行 。