单词|这些令人不安的照片表明AI变聪明了!它在学习根据文字生成图片( 二 )


因此 Kembhavi 和他的同事 Jaemin Cho、Jiasen Lu 和 Hannaneh Hajishirzi 决定看看他们是否可以通过调整遮罩的方式,来教授 AI 所有这些隐式视觉知识。他们训练模型不是为了从对应图片中预测被遮盖的单词,而是为了让它能从文本中 “脑补” 图片中的缺失部分。
虽然模型最终生成的图像并不完全真实,但这不是重点。重要的是这预示着模型已经包含了正确的高级视觉概念,即 AI 一定程度上具备了儿童的根据文本画图的能力。

单词|这些令人不安的照片表明AI变聪明了!它在学习根据文字生成图片
文章插图

图 | AI2 模型根据文本生成的图像示例 (来源:MIT TR)
视觉语言模型获得此类图像生成的能力代表了 AI 研究的重要一步,这表明该模型实际上具有一定程度的抽象能力,而这是理解世界的基本技能。
未来,这项技术很可能对机器人领域产生极大影响。机器人可以使用语言进行交流,当它们对视觉信息的理解越好,就越能够执行复杂的任务。
【 单词|这些令人不安的照片表明AI变聪明了!它在学习根据文字生成图片】Hajishirzi 说,从短期来看,这种可视化还可以帮助技术人员更好地理解 AI 模型的学习过程。之后,AI2 团队计划展开更多实验,以提高图像生成的质量,并拓宽模型的视觉和语言。