太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板

太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
文章图片
万一DALL·E-2是在向人类发出什么了不得的信号呢?这门语言快学起来!作者|李梅、刘冰一编辑|陈彩娴
DALL·E和DALL·E-2从文本生成图像的魔力 , 想必大家都已经见识过了 。 作为深度生成模型 , 它们能够将文本作为输入 , 生成匹配给定文本的超逼真图像 。 不过 , DALL·E-2的一个众所周知的局限性是它在生成带文本的图像时很吃力 。 例如 , 给出文本提示:Twofarmerstalkingaboutvegetables , withsubtitles.(两个农民在谈论蔬菜 , 有字幕)DALL·E-2生成的图像如下:太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
文章图片
谁能告诉我这张图上的文字是什么语言?什么意思???在DALL·E-2所生成的带有文本的图像中 , DALL·E-2显然在说一种我们人类看不懂的语言 。 其实这一点在最初的DALL·E-2论文以及Marcus等人对该模型的初步评估中就已经发现了 。 而最近有人发现 , 这些让人无法理解的文本并不是随机的!来自德克萨斯大学奥斯汀分校的博士生GiannisDaras和AlexandrosG.Dimakis教授 , 发现DALLE-2背后竟然有一套秘密语言 , 模型内部似乎有一套隐藏的词汇表 , 从这些隐藏的词汇中 , 模型会学习一些单词 , 并创造一些荒谬的文本提示来生成图像 。
比如 , 在DALL·E-2的语言系统里 , Apoploevesrreaitais意思是鸟类 , Contarraccetnxniamslurycatanniounons则表示昆虫或害虫 。 当你输入这个句子作为文本提示时:ApoploevesrreaitaiseatingContarraccetnxniamslurycatanniounonsDALL·E-2生成了下面这些图像 , 图像内容翻译成英语 , 显然是“Abirdiseatingabug”(一只鸟在吃虫子)太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
文章图片
DALL·E-2这是「成精」了?太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
文章图片
1DALL·E-2的秘密语言Daras和Dimakis采用了一种简单的方法来破解DALL·E-2的词汇库 。 比如 , 假设我们想找到在DALL·E-2的语言系统中 , “vegetables(蔬菜)”这个英语单词对应的词是什么 , 就可以用下面这些句子来提示DALL·E-2:Abookthathasthewordvegetableswrittenonit.(上面写着“蔬菜”一词的书 。 )Twopeopletalkingaboutvegetables,withsubtitles.(两个人在谈论蔬菜 , 有字幕 。 )Thewordvegetableswrittenin10languages.(以10种语言书写的“蔬菜”一词 。 )然后 , DALL·E-2就会生成带有表示“蔬菜”义的文本的图像 , 比如在上面那张“两个农民在谈论蔬菜”的图片中 , DALL·E-2给出了自己的翻译文本:AvcopinitegoosVicootes,Apoploevesrreaitais 。 下一步 , 我们就可以输入DALL·E-2自己的词汇 , 来看它会生成什么图像 。 比如下图(左)是从单词“vicootes”生成的图像 , 下图(右)是从短语“apoploevesrreaitais”生成的图像:太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
文章图片
懂了懂了 , 所以“vicotes”的意思是“蔬菜” , “apoploevesrreaitais”的意思是”鸟类”~只是这些鸟看起来倔强而自由 , 仿佛正盯着对农民的蔬菜准备搞破坏 。 DALL·E-2:所以这张图什么意思 , 不用我说了吧 。 太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
文章图片
好玩真好玩 , 我已经迫不及待想要学会DALL·E-2的这门语言了!再看一个例子 。 输入文本“Twowhalestalkingaboutfood,withsubtitles”(两只鲸鱼在谈论食物 , 有字幕) , DALL·E-2给出了如下的图片回执(左)~上面写着“Wachzodahaakesrea.”谁看的懂??可能人类不懂就对了——我猜这两头鲸鱼正在用DALLE-2的语言谈论它们的食物 。 紧接着 , 把这句话作为输入 , DALL·E-2生成的图像(右)是......一堆海鲜美食!