《降临》作者特德·姜:ChatGPT是网上所有文本的模糊图像( 二 )


于是 , 失去网络连接不再那么可怕 , 因为你把网络上的所有信息都存储在了你的服务器上 。 唯一的问题是 , 由于文本被高度压缩 , 你无法通过搜索准确的引用来查找信息;你永远不会得到一个精确的匹配 , 因为存储的不是单词 。 为了解决这个问题 , 你创建了一个接口 , 该接口接受问题形式的查询 , 并以传达服务器上的要点的答案进行响应 。
我所描述的听起来很像ChatGPT , 或者大多数其他大语言模型 。 可以把ChatGPT看作是万维网上所有文本的模糊JPEG 。 它保留了万维网上的大部分信息 , 就像JPEG保留了高分辨率图像的大部分信息一样 。 但是 , 如果你要寻找精确的比特序列 , 你无法找到它 , 你得到的只是一个近似值 。 但是 , 因为这个近似值是以语法文本的形式呈现的 , 而ChatGPT擅长创建语法文本 , 所以它通常是可以接受的 。 你看到的仍然是一张模糊的JPEG , 但模糊发生的方式不会使图片整体看起来不那么清晰 。
这种与有损压缩的类比不仅仅是一种理解ChatGPT通过使用不同的单词重新打包万维网上找到的信息的方法 , 它也是一种理解“幻觉”或对事实性问题的无意义回答的方法 。 而大语言模型(如ChatGPT)都很容易出现这种情况 。 这些幻觉是压缩后的产物 。 但是 , 就像施乐复印机产生的错误标签一样 , 它们似乎是可信的 , 要识别它们就需要将它们与原件进行比较 。 在这种情况下 , 这意味着要么是万维网 , 要么是我们自己对世界的认识 。 当我们这样想的时候 , 这样的幻觉一点也不令人惊讶 。 如果一种压缩算法被设计成在99%的原始文本被丢弃后重建文本 , 我们应该预料到它生成的很大一部分内容将完全是捏造的 。
当我们记得有损压缩算法使用的一种常用技术是插值(译者注:一种通过已知的、离散的数据点 , 在范围内推求新数据点的过程或方法)时 , 这个类比就更有意义了——也就是说 , 通过查看间隙两侧的内容来估计缺失的内容 。 当图像程序显示照片时 , 必须重建压缩过程中丢失的像素时 , 它会查看附近的像素并计算平均值 。 这就是当ChatGPT被提示用《独立宣言》的风格描述丢在烘干机里的袜子时所做的事情:它在“词汇空间”中取两个点 , 并生成占据它们之间位置的文本 。 (“在人类事件的过程中 , 一个人有必要把他的衣服与他们的同伴分开 , 以保持其清洁和秩序……”)ChatGPT非常擅长这种形式的插值 , 人们发现它很有趣:他们发现了一种用于段落而不是照片的“模糊”工具 , 并且玩得很开心 。
鉴于像ChatGPT这样的大语言模型经常被吹捧为人工智能的前沿 , 将它们描述为有损文本压缩算法可能听起来令人不屑一顾 , 或者至少令人泄气 。 我确实认为这种观点为将大语言模型人格化的趋势提供了有用的纠正 , 但是压缩类比还有另一个方面值得考虑 。 自2006年以来 , 一位名叫马库斯·赫特(MarcusHutter)的人工智能研究人员提供了一项现金奖励——被称为“压缩人类知识奖”或“赫特奖” , 奖励任何能够无损地压缩维基百科特定1GB快照的人 , 要求比上一位获奖者的数据更小 。 你可能遇到过使zip文件格式压缩的文件 。 zip格式将赫特的1GB文件压缩到300兆左右;而最近的获奖者已经设法将其减少到115兆字节 。 这不仅仅是一次磨合练习 。 赫特认为 , 更好的文本压缩将有助于创造人类级别的人工智能 , 部分原因是通过理解文本可以实现最大程度的压缩 。
为了理解压缩和理解之间的关系 , 假设你有一个文本文件 , 其中包含上百万个加减乘除的示例 。 尽管任何压缩算法都可以减小这个文件的大小 , 但要实现最大的压缩比 , 可能需要推导出算术原理 , 然后编写计算器程序的代码 。 使用计算器 , 你不仅可以完美地重建文件中的数百万个示例 , 还可以重建将来可能遇到的任何其他算术示例 。 同样的逻辑也适用于压缩维基百科的一部分 。 如果压缩程序知道力等于质量乘以加速度 , 那么在压缩有关物理的页面时 , 它可以丢弃大量的单词 , 因为它能够重建它们 。 同样 , 程序对供求关系了解得越多 , 在压缩有关经济的页面时 , 就能丢弃越多的单词 , 等等 。