《降临》作者特德·姜:ChatGPT是网上所有文本的模糊图像( 三 )


大型语言模型识别文本中的统计规律 。 对网络文本的任何分析都会揭示 , 像“供应不足”这样的短语经常出现在“价格上涨”这样的短语附近 。 当被问及有关供应短缺影响的问题时 , 包含这种相关性的聊天机器人可能会回答有关价格上涨的问题 。 如果一个大语言模型已经编译了大量经济术语之间的相关性——多到可以对各种各样的问题提供合理的回答——我们是否应该说它实际上理解了经济理论?像ChatGPT这样的模型没有资格获得赫特奖 , 原因有很多 , 其中之一就是它们不能精确地重建原始文本 , 也就是说它们不执行无损压缩 。 但是 , 它们的有损压缩是否可能表明 , 人工智能研究人员真正理解了他们感兴趣的那种类型?
《降临》作者特德·姜:ChatGPT是网上所有文本的模糊图像
文章图片
《降临》作者特德·姜:ChatGPT是网上所有文本的模糊图像】2023年2月6日 , 上海 , 一位年轻人使用手机和电脑访问OpenAI的网站 , 显示ChatGPT目前已满负荷运转 , 已关闭服务 , 用户可要求ChatGPT在恢复服务时收到电邮通知 。 视觉中国图
让我们回到算术的例子 。 如果你要求GPT-3(ChatGPT构建的大语言模型)添加或减去一对数字 , 当数字只有两位数时 , 它几乎总是会给出正确的答案 。 但数字越大 , 准确率就会显著下降 , 当数字有五位数时 , 准确率会下降到10% 。 GPT-3给出的大多数正确答案都不能在网上找到——例如 , 包含“245+821”文本的网页并不多——所以它不是在进行简单的记忆 。 但是 , 尽管吸收了大量的信息 , 它也无法推导出算术原理 。 仔细检查GPT-3的错误答案表明 , 它在执行算术时不带“1” 。 万维网上当然包含携带“1”的解释 , 但是GPT-3不能包含这些解释 。 GPT-3对算术例子的统计分析使它能够产生与真实事物的表面近似 , 但仅此而已 。
鉴于GPT-3在小学教学科目上的失败 , 我们如何解释它有时在写大学水平的论文时表现良好的事实?尽管大语言模型经常产生幻觉 , 但当它们清醒时 , 它们好像真的能理解经济理论等学科 。 也许算术是一个特殊的情况 , 大语言模型不太适合 。 有没有可能 , 在加减法之外的领域 , 文本中的统计规律确实与真实世界的真实知识相对应?
我认为有一个更简单的解释 。 想象一下 , 如果ChatGPT是一种无损算法会是什么样子 。 如果是这样的话 , 它总是通过提供来自相关网页的逐字引用来回答问题 。 我们可能会认为这个软件只是对传统搜索引擎的轻微改进 , 并对它印象不太深刻 。 ChatGPT从网络上重新表达材料 , 而不是逐字引用 , 这让它看起来像一个学生用自己的话表达思想 , 而不是简单地重复他读过的东西 。 它会造成ChatGPT理解了材料的错觉 。 在人类学生中 , 死记硬背并不是真正学习的标志 , 因此ChatGPT无法从网页中准确地引用内容 , 这恰恰使我们认为它学到了一些东西 。 当我们处理单词序列时 , 有损压缩看起来比无损压缩更聪明 。
大语言模型已经有了很多种用法 。 把它们看作是模糊的JPEG文件 , 这就提供了一种评估它们可能适合或不适合的方法 。 让我们思考几种情况 。
大语言模型能取代传统搜索引擎吗?为了让我们对它们有信心 , 我们需要知道他们有没有被灌输政治宣传和阴谋论——我们需要知道JPEG是否捕捉了正确的网络区域 。 但是 , 即使大语言模型只包含我们想要的信息 , 仍然存在模糊性的问题 。 有一种模糊是可以接受的 , 那就是用不同的词重新陈述信息;对于完全捏造的模糊 , 当我们寻找事实时 , 我们认为这是不可接受的 。 在消除不可接受的模糊性的同时 , 保留可接受的模糊性 , 在技术上是否可行尚不清楚 , 但我希望在不久的将来 , 我们能找到答案 。