梗概|12万词名著175词讲完,AI比我会抓重点

梗概|12万词名著175词讲完,AI比我会抓重点
文章插图
智东西(公众号:zhidxcom)
作者 | 李水青
编辑 |心缘
读完一本书后对故事内容进行总结概述,这件事情对于一个人类来讲并不是能不假思索完成的。现在,机器学习模型可以了。
近日,美国著名人工智能非营利组织OpenAI公布了一项新成果——由GPT-3微调而来能总结梗概书籍内容的算法模型,它不仅可以对每本书的各个章节进行概述,还能够进行更高层次的总结。
用机器学习来写作体育比赛、地震、财经新闻等类别的文字摘要已经较为常见,此前,学术出版商Springer Nature也借助机器学习对锂离子电池领域的数百篇研究论文做了综述,使读者根据摘要去有选择地阅读全文。
不过,本次OpenAI首次将其在去年6月推出的大型语言模型GPT-3进行应用,开发出能对文学名著等图书进行总结概述的算法模型。
据称,该进展是团队第一次关于梗概对齐技术(scaling alignment techniques.)的大型实证工作。这里提到的对齐技术,简单来说就是找到能够对人一般智能进行对齐的技术,这一类研究目前是机器学习研究的一大挑战。
梗概|12万词名著175词讲完,AI比我会抓重点
文章插图
【 梗概|12万词名著175词讲完,AI比我会抓重点】论文链接:
https://arxiv.org/abs/2109.10862
一、AI读名著:将12万词小说提炼出175词摘要我们来看看OpenAI团队的成果,模型能对图书内容进行怎样的梗概?
以很多人看过的《爱丽丝梦游仙境》为例,这本书共十二个章节,近26,449词。在AI更改后变成以下136词英文摘要,也就是差不多一条微博文字的长度,大家感受一下:
梗概|12万词名著175词讲完,AI比我会抓重点
文章插图
可以看到,AI在事件概述上抓住了主要人物、事件和时间顺序,但同时也显得有些流水账、缺起承转合,很像一个小学生回家后被要求给爸爸妈妈复述课本上内容的反应。
看完童话故事,再看看更有难度的著名剧作家莎士比亚的名著《罗密欧与朱丽叶》,“读”完这本书后,AI写下119词摘要:
梗概|12万词名著175词讲完,AI比我会抓重点
文章插图
如果说梗概简单的童话故事AI尚能胜任,那么理解成人的爱情故事对它来说就显得有些吃力。它确实把主角罗密欧与朱丽叶前后的相遇、相爱、分别、死亡点到了,却让人感到旷世的爱情悲剧好像被讲成一场碎片拼贴起来的drama悬疑剧,让读者找不到矛盾的核心,更不用提被爱情感动。不过,仅从叙事梗概这个层次来说,机器做得还是比较准确的。
看完AI对短篇文学作品的梗概,我们再来看看中长篇,比如简·奥斯汀12万词的《傲慢与偏见》,摘要是这样的:
梗概|12万词名著175词讲完,AI比我会抓重点
文章插图
中文译文参考如下:
梗概|12万词名著175词讲完,AI比我会抓重点
文章插图
这一小说主要讲述了乡绅之女伊丽莎白·贝内特和富有的达西先生,以及他们的亲友简和宾格利的爱情故事,反映了19世纪英国乡绅阶层的礼节、成长、教育、道德、婚姻的情态。可以看到机器还是抓住了几个主角的爱情故事的主旋律,逻辑基本没有问题。不过不足之处和前面也十分类似,机械化、堆砌、缺乏多层次抽象。
不过,对于这项需要从海量的人物、动作、心理、环境等描写和复杂的时间线、场景转换中总结出主角、主要事件的任务来说,OpenAI的这项模型已经表现不错。据团队称,其输出结果在BookSum数据集、“叙事QA”数据集上都实现了最先进的结果,这表明尽管你觉得这一模型表现跟人类差远了,但这已是世界先进水平。