这次AI自己制作了AI论文的摘要。
今天,在[推特]中,可以自动生成长句摘要的Transformer语言模型的论文成为了话题。
注意到的网友看到论文摘要的结尾,注意到斜体的备注上写着:“这个摘要不是作者写的,而是从研究展示的模型中自动生成的。”。
和真的一模一样的生成质量,让很多网友大吃一惊。另外,其生成方法也不一般。
即使没有复制机制,Transformer语言模型对于总结较长的科学文章也是非常有效的,这证明它优于传统的seq2seq方法。
此外,与以前使用复制机制的研究相比,新方法生成的摘要更加完整,在评估自动生成的摘要和翻译水平的ROUGE评估中获得了更高的分数。
这项研究由OpenAI研究者牛津大学人类未来研究所研究员Miles Brundage推荐转发,不到一天就收集了近2000个“赞!”,网友称之为“摘要教程测试”。
另外,也有意见认为,未来10年内,transformer的第一篇研究论文可能会发表。
那么,这个让网友震惊的摘要制作模式,到底是怎么看起来像真的呢
请看摘要↓
它是一个非复制机构
到现在为止摘要抽出的方法,seq2seq(把关键字识别作为问题定义,把关键字句作为单词的列看输出的seq2seq)的学习方法是主流。
为了控制参数的数量,只选出频率比较高的词语,所以产生了频率比较低、重要的词语在提取过程中会脱落的“复制机制”。
将模型解码器的隐藏状态的一部分作为特定位置,在生成过程中不定义关键字而直接复制。
这样的话,原来文章中的重要信息就这样保留下来了,可以在输出地进行摘要。
这篇论文说,即使不使用复制机制,也能准确提取重要信息。这是怎么做到的呢
转换语言模型
在文章中,“提取和出口”和“出口”区域尺寸规格转换窗模型显示了具体模型的结构。
该模型分阶段提取科学论文摘要。
首先,从论文中提取重要信息。
然后,提取出的句子和整个文章一起按序言、提取出的句子、摘要和论文内容的顺序排列。Transformer语言模型在一篇由这种格式组成的论文上进行训练。
推论将引入语句和提取语句作为上下文提供给语言模型,并最终生成摘要。在新闻和专利领域,部署部分将被全文替换
与传统的神经抽象方法不同,这种方法不使用带有显式编码器和解码器的seq2seq公式生成单词。
具体来说,我们在推论阶段使用了一种类似于单个GPT的Transformer语言模型(TLM)来训练基于文档从语言模型生成摘要。
研究人员将这项任务分为两种:提取步骤和抽象步骤。
为了处理成千上万的长文档,一个以指针网络为基础,另一个以句子分类器为基础,使用两种不同的分层文档模型提取语句,并确保在创建摘要之前更好地调整Transformer语言模型中的相关信息。
研究人员选择了arXiv、PubMed、bigPatent、Newsroom这4个不同的数据集,使用模型和Rouge指标进行了测试。
arXiv的科学论文
新闻室的新闻
就连PubMed的生物医学论文
130万份美国专利文献记录bigPatent:
新的方法TLM都优于以前的提要提要baseline,超过了以前的提要结果。
作者介绍
这篇论文有三部共同作品,都是由Element AI撰写的。
蒙特利尔学习算法研究所的Sandeep Subramanian、Raymond Li、蒙特利尔大学的Jonathan Pilault、Christopher Pal等。
Element AI是蒙特利尔大学计算机系教授约书亚本吉奥(Joshua Bencio)获得了Turing奖设立的孵化器,他帮助蒙特利尔大学和麦吉尔大学的AI创业者。
是传送门
On Extractive and Abstractive Neural Document Summarization with Transformer Language Models
https://arxiv.org/abs/1909.03186
文章评论