你知道下一个明代的“今天的标题”吗?
这个明早的新闻,其实说的是下面这样的话。
还有一个:
这个消息说的是:
这些明朝的“一句话”新闻,都是一种名为HistSumm的AI算法,基于文词抽取的摘要。
生成文本摘要的NLP很多,但是旧的汉语摘要的总结还是第一次。这项研究来自英国“谢菲尔德大学”的“北航”出身者和“北航”计算机系团队和“英国开放大学”。
这项研究最精彩的地方是,处理文言的算法是用现代的汉语数据训练出来的。
这个AI可以写明早的新闻
本文的主题是summarisinghistoricaltextinmodernLanguages,文中提出的核心算法是HistSumm。
研究小组分别以古德语和古汉语为目标语言,实现了算法的摘要提取。
其中,古汉语部分测试结果采用明朝历史文献。
《万历邸抄》是明万年间的“今日头条”,摘录自当时的官方《邸报》。内容包括皇帝诏书、民生百态、军事外交等。
团队使用HistSumm对《万历邸抄》中的100多个句子进行了概括提炼。
例如,这一段:
其中,story是原文,Expert是人类专家给出的摘要。
HistSumm在“相同词汇对”(Identical Mapping)的映射方法下得出了以下结果:。
idmap+conv(conv是通过简单的汉字转换强化语料库训练)的结果如下。
怎么样,摘要可以直接登在标题上吗?
让我们看另一个例子:
HistSumm提供了以下摘要:。
以上两个结果也分别是IdMap、IdMap+CONV得出的结果。
算法能准确掌握文言文的主要人物、事件和关系,但偶然发现细节缺失。
与最佳跨语言学习模式XLM的结果相比,HistSumm具有以下优点:。
△结果分别以ROUGE1、ROUGE2、ROUGEL基准得到
实验方法和思考方法
概括古汉语练习了的HistSumm的训练数据,其实大部分是现代汉语。
这是因为用于模型训练的旧汉语数据集太少了。
因此,研究团队建立了一个跨语言迁移学习框架。
步骤1、训练模式的现代与古汉语单词嵌入
在诸如中文的表意语言中,基于笔划(诸如字母语言的单词信息)训练的词语嵌入是实现最佳性能的途径。因此,团队利用笔划信息提取汉字的特征向量。
另外,还有一件重要的事情。简体字通常比训练资源中占主导地位的简化字,字画更丰富。例如,“叶”字中含有“草”(植物)和“木”的语义相关成分,但其简化版)叶))
这些繁体特征对于基于笔划的嵌入方案是有利的。因此,为了提高模型的性能,团队对繁体汉字进行了额外的实验。
创建特征向量空间
其次,团队为模型创造了两个语义空间。空间中的特征向量来自现代汉语和古汉语。
对于特征向量,主要采取两种引导策略。与UspMap(完全无监视)方式相同的词汇对方式。
前者只依赖于输入向量之间拓扑的相似性,后者以古今同意的词语为依据追加利用。
使用现代的汉语数据集的训练
在训练阶段,团队使用现代汉语数据集CSTS训练只接受现代汉语的输入的总括器。
当创建特征空间时,编码器的嵌入权重在对应的语言间词向量的现代词部分中被初始化。
解码器的嵌入权重被随机初始化,可以通过反向传播进行更新。
最后是模型的收敛。
团队将编码器的嵌入权重直接置换为矢量空间的古汉语特征矢量,得到了新的模型。此模型可在旧“汉语”中输入,但输出现代“汉语”语句。另外,整个过程不需要外部并行监视。
简而言之,团队使模型能够理解古文的关键是在特征向量空间中,建立相互联系的古汉语-现代汉语词汇对。然后,用现代的汉语数据训练模型,然后置换对应的特征向量。
北航出身的科研成果
本研究的第一作者Xutan Peng,目前在英国谢菲尔德大学读博士生,研究方向为自然语言。
Xutan Peng系就读于北京航空航天大学计算机系。
在本文的共同作者中,还有北航计算机系的Yi Zheng。
论文的另一位作者是谢菲尔德大学Lin Chenghua老师,本科毕业于北航计算机系。
本文作者Advaith Siddharthan博士是英国开放大学Knowledge Media Institute的研究院。
论文地址:https://arxiv.org/ABS/2101.10759
开源:https://github.com/pzoom522/histsumm
文章评论