明朝版;今天的标题“这个北航出身的开源AI脑的孔大-量子比特

你知道下一个明代的“今天的标题”吗?

这个明早的新闻,其实说的是下面这样的话。

还有一个:

这个消息说的是:

这些明朝的“一句话”新闻,都是一种名为HistSumm的AI算法,基于文词抽取的摘要。

生成文本摘要的NLP很多,但是旧的汉语摘要的总结还是第一次。这项研究来自英国“谢菲尔德大学”的“北航”出身者和“北航”计算机系团队和“英国开放大学”。

这项研究最精彩的地方是,处理文言的算法是用现代的汉语数据训练出来的。

这个AI可以写明早的新闻

本文的主题是summarisinghistoricaltextinmodernLanguages,文中提出的核心算法是HistSumm。

研究小组分别以古德语和古汉语为目标语言,实现了算法的摘要提取。

其中,古汉语部分测试结果采用明朝历史文献。

《万历邸抄》是明万年间的“今日头条”,摘录自当时的官方《邸报》。内容包括皇帝诏书、民生百态、军事外交等。

团队使用HistSumm对《万历邸抄》中的100多个句子进行了概括提炼。

例如,这一段:

其中,story是原文,Expert是人类专家给出的摘要。

HistSumm在“相同词汇对”(Identical Mapping)的映射方法下得出了以下结果:。

idmap+conv(conv是通过简单的汉字转换强化语料库训练)的结果如下。

怎么样,摘要可以直接登在标题上吗?

让我们看另一个例子:

HistSumm提供了以下摘要:。

以上两个结果也分别是IdMap、IdMap+CONV得出的结果。

算法能准确掌握文言文的主要人物、事件和关系,但偶然发现细节缺失。

与最佳跨语言学习模式XLM的结果相比,HistSumm具有以下优点:。

△结果分别以ROUGE1、ROUGE2、ROUGEL基准得到

实验方法和思考方法

概括古汉语练习了的HistSumm的训练数据,其实大部分是现代汉语。

这是因为用于模型训练的旧汉语数据集太少了。

因此,研究团队建立了一个跨语言迁移学习框架。

步骤1、训练模式的现代与古汉语单词嵌入

在诸如中文的表意语言中,基于笔划(诸如字母语言的单词信息)训练的词语嵌入是实现最佳性能的途径。因此,团队利用笔划信息提取汉字的特征向量。

另外,还有一件重要的事情。简体字通常比训练资源中占主导地位的简化字,字画更丰富。例如,“叶”字中含有“草”(植物)和“木”的语义相关成分,但其简化版)叶))

这些繁体特征对于基于笔划的嵌入方案是有利的。因此,为了提高模型的性能,团队对繁体汉字进行了额外的实验。

创建特征向量空间

其次,团队为模型创造了两个语义空间。空间中的特征向量来自现代汉语和古汉语。

对于特征向量,主要采取两种引导策略。与UspMap(完全无监视)方式相同的词汇对方式。

前者只依赖于输入向量之间拓扑的相似性,后者以古今同意的词语为依据追加利用。

使用现代的汉语数据集的训练

在训练阶段,团队使用现代汉语数据集CSTS训练只接受现代汉语的输入的总括器。

当创建特征空间时,编码器的嵌入权重在对应的语言间词向量的现代词部分中被初始化。

解码器的嵌入权重被随机初始化,可以通过反向传播进行更新。

最后是模型的收敛。

团队将编码器的嵌入权重直接置换为矢量空间的古汉语特征矢量,得到了新的模型。此模型可在旧“汉语”中输入,但输出现代“汉语”语句。另外,整个过程不需要外部并行监视。

简而言之,团队使模型能够理解古文的关键是在特征向量空间中,建立相互联系的古汉语-现代汉语词汇对。然后,用现代的汉语数据训练模型,然后置换对应的特征向量。

北航出身的科研成果

本研究的第一作者Xutan Peng,目前在英国谢菲尔德大学读博士生,研究方向为自然语言。

Xutan Peng系就读于北京航空航天大学计算机系。

在本文的共同作者中,还有北航计算机系的Yi Zheng。

论文的另一位作者是谢菲尔德大学Lin Chenghua老师,本科毕业于北航计算机系。

本文作者Advaith Siddharthan博士是英国开放大学Knowledge Media Institute的研究院。

论文地址:https://arxiv.org/ABS/2101.10759

开源:https://github.com/pzoom522/histsumm

返回列表
上一篇:
下一篇:

文章评论