业界动态 2023-04-18 09:20:15 0

明朝版；今天的标题“这个北航出身的开源AI脑的孔大-量子比特

你知道下一个明代的“今天的标题”吗？

这个明早的新闻，其实说的是下面这样的话。

还有一个：

这个消息说的是：

这些明朝的“一句话”新闻，都是一种名为HistSumm的AI算法，基于文词抽取的摘要。

生成文本摘要的NLP很多，但是旧的汉语摘要的总结还是第一次。这项研究来自英国“谢菲尔德大学”的“北航”出身者和“北航”计算机系团队和“英国开放大学”。

这项研究最精彩的地方是，处理文言的算法是用现代的汉语数据训练出来的。

这个AI可以写明早的新闻

本文的主题是summarisinghistoricaltextinmodernLanguages，文中提出的核心算法是HistSumm。

研究小组分别以古德语和古汉语为目标语言，实现了算法的摘要提取。

其中，古汉语部分测试结果采用明朝历史文献。

《万历邸抄》是明万年间的“今日头条”，摘录自当时的官方《邸报》。内容包括皇帝诏书、民生百态、军事外交等。

团队使用HistSumm对《万历邸抄》中的100多个句子进行了概括提炼。

例如，这一段：

其中，story是原文，Expert是人类专家给出的摘要。

HistSumm在“相同词汇对”（Identical Mapping）的映射方法下得出了以下结果：。

idmap+conv（conv是通过简单的汉字转换强化语料库训练）的结果如下。

怎么样，摘要可以直接登在标题上吗？

让我们看另一个例子：

HistSumm提供了以下摘要：。

以上两个结果也分别是IdMap、IdMap+CONV得出的结果。

算法能准确掌握文言文的主要人物、事件和关系，但偶然发现细节缺失。

与最佳跨语言学习模式XLM的结果相比，HistSumm具有以下优点：。

△结果分别以ROUGE1、ROUGE2、ROUGEL基准得到

实验方法和思考方法

概括古汉语练习了的HistSumm的训练数据，其实大部分是现代汉语。

这是因为用于模型训练的旧汉语数据集太少了。

因此，研究团队建立了一个跨语言迁移学习框架。

步骤1、训练模式的现代与古汉语单词嵌入

在诸如中文的表意语言中，基于笔划（诸如字母语言的单词信息）训练的词语嵌入是实现最佳性能的途径。因此，团队利用笔划信息提取汉字的特征向量。

另外，还有一件重要的事情。简体字通常比训练资源中占主导地位的简化字，字画更丰富。例如，“叶”字中含有“草”（植物）和“木”的语义相关成分，但其简化版）叶））

这些繁体特征对于基于笔划的嵌入方案是有利的。因此，为了提高模型的性能，团队对繁体汉字进行了额外的实验。

创建特征向量空间

其次，团队为模型创造了两个语义空间。空间中的特征向量来自现代汉语和古汉语。

对于特征向量，主要采取两种引导策略。与UspMap（完全无监视）方式相同的词汇对方式。

前者只依赖于输入向量之间拓扑的相似性，后者以古今同意的词语为依据追加利用。

使用现代的汉语数据集的训练

在训练阶段，团队使用现代汉语数据集CSTS训练只接受现代汉语的输入的总括器。

当创建特征空间时，编码器的嵌入权重在对应的语言间词向量的现代词部分中被初始化。

解码器的嵌入权重被随机初始化，可以通过反向传播进行更新。

最后是模型的收敛。

团队将编码器的嵌入权重直接置换为矢量空间的古汉语特征矢量，得到了新的模型。此模型可在旧“汉语”中输入，但输出现代“汉语”语句。另外，整个过程不需要外部并行监视。

简而言之，团队使模型能够理解古文的关键是在特征向量空间中，建立相互联系的古汉语-现代汉语词汇对。然后，用现代的汉语数据训练模型，然后置换对应的特征向量。

北航出身的科研成果

本研究的第一作者Xutan Peng，目前在英国谢菲尔德大学读博士生，研究方向为自然语言。

Xutan Peng系就读于北京航空航天大学计算机系。

在本文的共同作者中，还有北航计算机系的Yi Zheng。

论文的另一位作者是谢菲尔德大学Lin Chenghua老师，本科毕业于北航计算机系。

本文作者Advaith Siddharthan博士是英国开放大学Knowledge Media Institute的研究院。

论文地址：https：//arxiv.org/ABS/2101.10759

开源：https：//github.com/pzoom522/histsumm

标签：汉语 IS 训练

相关文章 关键词： 汉语 IS 训练

文章评论

相关文章
关键词：汉语 IS 训练