让AI通过93种语言:Facebook打出多语言语句嵌入,完成小语言-量子比特

在完成一种语言之后,您是否希望将算法无缝地迁移到近100种语言中。

AI真的没有教师。对于“语言不通而分散”的我们的人们来说,这正是天大的福音。

新建成的Facebook“多语言短语嵌入”就是这样的“神器”。他们提出了一种学习统一的联合多语言语句嵌入的新架构,以跨越34个语族、28种不同文字书写的93种语言。

例如,如果使用所显示的英语数据训练分类器算法,并教他们判断英语句子是否是孩子,那么就可以无缝地转移到其他语言,无论是豪瑟语、鞑靼语、汉语粤语,都可以判断是否有孩子。

如何才能一下子做好接受这么多语言的准备呢。

我们来看一下这个系统的架构。

它由编码器、解码器两大部分组成。这里,编码器是无关语言的BiLSTM,接着负责通过线性变化交换初始化LSTM解码器的构筑文的嵌入。

为了使用这样的一对编码器,解码器可以处理所有语言。另外,编码器最好不知道输入的语言是什么,这样就可以学会不依赖语言的显示。因此,您需要从所有输入词汇中学习一个“比特对嵌入式词典”(BPE)

但是解码器有完全相反的需求。如果你不知道输入的语言是什么,你就不能得到相应的输出。因此,Facebook对解码器附加语言ID,即上图的Lid的输入。

训练这样的系统,Facebook使用了16个雄心勃勃的V100GPU,将batch size设定为12.8万个token,历时5天训练了17个周期。

体系结构并不复杂,但效果如何。

使用包含14种语言的跨语言自然语言估计数据集(cross-lingual natural language inference,简称XNLI)进行测试,该多语言语句嵌入(上图的Proposed method)零数据(Zero-Shot)迁移成绩在其中13种语言中创下新记录,仅西班牙语例外。

另外,该系统使用ML-Doc数据集上的分类任务、包括BUCC双语文本数据挖掘的其他任务进行了测试。另外,在收集了许多外语学习者翻译例句的Tatoeba数据集的基础上,制作了证明独立算法在多语言相似度检索任务中的能力的122种语言排列句的测试集。

最后,附加传送门~

论文:

Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond

Mikel Artetxe, Holger Schwenk

https://arxiv.org/pdf/1812.10464.pdf

代码也是开源的,并且在Facebook之前释放的无关语言子句被嵌入到库LASER中:

https://github.com/Facebookresearch/LASER

返回列表
上一篇:
下一篇:

文章评论