科技资讯大全 2023-04-19 09:50:55 0

让AI通过93种语言：Facebook打出多语言语句嵌入，完成小语言-量子比特

在完成一种语言之后，您是否希望将算法无缝地迁移到近100种语言中。

AI真的没有教师。对于“语言不通而分散”的我们的人们来说，这正是天大的福音。

新建成的Facebook“多语言短语嵌入”就是这样的“神器”。他们提出了一种学习统一的联合多语言语句嵌入的新架构，以跨越34个语族、28种不同文字书写的93种语言。

例如，如果使用所显示的英语数据训练分类器算法，并教他们判断英语句子是否是孩子，那么就可以无缝地转移到其他语言，无论是豪瑟语、鞑靼语、汉语粤语，都可以判断是否有孩子。

如何才能一下子做好接受这么多语言的准备呢。

我们来看一下这个系统的架构。

它由编码器、解码器两大部分组成。这里，编码器是无关语言的BiLSTM，接着负责通过线性变化交换初始化LSTM解码器的构筑文的嵌入。

为了使用这样的一对编码器，解码器可以处理所有语言。另外，编码器最好不知道输入的语言是什么，这样就可以学会不依赖语言的显示。因此，您需要从所有输入词汇中学习一个“比特对嵌入式词典”（BPE）

但是解码器有完全相反的需求。如果你不知道输入的语言是什么，你就不能得到相应的输出。因此，Facebook对解码器附加语言ID，即上图的Lid的输入。

训练这样的系统，Facebook使用了16个雄心勃勃的V100GPU，将batch size设定为12.8万个token，历时5天训练了17个周期。

体系结构并不复杂，但效果如何。

使用包含14种语言的跨语言自然语言估计数据集（cross-lingual natural language inference，简称XNLI）进行测试，该多语言语句嵌入（上图的Proposed method）零数据（Zero-Shot）迁移成绩在其中13种语言中创下新记录，仅西班牙语例外。

另外，该系统使用ML-Doc数据集上的分类任务、包括BUCC双语文本数据挖掘的其他任务进行了测试。另外，在收集了许多外语学习者翻译例句的Tatoeba数据集的基础上，制作了证明独立算法在多语言相似度检索任务中的能力的122种语言排列句的测试集。

最后，附加传送门~

论文：

Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond

Mikel Artetxe, Holger Schwenk

https：//arxiv.org/pdf/1812.10464.pdf

代码也是开源的，并且在Facebook之前释放的无关语言子句被嵌入到库LASER中：

https：//github.com/Facebookresearch/LASER

文章评论